Устранение проблем с производительностью, связанных с событием 2115, в Operations Manager

Эта статья поможет выявить и устранить проблемы с производительностью, влияющие на время вставки данных базы данных Operations Manager (OpsMgr) и хранилища данных. Он применяется ко всем поддерживаемым версиям System Center Operations Manager.

Исходная версия продукта: System Center Operations Manager
Исходный номер базы знаний: 2681388

Типичным признаком проблем с производительностью базы данных Operations Manager является наличие событий с идентификатором 2115 в журнале событий Operations Manager. Эти события обычно указывают на наличие проблем с производительностью на сервере управления или на сервере под управлением Microsoft SQL Server, где размещаются базы данных Operations Manager или хранилища данных Operations Manager.

Общие сведения

Рабочие процессы действий записи базы данных и хранилища данных выполняются на серверах управления. Эти рабочие процессы сначала хранят данные, полученные от агентов и серверов шлюзов, во внутреннем буфере. Затем они собирают эти данные из внутреннего буфера и вставляют их в базу данных и хранилище данных. После завершения первой вставки данных рабочие процессы создают другой пакет.

Размер каждого пакета данных зависит от того, сколько данных будет доступно в буфере при создании пакета. Однако существует максимальное ограничение в 5000 элементов данных в пакете. При увеличении скорости входящих элементов данных или снижена пропускная способность вставки элементов данных для баз данных Operation Manager и хранилища данных, буфер накапливает больше данных, а размер пакета увеличивается.

Существует несколько рабочих процессов действий записи, которые выполняются на сервере управления. Например, следующие рабочие процессы обрабатывают вставку данных в базы данных Operations Manager и хранилища данных для разных типов данных:

  • Microsoft.SystemCenter.DataWarehouse.CollectEntityHealthStateChange
  • Microsoft.SystemCenter.DataWarehouse.CollectPerformanceData
  • Microsoft.SystemCenter.DataWarehouse.CollectEventData
  • Microsoft.SystemCenter.CollectAlerts
  • Microsoft.SystemCenter.CollectEntityState
  • Microsoft.SystemCenter.CollectPublishedEntityState
  • Microsoft.SystemCenter.CollectDiscoveryData
  • Microsoft.SystemCenter.CollectSignatureData
  • Microsoft.SystemCenter.CollectEventData

Когда рабочий процесс действия записи базы данных или хранилища данных на сервере управления выполняется медленно (например, свыше 60 секунд), рабочий процесс начинает записывать событие с идентификатором 2115 в журнал событий Operations Manager. Это событие регистрируется каждую минуту, пока пакет данных не будет вставлен в базу данных или хранилище данных или данные не будут удалены модулем рабочего процесса действия записи. Таким образом, событие с идентификатором 2115 регистрируется из-за задержки, возникающей во время вставки данных в базу данных или хранилище данных. Ниже приведен пример события, которое регистрируется в журнале, так как данные удаляются модулем рабочего процесса действия записи:

Тип события: Ошибка
Источник события: HealthService
Категория события: None
Идентификатор события: 4506
Компьютер: <имя RMS>
Описание:
Данные были удалены из-за слишком большого количества незавершенных данных в правиле Microsoft.SystemCenter.OperationalDataReporting.SubmitOperationalDataFailed.Alert, выполняющемся для примера <имя RMS> с идентификатором:"{F56EB161-4ABE-5BC7-610F-4365524F294E}" в группе <управления ИМЯ> ГРУППЫ УПРАВЛЕНИЯ.

Более глубокий взгляд

Идентификатор события 2115 содержит два важных фрагмента информации:

  • Имя рабочего процесса, в котором возникла проблема
  • Время, затраченное с момента начала вставки последнего пакета данных рабочим процессом

Например:

Имя журнала: Operations Manager
Источник: HealthService
Идентификатор события: 2115
Уровень: предупреждение
Компьютер: <имя RMS>
Описание:
Источник данных привязки в группе <управления ИМЯ> группы управления опубликовал элементы в рабочий процесс, но не получил ответ в течение 300 секунд. Это указывает на проблему производительности или функциональности рабочего процесса.
Идентификатор рабочего процесса: Microsoft.SystemCenter.CollectPublishedEntityState
Экземпляр : <имя RMS>
Идентификатор экземпляра: {88676CDF-E284-7838-AC70-E898DA1720CB}

Рабочий Microsoft.SystemCenter.CollectPublishedEntityState процесс записывает данные состояния сущности в базу данных Operations Manager. Сообщение с идентификатором события 2115 указывает, что рабочий Microsoft.SystemCenter.CollectPublishedEntityState процесс пытается вставить пакет данных состояния сущности и что он был запущен 300 секунд назад. В этом примере вставка данных состояния сущности не завершена. Как правило, вставка пакета данных должна быть завершена в течение 60 секунд.

Если идентификатор рабочего процесса содержит термин DataWarehouse, проблема связана с базой данных хранилища данных Operations Manager. В противном случае проблема связана с вставой данных в базу данных Operations Manager.

Причина

Такие проблемы могут быть вызваны любой из следующих проблем.

Проблемы с вставками

Эта проблема может свидетельствовать о проблеме с производительностью базы данных или о том, что агенты отправляют слишком много данных. Описание события с идентификатором 2115 указывает только на то, что существует невыполненная работа, которая влияет на вставку данных в базу данных (Operations Manager или хранилище данных Operations Manager). Эти события могут возникать по многим причинам. Например, может возникнуть внезапный большой объем данных обнаружения. Кроме того, может возникнуть проблема с подключением к базе данных. Кроме того, база данных может быть заполнена. Кроме того, может быть ограничение, связанное с диском или сетью.

В Operations Manager вставка данных обнаружения является относительно трудоемким процессом. Он также может выполняться с ускорением, когда сервер управления получает значительный объем данных. Эти всплески могут привести к временным экземплярам идентификаторов событий 2115, но если событие с идентификатором 2115 постоянно отображается для сбора данных обнаружения, это может указывать на проблему вставки базы данных или хранилища данных или правила обнаружения в пакете управления, собирающего слишком много данных обнаружения.

Обновления конфигурации Operations Manager, вызванные изменением пространства экземпляра или импортом пакета управления, напрямую влияют на загрузку ЦП на сервере базы данных. Это может повлиять на время вставки базы данных. После импорта пакета управления или изменения пространства крупных экземпляров ожидается отображение сообщений о событии с идентификатором 2115. Дополнительные сведения см. в статье Обнаружение и устранение частых изменений конфигурации в Operations Manager.

В Operations Manager дорогостоящие запросы пользовательского интерфейса также могут повлиять на использование ресурсов в базе данных, что может привести к задержке во время вставки базы данных. Когда пользователь выполняет ресурсоемую операцию пользовательского интерфейса, вы можете увидеть в журнале сообщения о событии с идентификатором 2115.

Базы данных, полные или автономные

Если в базах данных Operations Manager или хранилища данных Operations Manager нет места или они находятся в автономном режиме, ожидается, что сервер управления продолжит регистрировать сообщения о событиях с идентификатором 2115 в журнал событий Operations Manager. Кроме того, время ожидания увеличится.

Если рабочие процессы действия записи не могут подключиться к базам данных Operations Manager или Operations Manager или используют недопустимые учетные данные для установления подключения, вставка данных блокируется, а сообщения о событиях с идентификатором 2115 регистрируются до тех пор, пока этот сценарий не будет разрешен.

Проблемы с конфигурацией и средой

Сообщения о событиях с идентификатором 2115 также могут указывать на проблему с производительностью, если база данных Operations Manager, базы данных хранилища данных и все вспомогательные среды настроены неправильно. Ниже приведены некоторые возможные причины этой проблемы.

  • SQL Server журнал или TempDB база данных слишком мала или не занимает места.
  • Сетевой канал из Operations Manager и базы данных хранилища данных к серверу управления ограничена пропускной способностью или задержка велика. В этом сценарии рекомендуется разместить сервер управления в той же локальной сети, что и Серверы Operations Manager и хранилища данных.
  • Диск данных, на котором размещается база данных, журналы или TempDB используемый базами данных Operations Manager и хранилищем данных, работает медленно или испытывает проблемы с функциональностью. В этом сценарии рекомендуется использовать RAID 10, а также включить кэш записи с поддержкой батареи на контроллере массива.
  • База данных Operations Manager или сервер хранилища данных не имеет достаточных ресурсов памяти или ЦП.
  • Экземпляр SQL Server, на котором размещается база данных Operations Manager или хранилище данных, находится в автономном режиме.

Мы также рекомендуем разместить сервер управления в той же локальной сети, что и Operations Manager и сервер базы данных хранилища данных.

Сообщения о событиях с идентификатором 2115 также могут возникать, если подсистема диска, в котором размещается база данных, журналы или TempDB , используемая базами данных Operations Manager и хранилищем данных, работает медленно или испытывает проблемы с функциональными возможностями. Рекомендуется использовать RAID 10, а также включить кэш записи с поддержкой батареи на контроллере массива.

Разрешение

Первым шагом для устранения неполадок в сообщениях о событиях, связанных с производительностью 2115, является определение элементов данных, возвращаемых в рамках события. Например, идентификатор рабочего процесса указывает, какой тип элементов данных (например, Обнаружение, Оповещения, Событие, Perf) и какая база данных используется. Если идентификатор рабочего процесса содержит термин DataWarehouse, устранение неполадок должно быть сосредоточено на базе данных хранилища данных Operations Manager. В других случаях основное внимание должно быть уделено базе данных Operations Manager.

Сценарий 1

В следующем примере проблема связана с рабочим процессом Microsoft.SystemCenter.CollectSignatureData :

Тип события:
Источник события предупреждения: HealthService
Категория события: None
Идентификатор события: 2115
Компьютер: <имя RMS>
Описание. Источник данных привязки в группе управления ИМЯ> группы управления <опубликовал элементы в рабочий процесс, но не получил ответ в течение 300 секунд. Это указывает на проблему производительности или функциональности рабочего процесса.
Идентификатор рабочего процесса: Microsoft.SystemCenter.CollectSignatureData
Экземпляр : <имя RMS>
Идентификатор экземпляра: {F56EB161-4ABE-5BC7-610F-4365524F294E}

Решение

Мы можем определить правила сбора данных сигнатур производительности в этом примере, выполнив следующий SQL-запрос. Этот запрос должен выполняться в SQL Server Management Studio к базе данных Operations Manager.

-- Return all Performance Signature Collection Rules
Use OperationsManager
select
managementpack.mpname,
rules.rulename
from performancesignature with (nolock)
inner join rules with (nolock)
on rules.ruleid = performancesignature.learningruleid
inner join managementpack with(nolock)
on rules.managementpackid = managementpack.managementpackid
group by managementpack.mpname, rules.rulename
order by managementpack.mpname, rules.rulename

Этот запрос возвращает все правила сбора подписей производительности и соответствующее имя пакета управления. Возвращается столбец для имени пакета управления и имени правила.

Следующие счетчики Монитор производительности на сервере управления предоставляют сведения о размере и времени вставки пакета действий записи базы данных и хранилища данных:

  • OpsMgr DB Write Action modules(*)\Avg. batch size
  • OpsMgr DB Write Action modules(*)\Среднее время обработки
  • Модуль модуля модуля записи dw OpsMgr(*)\Среднее время пакетной обработки, мс
  • Модуль модуля модуля записи dw OpsMgr(*)\Avg. batch size

Если размер пакета увеличивается (например, размер пакета по умолчанию составляет 5000 элементов), это означает, что сервер управления медленно вставляет данные в базу данных или хранилище данных, или что он получает всплеск элементов данных от агентов или серверов шлюза.

Изучив учетную запись действия записи базы данных и хранилища данных Среднее время обработки , мы можем понять, сколько времени занимает среднее время записи пакета данных в базу данных и хранилище данных. В зависимости от времени, необходимого для записи пакета данных в базу данных, это может предоставить возможность для настройки.

Сценарий 2

Если экземпляр SQL Server, на котором размещена база данных Operations Manager или база данных хранилища данных, находится в автономном режиме, событие с идентификатором 2115 и идентификатором 29200 регистрируются в журнале событий Operations Manager. Например:

Имя журнала: Operations Manager
Источник: HealthService
Дата:
Идентификатор события: 2115
Уровень: предупреждение
Описание:
Источник данных привязки в группе управления MSFT опубликовал элементы в рабочий процесс, но не получил ответ в течение 60 секунд. Это указывает на проблему производительности или функциональности рабочего процесса.
Идентификатор рабочего процесса: Microsoft.SystemCenter.CollectEventData
Экземпляр: name.contoso.local
Идентификатор экземпляра: {88676CDF-E284-7838-AC70-E898DA1720CB}

Имя журнала: Operations Manager
Источник: Служба конфигурации OpsMgr
Идентификатор события: 29200
Уровень: ошибка
Описание:
Служба конфигурации OpsMgr потеряла подключение к базе данных OpsMgr, поэтому не может получать обновления из базы данных. Это может быть временная проблема, которую можно восстановить автоматически. Если проблема сохраняется, обычно это указывает на проблему с базой данных. Причина:
При установлении соединения с SQL Server произошла ошибка, связанная с сетью или с определенным экземпляром. Сервер не найден или недоступен. Убедитесь, что имя экземпляра указано правильно и что на SQL Server разрешены удаленные соединения. (поставщик: поставщик именованных каналов, ошибка: 40 — не удалось открыть подключение к SQL Server)

Решение

Чтобы устранить эту проблему, выполните следующие действия.

  1. Подключитесь к серверу, на котором размещена база данных Operations Manager.
  2. Откройте апплет Службы .
  3. Убедитесь, что служба SQL Server (MSSQLSERVER) запущена и запущена.
  4. Если служба SQL Server (MSSQLSERVER) не запущена и не запущена, запустите службу.

После восстановления подключения к базе данных рабочие процессы должны успешно начать хранение данных в соответствующей базе данных. Событие с идентификатором 31554 подтверждает успешность записи сведений:

Имя журнала: Operations Manager
Источник: Модули службы работоспособности
Идентификатор события: 31554
Категория задачи: Data Warehouse
Уровень: сведения
Описание:
Рабочий процесс успешно сохраняет данные в Data Warehouse
Это повлияло на один или несколько рабочих процессов.
Имя рабочего процесса: Microsoft.SystemCenter.DataWarehouse.CollectEventData
Имя экземпляра: name.contoso.local
Идентификатор экземпляра: {88676CDF-E284-7838-AC70-E898DA1720CB}

Сценарий 3

Событие с идентификатором 2115 вызвано недопустимыми учетными данными запуска.

Решение

Проверьте журнал событий Operations Manager на наличие следующих событий. Эти события обычно указывают на то, что учетная запись проверки подлинности Data Warehouse SQL Server может иметь неверные учетные данные.

Имя журнала: Operations Manager
Источник: HealthService
Идентификатор события: 7000
Категория задач: служба работоспособности
Уровень: ошибка
Описание. Службе работоспособности не удалось войти в учетную запись <запуска от имени учетной записи> для группы управления ИМЯ> группы <управления. Ошибка — сбой входа: неизвестное имя пользователя или неверный пароль. (1326L). Это помешает службе работоспособности отслеживать или выполнять действия с помощью этой учетной записи запуска.

Имя журнала: Operations Manager
Источник: HealthService
Идентификатор события: 7015
Категория задач: служба работоспособности
Уровень: ошибка
Описание:
Служба работоспособности не может проверить будущую действительность имени учетной записи <> запуска для группы <управления ИМЯ> группы управления. Ошибка — сбой входа: неизвестное имя пользователя или неверный пароль. (1326L).

Чтобы устранить эту проблему, выполните следующие действия.

  1. Откройте консоль Operations Manager.
  2. Выберите Администрирование.
  3. Выберите Конфигурация запуска от имени\Учетные записи.
  4. Настройте соответствующие учетные данные для учетной записи проверки подлинности Data Warehouse SQL Server.

Сценарий 4

Событие с идентификатором 2115, вызванное проблемами с производительностью диска. Это может произойти, если диск данных, на котором размещается база данных, журналы или TempDB, используемый базами данных Operations Manager и хранилищем данных, работает медленно или возникает проблема. В этом сценарии рекомендуется использовать RAID 10, а также включить кэш записи с поддержкой батареи на контроллере массива.

Решение

Сначала запишите следующие счетчики физических дисков для всех дисков, содержащих SQL Server файлы данных или журналов:

  • % времени простоя: сколько времени простоя диска сообщается. Все, что меньше 50 процентов, может указывать на узкое место диска.

  • Средняя длина очереди диска. Это значение не должно превышать число шпинделей в lun в два раза. Например, если LUN имеет 25 шпинделей, допустимо значение 50 . Однако если LUN имеет 10 шпинделей, значение 25 будет слишком высоким. Можно использовать следующие формулы на основе уровня RAID и количества дисков в конфигурации RAID:

    • RAID 0. Все диски выполняют работу в наборе RAID 0.

      Average Disk Queue Length <= # (Disks in the array) *2

    • RAID 1: половина дисков выполняет работу. Таким образом, только половина из них может быть учтена в очереди дисков.

      Average Disk Queue Length <= # (Disks in the array/2) *2

    • RAID 10: половина дисков выполняет работу. Таким образом, только половина из них может быть учтена в очереди дисков.

      Average Disk Queue Length <= # (Disks in the array/2) *2

    • RAID 5. Все диски выполняют работу в наборе RAID 5.

      Average Disk Queue Length <= # (Disks in the array/2) *2

      Среднее число дисковых операций в секунду на передачу: количество секунд, необходимых для выполнения одного дискового ввода-вывода.
      Среднее время чтения на диске в секунду: среднее время чтения данных с диска в секундах.
      Среднее время записи на диск в секунду: среднее время записи данных на диск (в секундах).
      Диск байт/с: количество байтов в секунду, передаваемых на диск или с диска.
      Передача дисков/с: количество операций ввода-вывода в секунду (операций ввода-вывода).

      Примечание.

      Последние три счетчика в этом списке должны постоянно иметь значения примерно .020 (20 мс) или меньше и никогда не должны превышать .050 (50 мс).

      Следующие пороговые значения описаны в руководстве по устранению неполадок с производительностью SQL Server.

      • Менее 10 мс: очень хорошо
      • 10-20 мс: хорошо
      • 20-50 мс: медленно, требует внимания
      • Более 50 мс: серьезное узкое место ввода-вывода
      • Диск байт/с: количество байтов в секунду, передаваемых на диск или с диска.
      • Передача дисков/с: количество операций ввода-вывода в секунду (операций ввода-вывода в секунду)

    Если время простоя в % невелико (10 процентов или меньше), это означает, что диск полностью используется. В этом случае два последних счетчика в этом списке (диск байт/с ) и передача дисков/с обеспечивают хорошее представление о максимальной пропускной способности диска в байтах и операций ввода-вывода в секунду соответственно. Пропускная способность диска SAN сильно зависит от количества шпинделей, скорости дисков и скорости канала. Рекомендуется спросить поставщика SAN о том, сколько байтов и операций ввода-вывода в секунду должен поддерживать диск. Если время простоя в % невелико и значения этих двух счетчиков не соответствуют ожидаемой пропускной способности диска, обратитесь к поставщику SAN за дополнительной помощью по устранению неполадок.

В следующих статьях содержатся подробные сведения об устранении неполадок с производительностью SQL Server.

Сценарий 5

Событие с идентификатором 2115 регистрируется, и сервер управления создает сообщение о невозможности записи данных в оповещение Data Warehouse в Operations Manager. На компьютере сервера управления также возникают следующие симптомы:

  • Сервер управления создает одно или несколько оповещений, которые выглядят следующим образом:

    Имя журнала: Operations Manager
    Источник: Модули службы работоспособности
    Дата: 01.01.2022 12:00:00 PM
    Идентификатор события: 31551
    Категория задачи: Data Warehouse
    Уровень: ошибка
    Ключевые слова: классический
    Пользователь: Н/Д
    Компьютер: <ManagementServerFQDN>
    Описание:
    Не удалось сохранить данные в Data Warehouse. Операция будет повторна.
    Исключение SqlException: не удается открыть базу данных OperationsManagerDW, запрошенную именем входа. Не удалось выполнить вход.
    Сбой входа для пользователя "CONTOSO\Action_Account".

    Это повлияло на один или несколько рабочих процессов.

    Имя рабочего процесса: Microsoft.SystemCenter.DataWarehouse.CollectPerformanceData
    Имя экземпляра: <ManagementServerFQDN>
    Идентификатор экземпляра: {AEC38E5Z-67A9-0406-20DB-ACC33BB9C494}
    Группа управления: <ManagementGroupName>

  • Следующее событие регистрируется в журнале событий Operations Manager на сервере управления:

    Имя журнала: Operations Manager
    Источник: HealthService
    Дата: 01.01.2022 12:00:00 PM
    Идентификатор события: 2115
    Категория задачи: Нет
    Уровень: предупреждение
    Ключевые слова: классический
    Пользователь: Н/Д
    Компьютер: <ManagementServerFQDN>
    Описание:
    Источник данных Bind в группе <управления ManagementGroupName> опубликовал элементы в рабочий процесс, но не получил ответ в течение 22560 секунд. Это указывает на проблему производительности или функциональности рабочего процесса.
    Идентификатор рабочего процесса: Microsoft.SystemCenter.DataWarehouse.CollectPerformanceData
    Экземпляр : <ManagementServerFQDN>
    Идентификатор экземпляра: {AEC38E5Z-67A9-0406-20DB-ACC33BB9C494}

Решение

Эта проблема может возникнуть, если у сервера управления нет учетных записей, указанных для профилей запуска от имени хранилища данных. Эта проблема, скорее всего, повлияет на сервер-получатель управления. Чтобы устранить эту неполадку, выполните следующие действия:

  1. На компьютере под управлением Operations Manager откройте консоль управления.

  2. В области навигации выберите Администрирование.

  3. Разверните узел Безопасность, а затем выберите Профили запуска от имени.

  4. В представлении Профили запуска от имени дважды щелкните учетную запись Data Warehouse.

  5. В диалоговом окне Свойства профиля запуска от имени — Data Warehouse свойства учетной записи выберите вкладку Учетные записи запуска от имени, а затем нажмите кнопку Создать.

  6. В списке Учетная запись запуска от имени выберите Data Warehouse учетная запись действия.

  7. В списке Имя выберите сервер управления, который создал оповещение.

  8. Дважды нажмите кнопку ОК .

  9. Выполните шаги 4–8, чтобы назначить соответствующую учетную запись запуска для следующих профилей:

    • Учетная запись чтения синхронизации конфигурации Data Warehouse
    • Учетная запись развертывания отчета Data Warehouse
    • Учетная запись проверки подлинности Data Warehouse SQL Server
  10. Для каждого профиля выберите учетную запись RunAs, соответствующую имени профиля RunAs. Например, сделайте следующие назначения:

    • Назначьте учетную запись чтения синхронизации конфигурации Data Warehouse профильу учетной записи чтения синхронизации конфигурации Data Warehouse.
    • Назначьте учетную запись развертывания отчета Data Warehouse профильу учетной записи развертывания отчетов Data Warehouse.
    • Назначьте учетную запись проверки подлинности Data Warehouse SQL Server профильу учетной записи проверки подлинности Data Warehouse SQL Server.
  11. На сервере управления, который создал оповещение, перезапустите службу работоспособности OpsMgr.

  12. В журнале событий Operations Manager на сервере управления убедитесь, что зарегистрированы события события с идентификатором 31554. Идентификатор события 31554 указывает, что состояние монитора изменилось на Работоспособно. Это изменение устраняет оповещение.

Сценарий 6

Событие с идентификатором 2115 возникает на сервере под управлением HP MPIO FF DSM XP 3.01, на котором отсутствуют lun. Когда пользователь открывает Монитор производительности и пытается добавить счетчик, Монитор производительности зависает, а число дескрипторов для этого приложения быстро увеличивается.

Временное решение

Существует два обходных пути разрешения этой неполадки.

  • Переименуйте файл HPPerfProv.dll, а затем перезапустите Windows. Монитор производительности будет работать без проблем, когда файл переименован и не загружен.
  • Наличие хотя бы одного LUN в системе.