Мониторинг производительности Lync Server 2013

Статья
01/27/2015

Последнее изменение раздела: 2014-05-15

Производительность Lync Server 2013 зависит от различных факторов, таких как профили пользователей, системная архитектура, программное обеспечение, компоненты оборудования, сторонние точки интеграции, такие как шлюзы и телефонное оборудование, сетевое подключение и производительность, конфигурация службы Windows Active Directory и производительность в дополнение к функциональным возможностям операционной системы Windows.

Основой производительности развертываний Lync Server 2013 является программное обеспечение и оборудование сервера, на котором оно реализуется. Например, сервер переднего плана должен иметь достаточно аппаратных ресурсов, чтобы справиться с ожидаемой (краткосрочной) нагрузкой пользователя. Если для предоставления служб 10 тысяч пользователей требуется соответствующий интерфейсный сервер, то правильно настроенный сервер должен соответствовать ожидаемым требованиям к нагрузке, чтобы в конечном итоге обеспечить наилучшее взаимодействие с конечным пользователем.

Таким образом, мониторинг производительности сервера очень важен для определения того, имеет ли реализованная серверная инфраструктура подходящие аппаратные ресурсы для повседневных требований к пиковой нагрузке. Мониторинг производительности сервера помогает выявить узкие места в системе, позволяющие администраторам применять коррективные действия до того, как это повлияет на взаимодействие с пользователем. Данные о производительности следует использовать для долгосрочного планирования емкости.

Хотя подробные сведения о всех отслеживаемых объектах производительности и счетчиках связаны с мониторингом Lync Server 2013 с помощью System Center Operations Manager, некоторые счетчики производительности, которые следует использовать, могут предоставить администраторам быстрое представление о производительности системы:

Чтобы отслеживать общую работоспособность системы интерфейсного сервера, рекомендуется проверить время процессора\% процессора. Значение всегда должно быть меньше 80 процентов.
Чтобы отслеживать производительность серверной части SQL Server программного обеспечения базы данных, используемого пулом переднего плана, отслеживайте следующие счетчики производительности:

LC:USrv – 00 – DBStore\Usrv – 002 — задержка очереди (msec)

LC:USrv – 00 – DBStore\Usrv – 0 04 – Задержка Sproc (msec)

На работоспособном сервере в устойчивом состоянии <должны отображаться значения задержки 100 мс. Механизм регулирования будет задействован, когда задержка достигает 12 секунд. Это означает, что сервер переднего плана запускает запросы на регулирование к серверной части. Это приводит к тому, что клиенты начинают получать сообщение об ошибке "Сервер 503 слишком занят".
Чтобы отслеживать время обработки на интерфейсном сервере, отслеживайте следующий счетчик:

LC:SIP - 07 - Load Management\SIP - 000 - Average Holding Time For Incoming Messages

Это еще один механизм регулирования на интерфейсных серверах, на этот раз начиная с большого времени обработки на интерфейсе. Если среднее время обработки превышает шесть секунд, сервер переходит в режим регулирования и разрешает только одну незавершенную транзакцию на подключение клиента.
Чтобы отслеживать проблемы с памятью на внутреннем сервере SQL, отслеживайте следующий счетчик:

SQL Server буфера\Ожидаемое время существования страницы

Низкое значение ниже 3600 секунд (вместе с высокой задержкой операций записи/с и страниц контрольных точек/с) указывает на нехватку памяти.

Дополнительные счетчики для просмотра

Существует несколько ключевых счетчиков, которые являются хорошими индикаторами общей работоспособности с интерфейсного сервера. Этот список не является исчерпывающим и не предназначен для определения первопричины. Эти счетчики позволяют быстро проверить работоспособность сервера. Рекомендуется проверять эти счетчики на каждом сервере в пуле. Важно понимать, что такое эти значения счетчиков, если сервер работоспособен. Базовый план необходим для понимания того, что изменилось при снижении пользовательского интерфейса.

Интерфейсный сервер может указывать на проблемы, которые могут быть вызваны узкими местами в других местах системы. Это означает, что лучше всего начать с просмотра общей работоспособности системы.

Ниже приведены два дополнительных счетчика для проверки.

LC:USrv-00-DBStore\Usrv-002-Queue Latency (msec)

LC:USrv-00-DBStore\Usrv-004-Sproc Latency (msec)

Счетчик задержки очереди представляет время, затраченное запросом на серверную часть, а задержка Sproc — время, затраченное серверной частью на обработку запроса. Если по какой-либо причине возникли проблемы с диском, памятью, сетью и процессором в серверной части, счетчик задержки очереди будет высоким.

Она также может быть высокой при высокой сетевой задержке между интерфейсом и серверной частью. Что такое приемлемая задержка очереди?

Через 12 секунд серверы переднего плана начинают регулировать запросы к внутренним серверам. Это означает, что серверы начинают возвращать сервер слишком занятым — 503 ошибки клиентам. Работоспособный сервер должен иметь менее 100 мсек задержки очереди DBStore в устойчивом состоянии, но в периоды, когда сервер только что был подключен к сети и пользователи входят в систему одновременно, этот счетчик может быть очень высоким, и вы даже можете увидеть, что он достигает нескольких секунд.

У вас может быть конфигурация с балансировкой нагрузки, в которой у вас есть пул, развернутый с несколькими серверами переднего плана, и подсистема балансировки нагрузки, настроенная для "минимального количества подключений". В этом случае при перезапуске одного интерфейсного сервера все пользователи, пытаемые повторно подключиться, будут перезапущены, так как этот сервер будет иметь меньше подключений по сравнению с другими членами пула. В течение этого времени соответствующий интерфейсный сервер может быть перегружен, а другие члены пула — нет.

Мы рекомендуем выполнять обслуживание в нерабочее время, чтобы снизить влияние на производительность, так как пользователи не будут конкурировать за подключение к серверу одновременно.

Если предыдущие два счетчика производительности являются высокими, наиболее вероятным узким местом является внутренний сервер SQL. Ниже приведены следующие компоненты для подтверждения.

Слишком ли SQL Server ЦП? Например, больше ли оно 80 процентов?
Высока ли задержка диска?

В идеальном мире у вас достаточно ОЗУ для хранения баз данных RTC и RTCDYN в памяти. Затем сервер будет получать доступ к диску только для записи в файлы журналов и записи в базы данных. Тесты показали, что для развертывания 100 тысяч пользователей достаточно 12 ГБ ОЗУ. Предполагается, что размер баз данных RTC и RTCDYN меньше 12 ГБ. Если размер баз данных превышает этот размер, может потребоваться дополнительная память.

Чтобы определить, требуется ли SQL Server ОЗУ, просмотрите счетчик ожидаемой производительности SQL Server буферного диспетчера. Значение меньше 3600 указывает на нехватку памяти. Кроме того, при наличии достаточного объема памяти на диске базы данных должно быть практически нет операций чтения, так как SQL Server запись должна выполняться только в базу данных.

На сервере переднего плана Lync Server 2013 существует дополнительный механизм регулирования, который запускается, если время обработки сервера высоко. Регулирование задержки DBStore включено, только если задержка до SQL Server высокая. Одним из примеров включения такого регулирования является привязка интерфейсного сервера к ЦП.

Если среднее время обработки (LC:SIP-07-Load Management\SIP-000-Average Holding Time for Incoming Messages) на сервере превышает шесть секунд, сервер переходит в режим регулирования и предоставляет пользователям только одну незавершенную транзакцию на клиентское подключение. После того как время обработки упадет до трех секунд, сервер выпадет из режима регулирования и предоставляет пользователям до 20 незавершенных транзакций на клиентское подключение. Каждый раз, когда количество транзакций в определенном соединении превышает пороговое значение выше, подключение помечается как управляемое потоком. В результате сервер не будет публиковать на нем какие-либо приемы, а счетчик LC:SIP-01-Peers\Flow Controlled Connections увеличивается. Если подключение остается в состоянии, управляемом потоком, более одной минуты, сервер закрывает его. Это делается отложенно. Если у него есть возможность проверить подключение, оно определяет, было ли оно регулируется слишком долго, и закрывает его, если оно имеет более одной минуты.

Это два механизма регулирования, и существует один счетчик производительности, который суммирует, что, если таково, выполняется сервером.

LC:SIP-04-Responses\SIP-053-Local 503 Responses/sec

Термин "Локальный" в предыдущем счетчике относится к локально созданным ответам.
Код 503 соответствует недоступному серверу, где на работоспособном сервере не должно быть 503 кода. В течение периода после того, как сервер только что подключен к сети, может появиться 503 кода. Когда все пользователи возвращаются в систему и сервер возвращается в стабильное состояние, дополнительных кодов 503 не должно быть.

LC:SIP-04-Responses\SIP-074-Local 504 Responses/sec

Этот счетчик производительности указывает на проблемы с подключением к другим серверам и может указывать на сбои подключения или задержки при подключении. Если вы видите ошибки 504, необходимо проверить следующий счетчик производительности.

LC:SIP-01-Peers\SIP-017-Sends Outstanding

Этот счетчик указывает количество исходящих запросов и ответов в очереди. Если этот счетчик высокий, скорее всего, проблема не будет на локальном сервере. Обратите внимание, что этот счетчик может быть высоким при наличии проблем с задержкой в сети. Это также может указывать на проблемы с локальным сетевым адаптером, но, скорее всего, вызвано проблемой на удаленном сервере. Этот счетчик, скорее всего, будет высоким на сервере директоров, если пул, с помощью которого он пытается взаимодействовать, перегружен. Ключ с этим счетчиком — просмотр экземпляров, а не только итогов.

Мониторинг производительности Lync Server 2013

Дополнительные счетчики для просмотра

Дополнительные ресурсы