Управляемая доступностьManaged Availability

Применимо к: Exchange Server 2013 SP1Applies to: Exchange Server 2013 SP1

Удобство работы пользователей с электронной почтой всегда было основной целью администраторов систем обмена сообщениями.Ensuring that users have a good email experience has always been the primary objective for messaging system administrators. Чтобы обеспечить доступность и надежность вашей организации Microsoft Exchange Server 2013, все аспекты системы должны быть активно отслеживаться, а все обнаруженные проблемы необходимо быстро разрешить.To help ensure the availability and reliability of your Microsoft Exchange Server 2013 organization, all aspects of the system must be actively monitored, and any detected issues must be resolved quickly. В предыдущих версиях Exchange мониторинг критических компонентов системы обычно включает использование внешнего приложения, например Microsoft System Center 2012 Operations Manager, для сбора данных, а также для предоставления действий по восстановлению для проблем, обнаруженных в результате анализ собранных данных.In previous versions of Exchange, monitoring critical system components typically involved using an external application such as Microsoft System Center 2012 Operations Manager to collect data, and to provide recovery action for problems detected as a result of analyzing the collected data. Exchange 2010 и предыдущие версии, включающие манифесты работоспособности и механизмы корреляции, в виде пакетов управления.Exchange 2010 and previous versions included health manifests and correlation engines in the form of management packs. Эти компоненты включали Operations Manager, чтобы определить, является ли конкретный компонент работоспособным или неработоспособным.These components enabled Operations Manager to make a determination as to whether a particular component was healthy or unhealthy. Кроме того, Operations Manager также использовал инфраструктуру диагностических командлетов, встроенную в Exchange 2010, для запуска искусственных транзакций для различных аспектов системы.In addition, Operations Manager also used the diagnostic cmdlet infrastructure built into Exchange 2010 to run synthetic transactions against various aspects of the system.

Exchange 2013 использует новый подход к мониторингу и обеспечению собственного взаимодействия конечных пользователей с помощью функции управляемой доступности , предоставляющей встроенные действия по мониторингу и восстановлению.Exchange 2013 takes a new approach to monitoring and preserving the end user experience natively using a feature called Managed Availability that provides built-in monitoring and recovery actions.

Управляемая доступностьManaged Availability

Управляемая доступность, которую также называют активным мониторингом или локальным активным мониторингом, это интеграция встроенных действий мониторинга и восстановления с платформой высокой доступности Exchange.Managed availability, also known as Active Monitoring or Local Active Monitoring, is the integration of built-in monitoring and recovery actions with the Exchange high availability platform. Она создана для обнаружения проблем и восстановления после них сразу после их возникновения и обнаружения системой.It's designed to detect and recover from problems as soon as they occur and are discovered by the system. В отличие от предыдущих решений и методов мониторинга для Exchange функция управляемой доступности не пытается определить основную причину проблемы или уведомить о ней пользователей.Unlike previous external monitoring solutions and techniques for Exchange, managed availability doesn't try to identify or communicate the root cause of an issue. Она сконцентрирована на восстановлении, а именно на трех ключевых аспектах работы пользователей:It's instead focused on recovery aspects that address three key areas of the user experience:

  • Доступность: могут пользователи получать доступ к службе?Availability: Can users access the service?

  • Задержка: как работает пользователи?Latency: How is the experience for users?

  • Ошибки: пользователи могут выполнять нужные действия?Errors: Are users able to accomplish what they want?

Для консолидации ролей сервера и других изменений архитектуры в Exchange 2013 требуется новый подход к методам мониторинга и модели работоспособности, используемым в предыдущих версиях Exchange.The server role consolidation and other architectural changes in Exchange 2013 require a new approach to the monitoring methodologies and health model used in previous versions of Exchange. Управляемая доступность предназначена для устранения этих изменений, предоставляя собственное решение для мониторинга работоспособности и восстановления.Managed availability is designed to address these changes by providing a native health monitoring and recovery solution. Она отходит от наблюдения за отдельными срезами системы, выполняя сквозное наблюдение за работой пользователей и защищая работу конечных пользователей путем ориентированных на восстановление вычислений.It moves away from monitoring individual separate slices of the system to monitoring the end-to-end user experience, and protecting the end user's experience through recovery-oriented actions.

Управляемая доступность это внутренний процесс, выполняемый на каждом сервере Exchange 2013.Managed availability is an internal process that runs on every Exchange 2013 server. Он каждую секунду опрашивает и анализирует сотни метрик работоспособности.It polls and analyzes hundreds of health metrics every second. Если что-то не так, то в большинстве случаев проблема будет исправлена автоматически.If something is found to be wrong, most of the time it will be fixed automatically. Но всегда будут неполадки, которые функция управляемой доступности не сможет устранить самостоятельно.But there will always be issues that managed availability won't be able to fix on its own. В этих случаях управляемая доступность передает ошибку на обработку администратору с помощью журнала событий.In those cases, managed availability will escalate the issue to an administrator by means of event logging.

Управляемая доступность реализуется в форме двух служб:Managed availability implemented in the form of two services:

  • Служба диспетчера работоспособности Exchange (мсексчанжехмхост. exe): это процесс контроллера, используемый для управления рабочими процессами.Exchange Health Manager Service (MSExchangeHMHost.exe): This is a controller process used to manage worker processes. Он используется для создания, выполнения, запуска и остановки рабочих процессов по мере необходимости.It's used to build, execute, and start and stop the worker process, as needed. Он также используется для восстановления рабочих процессов при сбоях, чтобы рабочие процессы не становились едиными точками отказа.It's also used to recover the worker process in case that process fails, to prevent the worker process from being a single point of failure.

  • Рабочий процесс диспетчера работоспособности Exchange (MSExchangeHMWorker. exe): это рабочий процесс, ответственный за выполнение задач во время выполнения в среде управляемой доступности.Exchange Health Manager Worker process (MSExchangeHMWorker.exe): This is the worker process responsible for performing run-time tasks within the managed availability framework.

Управляемая доступность использует постоянное хранилище для выполнения своих функций:Managed availability uses persistent storage to perform its functions:

  • XML-файлы в \папке\bin\Configuration Monitor используются для хранения параметров конфигурации для некоторых рабочих элементов зонда и Monitoring.XML files in the \bin\Monitoring\config folder are used to store configuration settings for some of the probe and monitor work items.

  • Active Directory используется для хранения глобальных переопределений.Active Directory is used to store global overrides.

  • Реестр Windows используется для хранения данных времени выполнения, например закладок, и локальных переопределений (для определенного сервера).The Windows registry is used to store run-time data, such as bookmarks, and local (server-specific) overrides.

  • Инфраструктура журнала событий красного канала Windows используется для хранения результатов рабочих элементов.The Windows crimson channel event log infrastructure is used to store the work item results.

  • Почтовые ящики работоспособности используются для операций зондов. Для каждой базы данных почтовых ящиков на сервере создается несколько почтовых ящиков работоспособности.Health mailboxes are used for probe activity. Multiple health mailboxes will be created on each mailbox database that exists on the server.

Как показано на следующем рисунке, управляемая доступность содержит три главных асинхронных компонента, которые непрерывно выполняют работу.As illustrated in the following drawing, managed availability includes three main asynchronous components that are constantly doing work.

Компоненты управляемой доступностиManaged Availability Components

![Управляемая доступность в Exchange Server 2013] (images/Dn482056.7a54dcb5-1e28-4bd4-87e6-0d496b4ab796(EXCHG.150).gif "Управляемая доступность в Exchange Server 2013")Managed Availability in Exchange Server 2013

Первый компонент называется зондом.The first component is called a Probe. Зонды отвечают за измерения на сервере и сбор данных.Probes are responsible for taking measurements on the server and collecting data. Результаты этих измерений поступают во второй компонент, монитор.The results of those measurements flow into the second component, the Monitor. Монитор содержит всю используемую системой бизнес-логику на основе того, что считается работоспособным состоянием собранных данных.The monitor contains all of the business logic used by the system based on what is considered healthy on the data collected. Подобно подсистеме распознавания шаблонов, монитор ищет различные шаблоны среди всех собранных измерений, а затем принимает решение, можно ли считать компонент работоспособным.Similar to a pattern recognition engine, the monitor looks for the various different patterns on all the collected measurements, and then it decides whether something is considered healthy. Наконец, ответчики предпринимают действия по восстановлению и эскалации.Finally, there are Responders, which are responsible for recovery and escalation actions. Если что-то не работает, первое действие — попытка восстановления соответствующего компонента.When something is unhealthy, the first action is to attempt to recover that component. Это могут быть действия по многоуровневому восстановлению, например сначала последовательно перезапускаются пул приложений, служба и сервер, а в самом конце сервер переводится в автономный режим и не может принимать трафик.This could include multi-stage recovery actions; for example, the first attempt may be to restart the application pool, the second may be to restart the service, the third attempt may be to restart the server, and the subsequent attempt may be to take the server offline so that it no longer accepts traffic. Если действия по восстановлению не помогают, система через журнал уведомляет о проблеме оператора-человека.If the recovery actions are unsuccessful, the system escalates the issue to a human through event log notifications.

Существует три основных категории зондов: повторяющиеся зонды, уведомления и проверки.There are three primary categories of probes: recurrent probes, notifications, and checks. Повторяющиеся зонды — это выполняемые системой искусственные транзакции по тестированию работы пользователей.Recurrent probes are synthetic transactions performed by the system to test the end-to-end user experience. Проверки — это инфраструктура, которая выполняет сбор данных о производительности, в том числе пользовательский трафик, и измеряет собранные данные с помощью пороговых значений, заданных для определения пиков при отказах пользователей.Checks are the infrastructure that perform the collection of performance data, including user traffic, and measure the collected data against thresholds that are set to determine spikes in user failures. Это позволяет инфраструктуре проверки прознать, когда пользователи сталкиваются с проблемами.This enables the checks infrastructure to become aware when users are experiencing issues. Наконец, логика уведомлений позволяет системе предпринять действие немедленно, исходя из критического события, без необходимости ждать результатов сбора данных зондом.Finally, the notification logic enables the system to take action immediately based on a critical event, without having to wait for the results of the data collected by a probe. Это типичные исключения или условия, которые могут быть обнаружены и распознаны без большого набора образцов.These are typically exceptions or conditions that can be detected and recognized without a large sample set.

Повторяющиеся зонды выполняются каждые несколько минут и проверяют некоторые аспекты работоспособности служб.Recurrent probes run every few minutes and check some aspect of service health. Они могут передавать электронные сообщения через службу Exchange ActiveSync в почтовый ящик мониторинга, подключаться к конечной точке RPC или проверять возможность подключения для клиентского доступа к почтовому ящику.These probes might transmit an email via Exchange ActiveSync to a monitoring mailbox, they might connect to an RPC endpoint, or they might verify Client Access-to-Mailbox connectivity.

Все зонды определяются при запуске службы диспетчера работоспособности в канале Microsoft. Exchange\. ActiveMonitoring пробедефинитион Crimson.All probes are defined on Health Manager service startup in the Microsoft.Exchange.ActiveMonitoring\ProbeDefinition crimson channel. Определения каждого зонда обладают множеством свойств, самые важные из которых перечислены ниже:Each probe definitions has many properties, but the most relevant properties are:

  • Name: имя зонда, которое начинается с SampleMask монитора зонда.Name: The name of the probe, which begins with a SampleMask of the probe's monitor.

  • TypeName: тип объекта кода зонда, который содержит логику зонда.TypeName: The code object type of the probe that contains the probe's logic.

  • ServiceName: имя набора работоспособности, содержащего этот зонд.ServiceName: The name of the health set that contains this probe.

  • TargetResource: объект, проверяемый зондом.TargetResource: The object the probe is validating. При выполнении он добавляется к имени зонда для получения результата зонда, ResultName.This is appended to the name of the probe when it is executed to become a probe result ResultName

  • Рекурренцеинтервалсекондс: частота выполнения зонда.RecurrenceIntervalSeconds: How often the probe executes.

  • TimeoutSeconds: время ожидания зонда до отработки отказа.TimeoutSeconds: How long the probe will wait before failing.

Существуют сотни повторяющихся зондов. Большинство из них создаются для отдельных баз данных, поэтому их количество растет с числом баз данных. Большинство зондов определяются в коде, поэтому их невозможно обнаружить напрямую.There are hundreds of recurrent probes. Many of these probes are per-database, so as the number of databases increases, so does the number of probes. Most probes are defined in code and are therefore not directly discoverable.

В основе повторяющихся зондов лежит запуск через равные промежутки времени (RecurrenceIntervalSeconds) и проверка (или зондирование) некоторых аспектов работоспособности.The basics of a recurrent probe are as follows: start every RecurrenceIntervalSeconds and check (or probe) some aspect of health. Если компонент является работоспособным, зонд передает и записывает информационное событие в канал Microsoft. Exchange. ActiveMonitoring\ProbeResult с типом resultType 3.If the component is healthy, the probe passes and writes an informational event to the Microsoft.Exchange.ActiveMonitoring\ProbeResult channel with a ResultType of 3. Если происходит ошибка проверки или истекает время ожидания, зонд выдает ошибку и записывает сообщение об ошибке в тот же канал.If the check fails or times out, the probe fails and writes an error event to the same channel. ResultType из 4 означает, что проверка не пройдена, а resultType 1 — время ожидания истекло. Многие зонды повторно запускаются при превышении времени ожидания до значения свойства максретряттемптс .A ResultType of 4 means the check failed and a ResultType of 1 means that it timed out. Many probes will re-run if they timeout, up to the value of the MaxRetryAttempts property.

Примечание

Note (Примечание ) Канал Crimson ProbeResult может быть очень загружен с сотнями зондов, выполняемых каждые несколько минут, и ведением журнала событий, поэтому при попытке дорогостоящих запросов к журналам событий в рабочей среде могут возникать серьезные последствия на производительность сервера Exchange Server. Environment.Note The ProbeResult crimson channel can get very busy with hundreds of probes running every few minutes and logging an event, so there can be a real impact on the performance of your Exchange server if you try expensive queries against the event logs in a production environment.

Уведомления — это зонды, которые выполняет не инфраструктура диспетчера работоспособности, а некоторые другие службы на сервере. Эти службы проводят собственный мониторинг, а затем передают их данные в инфраструктуру управляемой доступности, напрямую записывая результаты зондов. Эти зонды не отображаются в канале ProbeDefinition, поскольку в нем описываются только зонды, выполняемые инфраструктурой управляемой доступности. Например, монитор ServerOneCopyMonitor активируют результаты зонда, записанные службой MSExchangeDAGMgmt. Эта служба выполняет собственный мониторинг, определяет наличие проблемы и записывает в журнал результаты зонда. Большинство зондов-уведомлений могут записывать в журнал как красные события (указывают на неработоспособный монитор), так и зеленые (возобновление работоспособности монитора).Notifications are probes that are not run by the health manager framework, but by some other service on the server. These services perform their own monitoring, and then feed their data into the Managed Availability framework by directly writing probe results. You won't see these probes in the ProbeDefinition channel, as this channel only describes probes that will be run by the Managed Availability framework. For example, the ServerOneCopyMonitor Monitor is triggered by probe results written by the MSExchangeDAGMgmt service. This service performs its own monitoring, determines whether there is a problem, and logs a probe result. Most notification probes have the capability to log both a red event that turns the monitor unhealthy and a green event that makes the monitor healthy again.

Проверки — это зонды, которые записывают в журнал события, только когда счетчик производительности становится больше или меньше порогового значения. На самом деле они представляют особый случай зондов-уведомлений, так существует служба, которая отслеживает счетчики производительности на сервере и записывает события в журнал канала ProbeResult, если достигнуто заданное пороговое значение.Checks are probes that only log events when a performance counter passes above or below a defined threshold. They are really a special case of notification probes, as there is a service monitoring the performance counters on the server and logging events to the ProbeResult channel when the configured threshold is met.

С помощью монитора для этой проверки можно определить счетчик и пороговое значение, которые считаются неработоспособными.To find the counter and threshold that is considered unhealthy, you can look at the monitor for this check. Мониторы типа Microsoft. Office. Datacenter. ActiveMonitoring. овераллконсекутивесамплевалуеабовесрешолдмонитор или *Microsoft. Office. Datacenter. ActiveMonitoring. овераллконсекутивесамплевалуебеловсрешолдмонитор *означает, что контрольный зонд — это проверочный зондMonitors of the type Microsoft.Office.Datacenter.ActiveMonitoring.OverallConsecutiveSampleValueAboveThresholdMonitor or Microsoft.Office.Datacenter.ActiveMonitoring.OverallConsecutiveSampleValueBelowThresholdMonitor mean that the probe they watch is a check probe

Отслеживает запрос данных, собранных зондами, для определения необходимости выполнения действия на основе предварительно определенного набора правил.Monitors query the data collected by probes to determine if action needs to be taken based on a predefined rule set. В зависимости от правила или природы ошибки монитор может инициировать отвечающее устройство или передать ошибку на обработку человеку, выполнив запись в журнале событий.Depending on the rule or the nature of the issue, a monitor can either initiate a responder or escalate the issue to a human via an event log entry. Кроме того, мониторы определяют, через какой период времени должно сработать отвечающее устройство и рабочий процесс действий восстановления.In addition, monitors define how much time after a failure that a responder is executed, as well as the workflow of the recovery action. Мониторы имеют различные состояния.Monitors have various states. С точки зрения состояния системы мониторы имеют два состояния:From a system state perspective, monitors have two states:

  • Работоспособный: монитор работает должным образом, а все собранные метрики находятся в нормальных рабочих параметрахHealthy: The monitor is operating properly and all collected metrics are within normal operating parameters

  • **** Неработоспособность: монитор не является работоспособным и либо инициировал восстановление через ответчик, либо уведомил администратора через эскалацию.Unhealthy: The monitor isn't healthy and has either initiated recovery through a responder or notified an administrator through escalation.

С точки зрения администратора мониторы имеют дополнительные состояния, которые отобразятся в PowerShell:From an administrative perspective, monitors have additional states that appear in the Shell:

  • Деградация: Если монитор находится в неработоспособном состоянии в диапазоне от 0 до 60 секунд, он считается сниженным.Degraded: When a monitor is in an unhealthy state from 0 through 60 seconds, it's considered Degraded. Если монитор пребывает в неработоспособном состоянии дольше 60 секунд, он считается неработоспособным.If a monitor is unhealthy for more than 60 seconds, it is considered Unhealthy.

  • Disabled: монитор явно отключен администратором.Disabled: The monitor has been explicitly disabled by an administrator.

  • **** Недоступно: служба работоспособности Microsoft Exchange периодически запрашивает состояние каждого монитора.Unavailable: The Microsoft Exchange Health service periodically queries each monitor for its state. Если служба не получает ответ на запрос, состояние монитора изменяется на "Недоступный".If it doesn't get a response to the query, the monitor state becomes Unavailable.

  • Восстановление: администратор устанавливает состояние восстановления, чтобы показать системе, что корректирующее действие обрабатывается человеком, что позволяет системе и людям отличать другие сбои, которые могут происходить одновременно с корректирующими действиями. выполняется (например, операция повторного заполнения копии базы данных).Repairing: An administrator sets the Repairing state to indicate to the system that corrective action is in process by a human, which allows the system and humans to differentiate between other failures that may occur at the same time corrective action is being taken (such as a database copy reseed operation).

В определении каждого монитора есть свойство SampleMask .Every monitor has a SampleMask property in its definition. По мере выполнения монитора он ищет события в канале ProbeResult, которые имеют ресултнаме , соответствующие SampleMaskмонитора.As the monitor executes, it looks for events in the ProbeResult channel that have a ResultName that matches the monitor's SampleMask. Эти события могут происходить из повторяющихся зондов, уведомлений или проверок.These events could be from recurrent probes, notifications, or checks. Если достигнуто пороговое значение монитора, он становится неработоспособным.If the monitor's thresholds are achieved, it becomes Unhealthy. С точки зрения монитора все три типа зондов одинаковые, ведь каждый из них создает записи в журнале канала ProbeResult.From the monitor's perspective, all three probe types are the same as they each log to the ProbeResult channel.

Следует отметить, что одна ошибка зонда не обязательно указывает на то, что на сервере возникла ошибка.It is worth noting that a single probe failure does not necessarily indicate that something is wrong with the server. Это структура мониторов, позволяющая правильно определить, когда возникает реальная проблема, требующая исправления.It is the design of monitors to correctly identify when there is a real problem that needs fixing. Поэтому многие мониторы имеют пороговые значения нескольких ошибок пробных выработок, прежде чем они становятся неработоспособными.This is why many monitors have thresholds of multiple probe failures before becoming Unhealthy. Несмотря на это, многие из этих проблем можно автоматически исправить с помощью ответчиков, поэтому лучшее место для поиска проблем, требующих вмешательства вручную, заключается в канале Crimson Microsoft.\Exchange. ManagedAvailability Monitoring.Even then, many of these problems can be fixed automatically by responders, so the best place to look for problems that require manual intervention is in the Microsoft.Exchange.ManagedAvailability\Monitoring crimson channel. В нее будет включено самое Последнее сообщение об ошибке зонда.This will include the most recent probe error.

Как следует из их названия, ответчики реализуют определенный ответ на оповещение от монитора.As their name implies, responders execute some sort of response to an alert that was generated by a monitor. Отвечающие могут выполнять различные действия по восстановлению, такие как сброс пула рабочих процессов приложений для перезапуска сервера.Responders take a variety of recovery actions, such as resetting an application worker pool to restarting a server. Существует несколько видов ответчиков:There are several types of responders:

  • Перезапуск ответчика: завершает и перезапускает службу.Restart Responder: Terminates and restarts a service

  • Reset AppPool ответчика: остановка и перезапуск пула приложений в СЛУЖБах IISReset AppPool Responder: Stops and restarts an application pool in Internet Information Services (IIS)

  • Ответчикотработки отказа — инициирует отработку отказа базы данных или сервераFailover Responder: Initiates a database or server failover

  • Ответчик отладки: инициирует инициализацию сервера, тем самым вызывая перезагрузку сервераBugcheck Responder: Initiates a bugcheck of the server, thereby causing a server reboot

  • Автономный ответчик: использует протокол на сервере, не являющийся службой (отклоняет запросы клиентов).Offline Responder: Takes a protocol on a server out of service (rejects client requests)

  • Online ответчик: отправляет протокол на сервер в рабочую среду (принимает запросы клиентов).Online Responder: Places a protocol on a server back into production (accepts client requests)

  • Эскалация респондента: эскалация этой неполадки администратору с помощью журнала событийEscalate Responder: Escalates the issue to an administrator via event logging

Помимо указанных ответчиков у некоторых компонентов также есть специализированные уникальные ответчики.In addition to the above listed responders, some components also have specialized responders that are unique to their component.

Все ответчики поддерживают регулирование, что дает вам встроенный механизм для контроля их действий. Регулирование позволяет добиться того, что система не будет скомпрометирована или не выйдет из строя в результате операций восстановления ответчика. Все ответчики регулируются одинаково. При регулировании действие восстановления ответчика может быть пропущено или отложено в зависимости от действия. Например, когда ответчик регулируется ответчик критической ошибки, его действие пропускается, а не задерживается.All responders include throttling behavior, which provide a built-in sequencing mechanism for controlling responder actions. The throttling behavior is designed to ensure that the system isn't compromised or made worse as a result of responder recovery actions. All responders are throttled in some fashion. When throttling occurs, the responder recovery action may be skipped or delayed, depending on the responder action. For example, when the Bugcheck Responder is throttled, its action is skipped, and not delayed.

Настройки работоспособностиHealth Sets

С точки зрения отчетности управляемая доступность реализует два представления работоспособности: внутреннее и внешнее.From a reporting perspective, managed availability has two views of health, one internal and one external. Внутреннее представление использует наборы работоспособности.The internal view uses health sets. Каждый компонент в Exchange 2013 (например, Outlook Web App, Exchange ActiveSync, служба банка данных, индексирование содержимого, транспортные службы и т. д.) отслеживается управляемой доступностью с помощью зондов, мониторов и ответчиков.Each component in Exchange 2013 (for example, Outlook Web App, Exchange ActiveSync, the Information Store service, content indexing, transport services, etc.) is monitored by managed availability using probes, monitors, and responders. Группа зондов, мониторов и ответчиков для данного компонента называется набором работоспособности. **A group of probes, monitors and responders for a given component is called a health set. Набор работоспособности — это группа зондов, мониторов и ответчиков, которые определяют работоспособность этого компонента.A health set is a group of probes, monitors, and responders that determine if that component is healthy. Текущее состояние набора работоспособности (например, является ли он работоспособным или неработоспособным) определяется с помощью состояния мониторов набора работоспособности.The current state of a health set (e.g., whether it is healthy or unhealthy) is determined by using the state of the health set's monitors. Если все мониторы набора работоспособности находятся в работоспособном состоянии, то набор работоспособности находится в работоспособном состоянии.If all of a health set's monitors are healthy, then the health set is in a healthy state. Если какой-либо из мониторов не находится в рабочем состоянии, состояние настройки работоспособности будет определяться с помощью самого наименее работоспособного монитора.If any monitor is not in a healthy state, then the health set state will be determined by its least healthy monitor.

Подробные инструкции для просмотра работоспособности сервера или состояния набора оценки работоспособности см. в статье Manage health sets and server health.For detailed steps to view server health or health sets state, see Manage health sets and server health.

Группы работоспособностиHealth Groups

Внешнее представление управляемой доступности состоит из групп работоспособности.The external view of managed availability is composed of health groups. Группы работоспособности предоставляются для System Center Operations Manager 2007 R2 и System Center Operations Manager 2012.Health groups are exposed to System Center Operations Manager 2007 R2 and System Center Operations Manager 2012.

Существует четыре основных группы работоспособности:There are four primary health groups:

  • Сенсорные точки клиентов: компоненты, влияющие на взаимодействие с пользователями в реальном времени, например протоколы или банк данныхCustomer Touch Points: Components that affect real-time user interactions, such as protocols, or the Information Store

  • Компоненты служб: компоненты без прямого взаимодействия с пользователем в режиме реального времени, такие как служба репликации почтовых ящиков Microsoft Exchange или процесс создания автономной адресной книги (OABGen)Service Components: Components without direct, real-time user interactions, such as the Microsoft Exchange Mailbox Replication service, or the offline address book generation process (OABGen)

  • Серверные компоненты: физические ресурсы сервера, такие как дисковое пространство, память и сетьServer Components: The physical resources of the server, such as disk space, memory and networking

  • Доступность зависимости: способность сервера получать доступ к необходимым зависимостям, таким как Active Directory, DNS и т. д.Dependency Availability: The server's ability to access necessary dependencies, such as Active Directory, DNS, etc.

Если установлен пакет управления Exchange, System Center Operations Manager (SCOM) служит порталом работоспособности для просмотра сведений, связанных со средой Exchange. Панель мониторинга SCOM содержит три представления работоспособности сервера Exchange:When the Exchange Management Pack is installed, System Center Operations Manager (SCOM) acts as a health portal for viewing information related to the Exchange environment. The SCOM dashboard includes three views of Exchange server health:

  • Активные оповещения: ответчики эскалации записывают события в журнал событий Windows, который используется монитором в SCOM.Active Alerts: Escalation Responders write events to the Windows event log that are consumed by the monitor within SCOM. Они отображаются в виде оповещений в представлении активных оповещений.These appear as alerts in the Active Alerts view.

  • Работоспособность Организации: в этом представлении отображаются сводные сведения об общем работоспособности организации Exchange.Organization Health: A rollup summary of the overall health of the Exchange organization health is displayed in this view. Эти накопительные пакеты включают в себя отображение работоспособности для отдельных групп обеспечения доступности баз данных и работоспособности определенных сайтов Active Directory.These rollups include displaying health for individual database availability groups, and health within specific Active Directory sites.

  • Работоспособность сервера: связанные наборы работоспособности объединены в группы работоспособности и обобщены в этом представлении.Server Health: Related health sets are combined into health groups and summarized in this view.

ПереопределенияOverrides

Переопределения позволяют администратору настраивать некоторые аспекты зондов, мониторов и ответчиков управляемой доступности. Переопределения можно использовать для точной настройки некоторых пороговых значений, используемых компонентом управляемой доступности. С их помощью также можно включить экстренные действия для непредвиденных событий, для которых могут потребоваться параметры конфигурации, отличных от настроек по умолчанию.Overrides provide an administrator with the ability to configure some aspects of the managed availability probes, monitors, and responders. Overrides can be used to fine tune some of the thresholds used by managed availability. They can also be used to enable emergency actions for unexpected events that may require configuration settings that are different from the out-of-box defaults.

Переопределения можно создать и применять для одного сервера (это называют переопределением сервера) или для группы серверов (глобальное переопределение).Overrides can be created and applied to a single server (this is known as a server override), or they can be applied to a group of servers (this is known as a global override). Данные конфигурации переопределения сервера хранятся в реестре Windows на сервере, к которому применяется переопределение.Server override configuration data is stored in the Windows registry on the server on which the override is applied. Данные конфигурации глобального переопределения хранятся в Active Directory.Global override configuration data is stored in Active Directory.

Переопределения можно настраивать без срока действия или с заданным сроком действия. Кроме того, глобальные переопределения можно настроить для всех серверов или только серверов с определенной версией Exchange.Overrides can be configured to last indefinitely, or they can be configured for a specific duration. In addition, global overrides can be configured to apply to all servers, or only servers running a specific version of Exchange.

При настройке переопределения оно вступит в силу не сразу. Служба диспетчера работоспособности Microsoft Exchange проверяет наличие обновленных данных конфигурации каждые 10 минут. Кроме того, глобальные переопределения зависят от задержки репликации Active Directory.When you configure an override, it will not take effect immediately. The Microsoft Exchange Health Manager service checks for updated configuration data every 10 minutes. In addition, global overrides will be dependent on Active Directory replication latency.

Подробные инструкции по просмотру и настройке серверов или глобальных переопределений можно найти в разделе Настройка переопределений управляемой доступности.For detailed steps to view or configure server or global overrides, see Configure managed availability overrides.

Задачи управления и командлетыManagement Tasks and Cmdlets

Существует три основных операционных задачи, которые администраторы обычно выполняют для компонента управляемой доступности:There are three primary operational tasks that administrators will typically perform with respect to managed availability:

  • извлечение или просмотр состояния системы;Extracting or viewing system health

  • просмотр настроек работоспособности и сведений о зондах, мониторах и ответчиках;Viewing health sets, and details about probes, monitors and responders

  • управление переопределениями.Managing overrides

Два основных средства для работы с управляемой доступностью — это журнал событий Windows и командная консоль. Компонент управляемой доступности записывает много информации в красные каналы ActiveMonitoring и ManagedAvailability журналов событий Exchange, например:The two primary management tools for managed availability are the Windows Event Log and the Shell. Managed availability logs a large amount of information in the Exchange ActiveMonitoring and ManagedAvailability crimson channel event logs, such as:

  • определения зондов, мониторов и ответчиков, которые записываются в соответствующие журналы событий *Definition;Probe, monitor, and responder definitions, which are logged in the respective *Definition event logs.

  • результаты зондов, мониторов и ответчиков, которые записываются в соответствующие журналы событий *Results;Probe, monitor, and responder results, which are logged in the respective *Results event logs.

  • сведения о действиях восстановления ответчика, в том числе время начала и завершения действия (при успешном или неудачном выполнении), которые записываются в журнал событий RecoveryActionResults.Details about responder recovery actions, including when the recovery action is started, and it is considered complete (whether successful or not), which are logged in the RecoveryActionResults event log.

Существует 12 командлетов для управляемой доступности, которые описаны в следующей таблице.There are 12 cmdlets used for managed availability, which are described in the following table.

КомандлетCmdlet ОписаниеDescription

Get — СерверхеалсGet-ServerHealth

Используется для получения необработанной информации о работоспособности сервера, например настройки работоспособности и их текущее состояние (исправно или нет), мониторы настроек работоспособности, серверные компоненты, целевые ресурсы для зондов и временные метки, связанные с временем запуска или остановки зонда или монитора, а также время перехода в то или иное состояние.Used to get raw server health information, such as health sets and their current state (healthy or unhealthy), health set monitors, server components, target resources for probes, and timestamps related to probe or monitor start or stop times, and state transition times.

Get — ХеалсрепортGet-HealthReport

Используется для получения сводного представления работоспособности, которое включает в себя настройки работоспособности и их текущее состояние.Used to get a summary health view that includes health sets and their current state.

Get — МониторингитемидентитиGet-MonitoringItemIdentity

Используется для просмотра зондов, мониторов и ответчиков, связанных с определенными настройками работоспособности.Used to view the probes, monitors, and responders associated with a specific health set.

Get — МониторингитемхелпGet-MonitoringItemHelp

Используется для просмотра описания некоторых свойств зондов, мониторов и ответчиков.Used to view descriptions about some of the properties of probes, monitors, and responders.

Add — ServerMonitoringOverrideAdd-ServerMonitoringOverride

Используется для создания локального, предназначенного для конкретного сервера переопределения зонда, монитора или ответчика.Used to create a local, server-specific override of a probe, monitor, or responder.

Get — ServerMonitoringOverrideGet-ServerMonitoringOverride

Используется для просмотра списка локальных переопределений на указанном сервере.Used to view a list of local overrides on the specified server.

Remove — ServerMonitoringOverrideRemove-ServerMonitoringOverride

Используется для удаления локального переопределения на указанном сервере.Used to remove a local override from a specific server.

Add — GlobalMonitoringOverrideAdd-GlobalMonitoringOverride

Используется для создания глобального переопределения для группы серверов.Used to create a global override for a group of servers.

Get — GlobalMonitoringOverrideGet-GlobalMonitoringOverride

Используется для просмотра списка глобальных переопределяет, настроенных в организации.Used to view a list of global overrides configured in the organization.

Remove — GlobalMonitoringOverrideRemove-GlobalMonitoringOverride

Используется для удаления глобального переопределения.Used to remove a global override.

Set — ServerComponentStateSet-ServerComponentState

Используется для настройки состояния одного или нескольких серверных компонентов.Used to configure the state of one or more server components.

Get — ServerComponentStateGet-ServerComponentState

Используется для просмотра состояния одного или нескольких серверных компонентов.Used to view the state of one or more server components.