Переключения и отработки отказа

Область применения: Exchange Server 2013 с пакетом обновления 1 (SP1)

Переключения и отработки отказов — две формы отключений при сбоях в Microsoft Exchange Server 2013.

  • Переключение — это запланированное отключение базы данных или сервера, которое явным образом инициируется командлетом или управляемой системой доступности в Exchange 2013. Переключения обычно выполняются во время подготовки к обслуживанию. Переключения предполагают перемещение активной копии базы данных почтового ящика на другой сервер группы обеспечения доступности баз данных (DAG). Если при переключении не удается найти ни одной подходящей целевой базы данных, администратор получит уведомление об ошибке, а база данных почтового ящика не будет отключена.

  • Отработка отказа подразумевает неожиданные события, которые могут приводить к недоступности служб, данных или тех и других. Отработка отказа включает в себя автоматическое восстановление системы после сбоя путем активации пассивной копии базы данных почтового ящика и ее преобразования в активную. Если при отработке отказа не удается найти ни одной подходящей целевой базы данных, база данных почтового ящика будет отключена.

Exchange 2013 предназначен для обработки переключения и отработки отказа.

Ищете задачи управления, связанные с высоким уровнем доступности и устойчивостью сайта? См. статью Управление высоким уровнем доступности и устойчивостью сайта.

Переключения

В Exchange 2013 существует три типа переключений:

  • Переключения базы данных.
  • Переключения сервера.
  • Переключения центра данных.

Переключения базы данных

Переключение базы данных — это процесс, в ходе которого одна активная база данных переключается на другую (пассивную) копию базы данных, которая затем становится новой активной копией базы данных. Переключения базы данных могут происходить как внутри центров данных, так и между ними. Переключение базы данных можно выполнить с помощью Центра администрирования Exchange (EAC) или оболочки. Вне зависимости от используемого интерфейса, процесс переключения выполняется следующим образом.

  1. Администратор инициирует переключение базы данных, чтобы переместить текущую активную копию базы данных почтовых ящиков на другой сервер.

  2. Клиент, используемый при выполнении задачи, отправляет вызов RPC в службу репликации Microsoft Exchange участника группы доступности базы данных (DAG).

  3. Участник группы DAG может не выполнять обработку роли основного диспетчера Active Manager (PAM). В этом случае он переводит задачу на сервер, которому принадлежит роль PAM.

  4. В рамках этой задачи выполняется вызов RPC в службу репликации Microsoft Exchange сервера, которому принадлежит роль PAM.

  5. Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.

  6. Диспетчер PAM подключается к службе репликации Microsoft Exchange участника группы DAG, пассивная копия которой активируется в качестве новой активной копии базы данных почтовых ящиков.

  7. Служба репликации Microsoft Exchange на целевом сервере отправляет запросы к службам репликации Microsoft Exchange всех участников группы DAG для определения наилучшего источника журнала копии базы данных.

  8. База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на целевом сервере копирует оставшиеся журналы на целевой сервер.

  9. Служба репликации Microsoft Exchange на целевом сервере отправляет запросы о подключении базы данных.

  10. Служба банка данных Microsoft Exchange на целевом сервере преобразует файлы журналов и подключает базу данных.

  11. Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.

  12. Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.

  13. Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.

  14. Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.

  15. Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.

Дополнительные сведения о переключении базы данных см. в разделе Активация копии базы данных почтовых ящиков.

Переключения сервера

Переключение сервера — это процесс, в ходе которого все активные базы данных участника группы DAG активируются для одного или нескольких других участников этой группы. Как и переключения базы данных, переключение сервера выполняется внутри центров обработки данных и между ними, а также запускается с помощью консоли управления и Центра администрирования Exchange. Вне зависимости от используемого интерфейса, процесс переключения сервера выполняется следующим образом.

  1. Администратор инициирует переключение сервера, чтобы переместить все текущие активные копии базы данных почтовых ящиков на один или несколько других серверов.

  2. В рамках данной задачи для каждой активной базы данных на текущем сервере выполняются действия, описанные выше в этом разделе для переключений базы данных (шаги 2-4).

  3. Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.

  4. Диспетчер PAM подключается к службе репликации Microsoft Exchange каждого участника группы DAG, для которого активируется пассивная копия.

  5. Служба репликации Microsoft Exchange на целевых серверах отправляет запросы к службам репликации Microsoft Exchange всех других участников группы DAG для определения наилучшего источника журнала копии базы данных.

  6. База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на каждом целевом сервере копирует оставшиеся журналы.

  7. Служба репликации Microsoft Exchange на каждом целевом сервере отправляет запросы о подключении базы данных.

  8. Служба банка данных Microsoft Exchange на каждом целевом сервере преобразует файлы журналов и подключает базу данных.

  9. Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.

  10. Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.

  11. Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.

  12. Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.

  13. Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.

Дополнительные сведения о переключении сервера см. в разделе Выполнение переключения сервера.

Переключения центра обработки данных

В устойчивой конфигурации сайта автоматическое восстановление в ответ на сбой на уровне сайта может происходить в DAG, что позволяет системе обмена сообщениями оставаться в функциональном состоянии. Для этой конфигурации требуется по крайней мере три расположения, так как необходимо развернуть члены DAG в двух расположениях и сервер-свидетель DAG в третьем расположении.

Если у вас нет трех расположений или даже если у вас есть три расположения, но вы хотите управлять действиями по восстановлению на уровне центра обработки данных, вы можете настроить DAG для восстановления вручную, если произойдет сбой на уровне сайта. В этом случае выполняется процесс под названием переключение центра обработки данных. Так же как и для многих сценариев аварийного восстановления, предварительное планирование и подготовка к переключению центра данных позволяют упростить процесс восстановления и сократить время отключения.

Из-за многочисленных изменений архитектуры в Exchange 2013, включая консолидацию ролей сервера, переключение центра обработки данных в Exchange 2013 проще, чем в Exchange 2010. Подробное описание действий по переключению центра обработки данных см. в разделе Datacenter Switchovers.

Отработки отказов

Отработка отказа — это процедура автоматической активации, которая может выполняться на уровне базы данных, сервера или центра обработки данных. Отработки отказов происходят в ответ на сбой, который оказал влияние на отдельную базу данных (например, потеря данных в изолированном хранилище), на весь сервер (например, сбой материнской платы или потеря питания) или на весь сайт (например, потеря всех членов группы DAG на сайте).

Группы доступности базы данных (DAG) и копии базы данных почтовых ящиков обеспечивают полную избыточность и быстрое восстановление как данных, так и служб, обеспечивающих доступ к этим данным. В следующей таблице перечислены ожидаемые действия по восстановлению при различных сбоях. В одних случаях запустить процесс восстановления должен администратор, в других — ошибки автоматически обрабатываются системой.

Описание Автоматическая активация Автоматическое действие по восстановлению Состояние при восстановлении: активная Состояние при восстановлении: пассивная Действия по восстановлению Comments
«Мягкий» сбой базы данных расширенного обработчика хранилищ (ESE): диски, на которых хранится база данных, возвращают ошибки при некоторых операциях чтения (например, ошибка -1018). Возможное кратковременное отключение.

Возможная автоматическая отработка отказа.
Автоматическое исправление поврежденной страницы. Ручное переключение, автоматическая отработка отказа или оперативное восстановление. Сбой Перестройка RAID, восстановление базы данных и копии базы данных, восстановление и запуск отладки, затем исправление страницы или исправление страницы на основе копии. Могут возникать и другие "мягкие" ошибки базы данных.

Сюда не включены сбои блока файловой системы NTFS.

При переключении или отработке отказа выполняется обновление хост-сервера.
"Полумягкий" сбой базы данных расширенного обработчика хранилищ (ESE): диски, на которых хранится база данных, возвращают ошибки при некоторых операциях записи. Кратковременное отключение во время автоматической отработки отказа. Автоматическое перестроение тома/диска после возможной замены диска. Отсоединяется, если его невозможно восстановить. Не выполнено Перестроение с помощью RAID может решить проблему.

Копирование и исправление, восстановление и запуск отладки или перестроение тома/диска после возможной замены.
"Полумягкая" ошибка при операции записи обработчика ESE означает, что некоторые записи являются успешными.

Сюда не включен сбой блока файловой системы NTFS.
"Полумягкий" сбой журнала обработчика ESE: диски, на которых хранятся данные журнала, возвращают невосстановимые ошибки при некоторых операциях записи и чтения. Кратковременное отключение во время автоматической отработки отказа. Автоматическое перестроение тома/диска после возможной замены диска. Отсоединяется, если его невозможно восстановить. Не выполнено Перестроение с помощью RAID может решить проблему.

Копирование и исправление, восстановление и запуск отладки или перестроение тома/диска после возможной замены.
"Полумягкая" ошибка чтения/записи обработчика ESE означает, что некоторые операции чтения/записи являются успешными.

При сбое базы данных автоматическое восстановление запускается до начала процесса восстановления данных журнала.
Программная ошибка обработчика ESE или нехватка ресурсов: ошибка, при которой обработчик ESE завершает работу экземпляра (например, событие с идентификатором 1022, глубина контрольной точки слишком большая). Кратковременное отключение во время автоматической отработки отказа. Нет. Отсоединяется, если его невозможно восстановить. Не выполнено Устранение ошибки базового ресурса. Этот сбой может быть проявлением ошибок в других случаях.
Сбои блока NTFS: на дисках, содержащих базу данных или журналы, произошла ошибка операции чтения или записи в структуре управления NTFS. Кратковременное отключение во время автоматической отработки отказа. Повторное восстановление тома после возможной замены диска. Отсоединяется, если его невозможно восстановить. Не выполнено Перестроение с помощью RAID может решить проблему. Служебные программы NTFS могут решить проблемы в блоке NTFS. Возможно, потребуется восстановление Exchange. Это событие чаще возникает, когда RAID не используется. Если это событие влияет на активный том журнала, некоторые последние файлы журнала будут потеряны.

Сюда не включены ошибки, автоматически исправленные системой NTFS либо ее базовым программным или аппаратным стеком.
Сбой диска базы данных или журнала. Диск, на котором хранится база данных или журналы, завершился сбоем и недоступен. Кратковременное отключение во время автоматической отработки отказа. Диск переформатирован или заменен. Том полностью перестроен. Отсоединяется, если его невозможно восстановить. Не выполнено Замена диска, возможно, с последующим перестроением RAID.

Замена диска с последующим полным перестроением тома.

Полное перестроение тома.
Не применимо.
Сбой тома базы данных или журнала. Сбой тома из-за проблем с NTFS или более низкого уровня. Кратковременное отключение во время автоматической отработки отказа. Диск переформатирован или заменен. Отсоединяется, если его невозможно восстановить. Не выполнено Замена диска, возможно, с последующим перестроением RAID.

Замена диска с последующим полным перестроением тома.

Полное перестроение тома.
Неприменимо.
Недостаточно места в базе данных или в томе журнала: недостаточно места в файловой системе NTFS, в которой находится база данных или файлы журнала. Автоматическая обработка отказа, если другая копия находится в ином состоянии. Нет. Отключено. Сбой Запуск полной или добавочной архивации, удаление журнала вручную, ожидание завершения операции, возобновление копирования базы данных или восстановление поврежденной копии базы данных. Неприменимо.
Администратор отключает неправильную базу данных. Если автоматическая отработка отказа не заблокирована администратором, отключение будет кратковременным.

Если автоматическая отработка отказа запрещена, отключение будет продолжаться до тех пор, пока не будет подключена база данных.
Нет. Отключено. Неприменимо Ошибку исправляет администратор. Неприменимо.
Администратор приостанавливает неправильную копию базы данных. В зависимости от конфигурации и задействованной копии автоматическое восстановление может быть запрещено. Нет. Неприменимо. Приостановка Ошибку исправляет администратор. Неприменимо.
Администратор отключает обслуживание базы данных хранилища, NTFS или тома. Если автоматическая отработка отказа не заблокирована администратором, отключение будет кратковременным.

Если автоматическая отработка отказа заблокирована, отключение будет продолжаться до тех пор, пока администратор не завершит задачу.
Нет. Отключено. Неприменимо Задачу завершает администратор. Неприменимо.
Администратор приостанавливает обслуживание копии базы данных хранилища, NTFS или тома. В зависимости от конфигурации и задействованной копии автоматическое восстановление может быть запрещено. Нет. Неприменимо. Приостановка Действия завершает администратор. Неприменимо.
Администратор отключает базу данных для обслуживания в автономном режиме. Отключение до тех пор, пока не будет выполнено восстановление. Нет. Отключено. Приостановка Действия завершает администратор. Активная и пассивная копии базы данных не совпадают.

Администратору необходимо приостановить копии.
Сбой сети хранения данных (SAN), диска или контроллера хранилища. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Восстановление оборудования. Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя системы.
Обслуживание оборудования сервера. Кратковременное отключение во время автоматической отработки отказа (если не заблокировано администратором). Нет. Отключено. Любое Завершение действий. Пассивная копия базы данных будет находиться в состоянии, которое существовало во время завершения работы системы.
Обслуживание программного обеспечения сервера. Кратковременное отключение во время автоматической отработки отказа (если не заблокировано администратором). Нет. Отключено. Любое Завершение действий. Пассивная копия базы данных будет находиться в состоянии, которое существовало во время завершения работы системы.
Служба банка данных Microsoft Exchange остановлена или приостановлена администратором. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Перезапустите службу банка данных Microsoft Exchange. Неприменимо.
Сбой службы банка данных Microsoft Exchange. Операционная система по-прежнему работает. Кратковременное отключение во время автоматической отработки отказа. Диспетчер служб перезапускает службу банка данных Microsoft Exchange. Отключено. Любое Перезапуск службы банка данных Microsoft Exchange вручную или автоматически. Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя службы банка данных Microsoft Exchange.
Частичный сбой службы хранилища сведений Microsoft Exchange; какая-то часть хранилища Exchange перестает работать, но не определяется как сбой. Возможное кратковременное отключение во время автоматической отработки отказа. Нет. Подключено и частично функционирует. Любое, но, возможно, частично функционирующее Перезагрузка сервера, перезапуск операционной системы или службы банка данных Microsoft Exchange. Неприменимо.
Сбой сервера. Сбой сервера по одной из следующих причин:
  • Полный отказ питания
  • Невосстановимая поломка микросхемы процессора, материнской платы или объединительной платы
  • Ошибка остановки операционной системы
  • Операционная система не отвечает на запросы
  • Полный сбой связи
Кратковременное отключение во время автоматической отработки отказа. Перезагрузка компьютера. Отключено. Любое Восстановление питания, изменение параметров операционной системы, изменение параметров оборудования, замена оборудования, перезапуск операционной системы, обслуживание операционной системы, обслуживание оборудования или устранение проблем связи. Неприменимо.
Сбой кворума в группе доступности базы данных. Отключение до тех пор, пока не будет выполнено восстановление. Нет. Отключено. Любое Восстановление неисправного кворума, назначение нового кворума или восстановление сети, ставшей причиной неисправности кворума. Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя системы.
Сбой связи в сети MAPI: сервер больше не доступен в сети MAPI. Кратковременное отключение во время автоматической отработки отказа. Потерь данных быть не должно. Нет. Попытки установки связи продолжают выполняться. Отключено. Любое Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи. Неприменимо.
Сбой связи в сети репликации: серверу не удается получить сигналы подтверждения, копии журнала или заполнение через поврежденную сеть репликации. Возможно кратковременное отключение копирования или заполнения во время переключения нагрузки на другую сеть. Нет. Попытки установки связи продолжают выполняться. Нет. Любое Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи. Сбой оказал влияние на устойчивость.
Несколько сбоев сетевого взаимодействия. Сервер не может получать пульс, копии журналов или начальное значение через несколько сетей. Кратковременное отключение во время автоматической отработки отказа. Потерь данных быть не должно. Нет. Попытки установки связи продолжают выполняться. Отключено. Любое Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи. По-прежнему работает по крайней мере дна сеть.
Частичный сбой одной или нескольких сетей: в сетях возникают ошибки с высокой скоростью. Ошибка не обнаружена; никаких действий. Нет. Подключено, но возможны проблемы с производительностью. Любое Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи. Скорости возникновения ошибок в сетях превышают обычные.
Незамеченные операционные системы зависают: операционная система перестает отвечать, но не обнаруживается при мониторинге или кластеризации. Нет. Нет. Любое. Любое Перезапуск или отключение неотвечающих ресурсов. Зависание не выявлено, поэтому никакие действия не предпринимаются.

Возможно, некоторые функциональные возможности являются действующими.
Сбой диска с операционной системой. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Замена диска и перестроение сервера или перестроение тома с помощью RAID. Неприменимо.
Недостаточно места на диске с операционной системой. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Освобождение места в томе вручную. Не применимо.
Диски, содержащие двоичные файлы Exchange, испытывают сбой тома или диска. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Замена диска и переустановка приложения или перестроение тома с помощью RAID. Неприменимо.
Недостаточно места на диске с двоичными файлами Exchange. Кратковременное отключение во время автоматической отработки отказа. Нет. Отключено. Любое Освобождение места в томе вручную. Неприменимо.
Обнаружен недопустимый новый журнал: последовательность журнала прерывается существующим файлом. Кратковременное отключение во время автоматической отработки отказа; возможно, с другими копиями не возникло такой проблемы. Нет. Отключено. Сбой Удаление аварийных журналов после определения источника. Не следует реплицировать аварийные журналы.
При непрерывной репликации обнаружен недопустимый журнал: при преобразовании обнаружен несоответствующий журнал во время операции копирования или преобразования. Неприменимо. Удаление журнала. Неприменимо. Сбой Удаление недопустимого журнала; перемещение потока журналов, оказывающих негативное воздействие. Неприменимо.

Отработки отказов в базах данных

Отработка отказа в базах данных происходит, когда активная копия базы данных больше не может оставаться активной. Следующие вхождения являются частью отработки отказа базы данных:

  1. Служба банка данных Microsoft Exchange обнаруживает сбой в базе данных.

  2. Служба банка данных Microsoft Exchange записывает сбои в журнал событий канала crimson.

  3. Диспетчер Active Manager на сервере, на котором находится неисправная база данных, обнаруживает события сбоя.

  4. Диспетчер Active Manager запрашивает сведения о состоянии копии базы данных у других серверов, на которых хранится копия базы данных.

  5. Другие серверы возвращают диспетчеру Active Manager запрошенные сведения о состоянии копии базы данных.

  6. PAM инициирует перемещение активной базы данных на другой сервер в группе DAG с использованием процесса выбора лучших копий.

  7. Диспетчер PAM обновляет местоположение подключения базы данных в базе данных кластера для обращения к выбранному серверу.

  8. Диспетчер PAM отправляет запрос диспетчеру Active Manager на выбранном сервере о его назначении главным сервером для этой базы данных.

  9. Диспетчер Active Manager на выбранном сервере отправляет запрос в службу репликации Microsoft Exchange на создание копии последних журналов с предыдущего сервера и устанавливает флажок подключения для этой базы данных.

  10. Служба репликации Microsoft Exchange копирует журналы с сервера, на котором ранее находилась активная копия базы данных.

  11. Диспетчер Active Manager считывает номер последней версии журнала из базы данных кластера.

  12. Служба банка данных Microsoft Exchange подключает новую активную копию базы данных.

Отработки отказов на серверах

Отработка отказа на сервере происходит, если участник группы DAG больше не может обслуживать сеть MAPI или служба кластеров участника группы DAG больше не может поддерживать связь с оставшимися участниками этой группы. Следующие вхождения являются частью отработки отказа сервера:

  1. Служба кластеров диспетчера PAM отправляет уведомление этому диспетчеру в одном из двух случаев:

    1. Узел вниз: сервер доступен, но не может участвовать в операциях DAG.
    2. Сеть MAPI отключена. С сервером нельзя связаться по сети MAPI и, следовательно, не может участвовать в операциях DAG.
  2. Если сервер доступен, диспетчер PAM подключается к диспетчеру Active Manager на поврежденном сервере и запрашивает немедленное отключение всех баз данных.

  3. Для каждой поврежденной копии базы данных выполняется следующее:

    1. Диспетчер PAM запрашивает сведения о состоянии копии базы данных у всех серверов в группе DAG.
    2. Диспетчер PAM получает ответ от всех доступных и активных участников группы DAG.
    3. Диспетчер PAM пытается определить наилучший источник журнала на всех отвечающих серверах, запрашивая у каждого номер последней версии журнала.
    4. Каждый сервер сообщает в ответ номер версии журнала.
  4. Диспетчер PAM извлекает текущее состояние каталога индекса поиска из базы данных кластера.

  5. На основе номера версии журнала и работоспособности каталога каждой копии базы данных диспетчер PAM выбирает лучшие копии для активации.

  6. Диспетчер PAM обновляет подключенное местоположение базы данных в базе данных кластера.

  7. Диспетчер PAM инициирует отработку отказа в базе данных, связываясь с диспетчером Active Manager на одном или нескольких серверах.

  8. Диспетчер Active Manager на выбранных серверах запрашивает службу репликации Microsoft Exchange на копирование последних журналов с предыдущего сервера и установку флажка подключения.

  9. Если база данных является подключаемой, диспетчер Active Manager на серверах подключает базы данных.

Дополнительные сведения о процессе выбора лучших копий диспетчером Active Manager см. в разделе Активный диспетчер.

Отработки отказа в центрах обработки данных

В Exchange 2013 внесены значительные изменения, призванные устранить проблемы, связанные с конфигурацией устойчивости сайтов Exchange 2010. Благодаря упрощению пространства имен, консолидации ролей сервера, разделению массива серверов клиентского доступа, восстановлению группы обеспечения доступности баз данных (в Exchange 2013 пространство имен не требуется перемещать вместе с DAG) и изменению подсистемы балансировки нагрузки Exchange 2013 предоставляет новые параметры устойчивости сайта, например возможность использования единого глобального пространства имен. Кроме того, если у вас есть более двух расположений для развертывания компонентов службы обмена сообщениями, Exchange 2013 также позволяет настроить службу обмена сообщениями для автоматической отработки отказа в ответ на сбои, требующие вмешательства вручную в Exchange 2010.

В Exchange 2013 была упрощена работа с устойчивостью сайта. Exchange применяет отказоустойчивость, встроенную в пространство имен, с помощью нескольких IP-адресов, балансировки нагрузки (и, при необходимости, возможности принимать и выходить из эксплуатации серверов). Одним из наиболее важных изменений, внесенных в Exchange 2013, стало использование возможности клиентов кэшировать несколько IP-адресов, возвращенных с DNS-сервера в ответ на запрос разрешения имен. Если клиент имеет возможность кэшировать несколько IP-адресов (как почти все клиенты HTTP, но поскольку почти все протоколы клиентского доступа в Exchange 2013 основаны на HTTP (Outlook, мобильный Outlook, EAS, EWS, OWA, EAC, RPS и т. д.), во всех поддерживаемых клиентах HTTP есть возможность использовать различные IP-адреса), то отработка отказа возможна на стороне клиента. Можно настроить DNS на передачу клиенту нескольких IP-адресов во время разрешения имен. Клиент запрашивает mail.contoso.com и получает, например, 2 или 4 IP-адреса. Однако многие IP-адреса, возвращенные клиентом, будут надежно использоваться клиентом. Такое оптимальное использование делает клиент гораздо лучше, так как в случае сбоя одного из IP-адресов у клиента есть один или несколько других, к которому нужно подключиться. Если клиент пробует один адрес и тот не работает, клиент ждет 20 секунд, а затем пробует следующий адрес в списке. Таким образом, при потере подключения к основному массиву CAS и наличии второго опубликованного IP-адреса для второго массива CAS выполняется автоматическое восстановление клиентов (приблизительно через 21 секунду).

Современные HTTP-клиенты (операционные системы и веб-браузеры, которым не более десяти лет) работают с этой избыточностью автоматически. Стек HTTP может принимать несколько IP-адресов для полного доменного имени, и если первый IP-адрес, который он пытается выполнить сбой (например, не удается подключиться), он попытается использовать следующий IP-адрес в списке. При обратимом сбое (подключение потеряно после установки сеанса из-за периодических сбоев в службе, когда, например, устройство удаляет пакеты и должно быть удалено из службы), пользователю может потребоваться обновить браузер.

При правильной конфигурации отработка отказа происходит на уровне клиента, и клиенты автоматически перенаправляются на второй центр обработки данных, где есть рабочие серверы клиентского доступа, а они перенаправляют связь обратно на сервер почтовых ящиков пользователя, который остается нетронутым сбоем (потому что переключение не производится). Вместо того, чтобы восстанавливать службу, служба восстанавливается сама, и вы можете сосредоточиться на устранении основной проблемы (например, замене подсистемы балансировки нагрузки, которая завершилась сбоем).

Так как вы можете выполнить отработку отказа пространства имен между центрами обработки данных, все, что необходимо для отработки отказа центра обработки данных, — это механизм отработки отказа роли почтового ящика в разных центрах обработки данных. Чтобы получить автоматическую отработку отказа для DAG, необходимо создать решение, в котором DAG равномерно разделена между двумя центрами обработки данных, а затем разместить следящий сервер в третьем расположении, чтобы его участники DAG могли указать в любом центре обработки данных, независимо от состояния сети между центрами обработки данных, содержащими члены DAG. Очень важно то, что третье расположение изолированно от сетевых сбоев, влияющих на расположения с членами группы DAG.

Если у вас всего два центра обработки данных и вы хотите настроить автоматический отработку отказа, можно использовать Microsoft Azure в качестве третьего расположения. Вам потребуется создать виртуальную сеть Azure и подключить ее к двум центрам обработки данных с помощью виртуальной частной сети из нескольких точек. Затем вы сможете разместить следящий сервер на виртуальной машине Microsoft Azure. Дополнительные сведения см. в статье Using a Microsoft Azure VM as a DAG witness server.