Проектирование для обеспечения высокого уровня доступности с помощью ExpressRoute

ExpressRoute обеспечивает высокий уровень доступности для обеспечения возможности подключения частной сети операторского уровня к ресурсам Майкрософт. Иными словами, по пути ExpressRoute в сети Microsoft нет единой точки отказа. Чтобы максимально увеличить доступность, необходимо также разработать архитектуру с высоким уровнем доступности для стороны клиента и поставщика услуг для канала ExpressRoute. В этой статье мы рассмотрим рекомендации по архитектуре сети для создания надежного сетевого подключения с использованием ExpressRoute, а затем рассмотрим возможности тонкой настройки, которые помогут улучшить высокий уровень доступности канала ExpressRoute.

Примечание

Основные понятия, описанные в этой статье, справедливы для создания канала ExpressRoute в Виртуальной глобальной сети или за ее пределами.

Рекомендации по архитектуре

На следующем рисунке показан рекомендуемый способ подключения с использованием канала ExpressRoute для максимизации доступности канала ExpressRoute.

1

Для обеспечения высокого уровня доступности важно поддерживать избыточность канала ExpressRoute во всей сети. Иными словами, необходимо обеспечить избыточность в локальной сети и не нарушать избыточность в сети поставщика услуг. Поддержание минимальной избыточности подразумевает отсутствие единой точки отказов в сети. Наличие избыточного питания и охлаждения для сетевых устройств повышает уровень доступности.

Рекомендации по проектированию физического слоя "первой мили"

В случае замыкания основного и вспомогательного каналов ExpressRoute на одно и то же оборудование конечных пользователей будет нарушен высокий уровень доступности в локальной сети. Кроме того, если настроить основное и вспомогательное соединения через один порт оборудования конечных пользователей (например, замыканием обоих соединений на разные подинтерфейсы или слиянием двух соединений в партнерской сети), так будет нарушен высокий уровень доступности сегмента сети на стороне партнера. Этот недостаток продемонстрирован на рисунке ниже.

2

С другой стороны, если вы замкнете основное и вспомогательное соединение каналов ExpressRoute на разные географические места, так может быть нарушено качество сетевого соединения. Если трафик активно распределяется по нагрузке между основным и вспомогательным соединениями, которые завершаются в разных географических местах, потенциально существенное различие в сетевой задержке между двумя путями приведет к неоптимальной производительности сети.

Сведения о геоизбыточном проектировании см. в статье Проектирование для аварийного восстановления с помощью ExpressRoute.

Соединения в режиме "активный — активный"

Сеть Майкрософт настроена для работы основного и вспомогательного соединений каналов ExpressRoute в режиме "активный — активный". Однако с помощью объявлений маршрутов можно принудительно создать избыточность соединений канала ExpressRoute в активном и пассивном режимах. Объявление более конкретных маршрутов и ожидаемого пути BGP AS — распространенные методы, позволяющие сделать один путь предпочтительнее другого.

Для повышения высокого уровня доступности рекомендуется работать как с подключением канала ExpressRoute в режиме "активный — активный". Если вы разрешите работу в режиме "активный — активный", сеть Майкрософт будет распределять трафик по нагрузке между соединениями на основе каждого потока.

При запуске основного и вспомогательного соединения канала ExpressRoute в режиме "активный — пассивный" возникает риск сбоя обоих соединений после сбоя в активном пути. Распространенная причина сбоя при переключении на другое соединение — это отсутствие активного управления пассивным соединением, в результате чего пассивное соединение объявляет устаревшие маршруты.

Кроме того, работа основного и вспомогательного соединения канала ExpressRoute в режиме "активный — активный" приводит к сбою и инициации перенаправления примерно половины потоков, в результате чего происходит сбой соединения ExpressRoute. Таким образом, режим "активный — активный" может значительно улучшить показатель среднего времени для восстановления (MTTR).

Примечание

Если плановое обслуживание или непредвиденные обстоятельства повлияют на одно из этих подключений, корпорация Майкрософт выполнит переключение на ожидаемый путь AS для передачи всего трафика в работоспособное подключение. Вам нужно обеспечить возможность передачи трафика по работоспособному подключению, то есть правильно настроить добавление в началом пути в сети Майкрософт и необходимые объявления маршрутов, чтобы избежать перебоев в работе службы.

NAT для пиринга Майкрософт

Пиринг Майкрософт предназначен для обмена данными между общедоступными конечными точками. Таким образом, локальные частные конечные точки работают с преобразованием сетевых адресов (NAT) в общедоступные IP-адреса на стороне клиента или партнерской сети до подключения к пиринговой сети Майкрософт. Если вы используете как основное, так и вспомогательное соединение в режиме "активный — активный", где и как NAT влияет на скорость восстановления вашей сети после сбоя на одном из соединений ExpressRoute? На следующем рисунке показаны два различных варианта NAT.

3

Вариант 1.

NAT применяется после разделения трафика между основным и вспомогательным подключениями канала ExpressRoute. Чтобы соблюсти требования NAT к отслеживанию состояния, для основного и вспомогательного устройств используются независимые пулы NAT. Обратный трафик будет поступать через то же пограничное устройство, через которое отправлялся исходящий трафик.

В случае сбоя канала ExpressRoute нарушается возможность взаимодействия с соответствующим пулом NAT. Поэтому все нарушенные потоки придется восстанавливать заново на уровне TCP или на уровне приложения по истечении соответствующего срока ожидания. В случае сбоя Azure не сможет обращаться к локальным серверам через соответствующий NAT, пока не восстановится соединение для основного или вспомогательного подключений канала ExpressRoute.

Вариант 2.

Используется общий пул NAT перед разделением трафика между основным и вспомогательным подключениями канала ExpressRoute. Важно отметить, что общий пул NAT перед разделением трафика не создает единую точку отказа и не нарушает высокий уровень доступности.

Пул NAT остается доступным даже в случае сбоя основного или вспомогательного подключения. Поэтому сетевой уровень сохраняет способность перенаправлять пакеты и помогает быстрее восстановить работу после сбоя.

Примечание

  • Если вы используете первый вариант (независимые пулы NAT для основного и вспомогательного соединения ExpressRoute) и сопоставляете порт IP-адреса из одного из пулов NAT с локальным сервером, сервер не будет доступен через канал ExpressRoute при сбое соответствующего подключения.
  • Завершение подключений ExpressRoute BGP на устройствах с отслеживанием состояний может привести к проблемам с отработкой отказа в случае планового или незапланированного обслуживания, которое может выполняться корпорацией Майкрософт или поставщиком канала ExpressRoute. Вам следует тщательно протестировать используемую конфигурацию и убедиться, что при отработке отказа трафик направляется правильно. По возможности завершайте сеансы BGP на устройствах без отслеживания состояния.

Возможности тонкой настройки для частного пиринга

В этом разделе мы рассмотрим дополнительные возможности (в зависимости от вашего развертывания Azure и того, насколько важен показатель MTTR), которые помогают повысить высокий уровень доступности канала ExpressRoute. В частности, давайте рассмотрим развертывание виртуальных сетевых шлюзов ExpressRoute с учетом зоны и обнаружение двунаправленной переадресации (BFD).

Виртуальные сетевые шлюзы ExpressRoute с учетом зоны доступности

Зона доступности в регионе Azure — это сочетание домена сбоя и домена обновления. Если вы хотите выбрать избыточное между зонами развертывание Azure IaaS, можно также настроить виртуальные сетевые шлюзы, избыточные в зонах, которые завершают частный пиринг ExpressRoute. Подробные сведения см. в статье Избыточные между зонами шлюзы виртуальной сети в Зонах доступности Azure. Сведения о настройке избыточного между зонами виртуального сетевого шлюза см. в статье Создание избыточного между зонами виртуального сетевого шлюза в Зонах доступности Azure.

Повышение быстроты обнаружения сбоев

ExpressRoute поддерживает BFD при частном пиринге. BFD сокращает время обнаружения сбоя по сети уровня 2 между Microsoft Enterprise Edge (MSEE) и соседями BGP на локальной стороне от 3 минут (по умолчанию) до менее чем 1 секунды. Быстрое обнаружения сбоев помогает ускорить восстановление после сбоев. Дополнительные сведения см. в статье Настройка обнаружения двунаправленной передачи через ExpressRoute.

Дальнейшие действия

В этой статье мы рассмотрели проектирование соединений канала ExpressRoute с учетом высокого уровня доступности. Пиринг канала ExpressRoute привязан к географическому расположению и поэтому может быть нарушен крупномасштабными сбоями, воздействующими на целый регион.

Рекомендации по проектированию для создания геоизбыточного сетевого подключения к магистрали Майкрософт, которое сможет выдерживать крупномасштабные сбои, воздействующие на целый регион, см. в статье Проектирование для аварийного восстановления с помощью частного пиринга ExpressRoute.