Надежность в Azure HDInsight в Служба Azure Kubernetes

В этой статье описывается поддержка надежности в Azure HDInsight на Служба Azure Kubernetes (AKS) и рассматриваются как конкретные рекомендации по надежности, так и аварийное восстановление и непрерывность бизнес-процессов. Более подробный обзор принципов надежности в Azure см. в статье "Надежность Azure".

Рекомендации по надежности

В этом разделе содержатся рекомендации по обеспечению устойчивости и доступности. Каждая рекомендация входит в одну из двух категорий:

  • Элементы работоспособности охватывают такие области, как элементы конфигурации и правильная функция основных компонентов, составляющих рабочую нагрузку Azure, такие как параметры конфигурации ресурсов Azure, зависимости от других служб и т. д.

  • Элементы риска охватывают такие области, как требования к доступности и восстановлению, тестирование, мониторинг, развертывание и другие элементы, которые, если остались неразрешенными, повышают вероятность проблем в среде.

Матрица приоритетов рекомендаций по надежности

Каждая рекомендация помечается в соответствии со следующей матрицей приоритетов:

Изображения Приоритет Описание
Высокая Необходимо немедленное исправление.
Средняя Исправление в течение 3–6 месяцев.
Низкая Необходимо проверить.

Сводка рекомендаций по надежности

Категория Приоритет Рекомендация
Availability Рекомендации по размеру виртуальных машин по умолчанию и минимальному размеру виртуальных машин
Автоматическое масштабирование HDInsight в кластерах AKS
Наблюдение Практическое руководство по интеграции с Log Analytics
Мониторинг с использованием Azure Managed Prometheus и Grafana
Безопасность Использование группы безопасности сети для ограничения трафика в HDInsight в AKS

Поддержка зоны доступности

Зоны доступности Azure — это по крайней мере три физически отдельные группы центров обработки данных в каждом регионе Azure. Центры обработки данных в каждой зоне оснащены независимой питанием, охлаждения и сетевой инфраструктурой. В случае сбоя локальной зоны зоны зоны создаются таким образом, чтобы при возникновении влияния одной зоны, региональных служб, емкости и высокой доступности поддерживались остальными двумя зонами.

Сбои могут варьироваться от сбоев программного обеспечения и оборудования до таких событий, как землетрясения, наводнения и пожары. Устойчивость к сбоям достигается с избыточностью и логической изоляцией служб Azure. Дополнительные сведения о зонах доступности в Azure см. в разделе "Регионы и зоны доступности".

Службы с поддержкой зон доступности Azure предназначены для обеспечения правильного уровня надежности и гибкости. Их можно настроить двумя способами. Они могут быть избыточными по зонам с автоматическим реплика tion между зонами или зональными экземплярами, закрепленными в определенной зоне. Эти подходы также можно объединить. Дополнительные сведения об зональной архитектуре, избыточной между зонами, см. в Рекомендации использования зональных зон и регионов.

В настоящее время Azure HDInsight в AKS не поддерживает зону доступности в своих предложениях службы.

Аварийное восстановление и непрерывность бизнес-процессов

Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с Рекомендации для разработки стратегии аварийного восстановления.

Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплика te данные или возвращаются из неудающегося региона, чтобы перекрестно реплика te в другой включенный регион. Для этих служб вы несете ответственность за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .

В настоящее время azure HDInsight в службе AKS CP(Control Plane) и базах данных развертываются в разных регионах Azure. Среди этих регионов azure HDInsight в экземплярах AKS и экземплярах базы данных изолированы. Когда происходит сбой на уровне региона, один регион не работает. Все ресурсы в этом регионе, включая поставщика ресурсов Azure HDInsight в AKS CP, базу данных Azure HDInsight в AKS CP и все кластеры клиентов в этом регионе. В этом случае мы можем ждать только завершения регионального сбоя. При восстановлении сбоя служба Azure HDInsight в службе AKS возвращается, а все кластеры клиентов возвращаются. Возможно, что могут возникнуть некоторые проблемы из-за несоответствия данных после сбоя и требуется исправление вручную.

Аварийное восстановление в нескольких регионах

Azure HDInsight в AKS в настоящее время не поддерживает отработку отказа между регионами. Улучшение непрерывности бизнес-процессов за счет межрегионального аварийного восстановления с высокой доступностью требует более сложных архитектурных решений и более высоких затрат. Клиенты могут разработать собственное решение для резервного копирования ключевых данных и состояния задания в разных регионах.

Обнаружение сбоев, уведомление и управление

  • Используйте средства мониторинга Azure в HDInsight в AKS для обнаружения ненормального поведения в кластере и задания соответствующих уведомлений оповещений. Вы можете включить Log Analytics различными способами и использовать управляемую службу Prometheus с панелями мониторинга Azure Grafana для мониторинга. Дополнительные сведения см. в статье об интеграции Azure Monitor.

  • Подпишитесь на оповещения о работоспособности Azure, чтобы получать уведомления о проблемах служб, плановом обслуживании, рекомендациях по работоспособности и безопасности для подписки, службы или региона. Уведомления о работоспособности, которые включают причину проблемы и ожидаемое время разрешения, помогут вам лучше выполнять отработку отказа и восстановление после сбоя. Дополнительные сведения см. в документации по управлению работоспособностью службы и работоспособностью служб Azure.

Аварийное восстановление в одном регионе

В настоящее время Azure HDInsight в AKS имеет только одно стандартное предложение службы и кластеры создаются в одном регионе. Клиенты отвечают за восстановление диастера.

Устойчивость емкости и упреждающего аварийного восстановления

Azure HDInsight в AKS и ее клиентах работают в рамках модели общей ответственности, что означает, что клиент должен обращаться к аварийному восстановления для службы, которую они развертывают и контролируют. Чтобы обеспечить упреждающее восстановление, клиенты всегда должны предопределить вторичные файлы, так как во время влияния на тех, кто не был предварительно расположен.

В отличие от исходной версии HDInsight, Виртуальные машины, используемой в HDInsight в кластерах AKS, требуют той же квоты, что и виртуальные машины Azure. Дополнительные сведения см. в разделе "Планирование емкости".

Дополнительные сведения по темам, обсуждавшимся в этой статье, см. в следующих разделах: