Аналитика больших данных с безопасностью корпоративного уровня с использованием Azure Synapse

Службы Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Идеи решения

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.

В решении, описанном в этой статье, показано, как использовать Azure Synapse Analytics для создания современной платформы данных для приема, обработки, хранения, обслуживания и визуализации данных из различных источников.

Архитектура

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Скачайте файл Visio для этой архитектуры.

Поток данных

Поток данных проходит через решение следующим образом.

  1. Конвейеры Synapse копируют действия приема необработанных структурированных данных из внешних реляционных хранилищ данных, полуструктурированных данных, таких как журналы, неструктурированные файлы и xml, а также другие исходные системы. Затем эти данные приема хранятся в Azure Data Lake Storage 2-го поколения расположении. Используя локальную среду выполнения интеграции, вы также можете управлять и запускать действия копирования между хранилищем данных в локальной среде и облаке.

  2. Azure Data Lake Storage 2-го поколения обеспечивает безопасное хранилище.

    • Использование брандмауэра для ограничения доступа служба хранилища учетной записи к доверенным службам Azure рекомендуется ограничить уязвимость внешней атаки.

    • Частные конечные точки для учетных записей служба хранилища Azure позволяют клиентам виртуальной сети безопасно получать доступ к данным через Приватный канал. Частная конечная точка использует IP-адрес из адресного пространства виртуальной сети для службы учетной записи хранения. Сетевой трафик между клиентами в виртуальной сети и учетной записью хранения проходит через виртуальную сеть и приватный канал в магистральной сети Майкрософт, устраняя уязвимость к общедоступному Интернету.

  3. Данные шифруются при хранении после приема в озеро данных. Использование собственных ключей, управляемых клиентом, может дополнительно защитить ключи шифрования и повысить гибкость при управлении элементами управления доступом.

  4. Данные обрабатываются с помощью конвейеров Synapse и обрабатываются на этапах с помощью пула Synapse Spark и его возможностей Data Lake. Данные хранятся в учетной записи служба хранилища Azure с помощью каталогов Azure Data Lake служба хранилища 2-го поколения. Ниже приведены следующие этапы.

    1. Конвейеры Synapse копируют действия первоначально приема данных из исходных систем. Эти приемные данные хранятся в необработанном формате с помощью каталога Бронзового озера данных.

    2. Затем пул Synapse Spark запускает правила качества данных для очистки необработанных данных. Затем эти обогащенные данные хранятся в каталоге Silver озера данных.

    3. После очистки пул Spark применяет все необходимые нормализации, преобразования данных и бизнес-правила для данных в каталоге Silver. Затем эти преобразованные данные хранятся в каталоге Gold озера данных.

  5. Соединитель Synapse Apache Spark для Synapse SQL отправляет нормализованные данные в пул SQL Synapse для использования подчиненными приложениями и службами отчетов, такими как Power BI. Этот соединитель предназначен для оптимальной передачи данных между бессерверными пулами Apache Spark и пулами SQL в рабочей области Azure Synapse Analytics.

  6. Служба Power BI использует режим DirectQuery для безопасного получения данных из пула SQL Synapse. Шлюз данных, установленный на виртуальной машине в частной виртуальной сети, выступает в качестве платформы подключения между служба Power BI и пулом SQL Synapse, используя частную конечную точку в той же виртуальной сети для безопасного подключения.

  7. Внешние приложения могут получать доступ к данным из бессерверных пулов Synapse или выделенных пулов SQL, доступ к соответствующим частным конечным точкам, подключенным к виртуальной сети.

В этом примере решения используются несколько служб и функций Azure:

  • Azure Synapse Analytics — это базовая служба, используемая в этом примере решения для предоставления приема данных, обработки и аналитики.

  • Azure Data Lake служба хранилища (2-го поколения) основан на служба хранилища Azure службах и предоставляет возможности озера данных, которые другие службы в этом примере решения используются при хранении и обработке данных.

  • Конвейеры Synapse копируют данные из исходных источников в расположения хранилища озера данных.

  • Apache Spark в Azure Synapse Analytics очищает, нормализует и выполняет другие задачи обработки для приема данных из исходных расположений.

  • Выделенный пул SQL (ранее — хранилище данных SQL) предоставляет возможности хранения данных для данных после его обработки и нормализации и готовности к использованию конечными пользователями и приложениями.

  • Бессерверный пул SQL позволяет пользователям быстро запрашивать и анализировать обработанные и нормализованные данные.

  • Управляемый виртуальная сеть Azure Synapse создает изолированную управляемую виртуальную сетевую среду для рабочей области Azure Synapse, выгрузив необходимость управления конфигурацией сети для ресурсов рабочей области.

  • Управляемые частные конечные точки Azure Synapse устанавливают частные связи с ресурсами Azure и маршрутизировать трафик между рабочими областями Azure Synapse и другими ресурсами Azure, используя только магистральную сеть Майкрософт.

  • Azure виртуальная сеть (виртуальная сеть) предоставляет возможности частной сети для ресурсов Azure, которые не являются частью рабочей области Azure Synapse. Он позволяет управлять доступом, безопасностью и маршрутизацией между ресурсами.

  • Частная конечная точка Azure предоставляет частный IP-адрес из виртуальной сети решения в управляемые службы Azure, эффективно подключая службу к виртуальной сети. Это обеспечивает безопасную сеть между рабочей областью Azure Synapse и другими службами Azure, такими как служба хранилища Azure, Azure Cosmos DB, База данных SQL Azure или собственная служба Приватный канал Azure.

  • Power BI позволяет пользователям выполнять расширенный анализ и совместно использовать аналитические сведения с помощью обработанных данных решения.

Компоненты

Подробности сценария

Azure Synapse Analytics объединяет интеграцию данных, хранение корпоративных данных и аналитику больших данных, чтобы помочь вам создать современную платформу данных, способную обрабатывать наиболее распространенные проблемы с данными, которые сталкиваются с крупными организациями. Azure виртуальная сеть позволяет создавать собственную частную сеть в общедоступном облаке Azure и управляемой сети, а частная конечная точка Azure позволяет безопасно интегрировать управляемые облачные службы в эти частные сети.

Потенциальные варианты использования

В решении, описанном в этой статье, показано, как объединить эти технологии для создания современной платформы данных, которая может получать, обрабатывать, хранить, обслуживать и визуализировать данные из разных источников, как структурированных, так и полуструктурированных, при выполнении высоких стандартов безопасности, которые ожидает ваша организация. Это включает в себя поддержку общих требований, таких как:

  • Защита источников данных. Источники данных в локальной корпоративной сети или виртуальной сети защищены за брандмауэром. Эти ресурсы можно безопасно получить, установив локальную среду выполнения интеграции в локальной среде или в виртуальных сетях.

  • Проверка подлинности и авторизация с помощью управляемых удостоверений. Обмен данными между службами Azure можно защитить с помощью управляемых удостоверений, которые предоставляют удостоверение для приложений, используемых при подключении к ресурсам, поддерживающим проверку подлинности Microsoft Entra. В этом примере Azure Synapse использует управляемое удостоверение для интеграции конвейеров.

  • Частные конечные точки, устанавливающие приватную ссылку на ресурсы Azure. Azure Synapse предоставляет полностью управляемые функции частной конечной точки для служб в рабочей области Synapse (например, служба хранилища Azure или Azure Cosmos DB). Другие ресурсы Azure, такие как приложения Azure, Microsoft Power BI и служба Azure Synapse, защищены с помощью частных конечных точек, интегрированных в виртуальную сеть примера решения. Сетевой трафик между частной сетью и пулами Synapse использует Приватный канал для перемещения трафика через магистральную сеть Майкрософт, устраняя уязвимость к общедоступному Интернету.

  • Шифрование передаваемых данных. Данные шифруются во время передачи данных, так как все передачи данных выполняются через протокол HTTPS и TLS через TCP, чтобы предотвратить атаки человека в середине во время взаимодействия со службами Azure, обеспечивая сквозное безопасное перемещение частных данных.

  • Шифрование неактивных данных. Прозрачное шифрование данных в Azure Synapse Analytics помогает защитить от вредоносных действий путем шифрования и расшифровки данных в режиме реального времени, хранящихся в рабочей области Synapse. служба хранилища Azure также шифрует все данные в неактивных учетных записях хранения. По умолчанию данные шифруются с помощью ключей, управляемых Корпорацией Майкрософт, но вы можете управлять собственными ключами, если требуется дополнительный контроль над шифрованием.

Развертывание этого сценария

Необходимо иметь учетную запись Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Шаблоны Azure Resource Manager, которые необходимо развернуть компоненты, описанные в этой архитектуре, доступны в репозитории GitHub . Эти шаблоны развертывают все службы, отображаемые на схеме архитектуры, за исключением шлюза данных Power BI, локальной среды выполнения интеграции и Azure Key Vault для ключей, управляемых клиентом.

Пользователь может создать структуру папок озера данных и конвейеры интеграции Azure Synapse Analytics, необходимые для подключения к источникам данных.

Разверните шаблон ARM непосредственно, нажав эту кнопку:

Deploy to Azure

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Следующие шаги

Чтобы узнать, как продолжить разработку этого подхода, ознакомьтесь с основами Azure Synapse Analytics, выполнив следующие учебники.

Ознакомьтесь с этими статьями при планировании и развертывании решений с помощью Azure Synapse Analytics: