Платформа данных Azure — комплекснаяAzure data platform end-to-end

В этом примере сценария показано, как использовать обширное семейство служб данных Azure для создания современной платформы данных, способной обрабатывать наиболее распространенные проблемы с данными в Организации.This example scenario demonstrates how to use the extensive family of Azure Data Services to build a modern data platform capable of handling the most common data challenges in an organization.

Решение, описанное в этой статье, сочетает в себе ряд служб Azure, которые будут принимать, обрабатывать, хранить, обслуживать и визуализировать данные из различных источников, как структурированных, так и неструктурированных.The solution described in this article combines a range of Azure services that will ingest, process, store, serve, and visualize data from different sources, both structured and unstructured.

В этой архитектуре решения показано, как можно использовать единую единую платформу данных для удовлетворения наиболее распространенных требований:This solution architecture demonstrates how a single, unified data platform can be used to meet the most common requirements for:

  • Традиционные конвейеры реляционных данныхTraditional relational data pipelines
  • Преобразования больших данныхBig data transformations
  • Неструктурированное получение данных и обогащение с помощью функций на основе искусственного интеллектаUnstructured data ingestion and enrichment with AI-based functions
  • Прием и обработка потоков после лямбда-архитектурыStream ingestion and processing following the Lambda architecture
  • Обслуживание ценных сведений о приложениях, управляемых данными, и визуализация данных с богатыми возможностямиServing insights for data-driven applications and rich data visualization

Варианты соответствующего использованияRelevant use cases

Этот подход также может использоваться для:This approach can also be used to:

  • Создание корпоративного центра данных, состоящего из хранилища данных для структурированных данных, и Data Lake для частично структурированных и неструктурированных данных.Establish an enterprise-wide data hub consisting of a data warehouse for structured data and a data lake for semi-structured and unstructured data. Этот центр данных станет одним из источников истинности ваших данных.This data hub becomes the single source of truth for your data.
  • Интегрируйте реляционные источники данных с другими неструктурированными наборами с использованием технологий обработки больших данных;Integrate relational data sources with other unstructured datasets with the use of big data processing technologies;
  • Использования семантического моделирования и мощных средств визуализации для более простого анализа данных.Use semantic modeling and powerful visualization tools for simpler data analysis.

ArchitectureArchitecture

Архитектура современных платформ данных с помощью служб данных AzureArchitecture for a modern data platform using Azure data services

Note

  • Службы, охваченные этой архитектурой, являются лишь подмножеством семейства служб Azure.The services covered by this architecture are only a subset of a much larger family of Azure services. Аналогичные результаты можно получить с помощью других служб или функций, не охваченных этой структурой.Similar outcomes can be achieved by using other services or features not covered by this design.
  • Конкретные бизнес-требования к варианту использования аналитики могут также запрашивать использование различных служб или функций, не рассматриваемых в этом проекте.Specific business requirements for your analytics use case may also ask for the use of different services or features not considered in this design.

Данные проходят через решение следующим образом (снизу вверх):The data flows through the solution as follows (from bottom-up):

реляционные базы данныхRelational databases

  1. Используйте конвейеры фабрики данных Azure для извлечения данных из самых разнообразных баз данных, как локальных, так и облачных.Use Azure Data Factory pipelines to pull data from a wide variety of databases, both on-premises and in the cloud. Конвейеры можно активировать на основе заранее определенного расписания, в ответ на событие или явно вызывать через интерфейсы API-интерфейса.Pipelines can be triggered based on a pre-defined schedule, in response to an event or be explicitly called via REST APIs.

  2. По-прежнему входит в конвейер фабрики данных Azure, используйте Azure Data Lake Store Gen 2 для размещения данных, скопированных из реляционных баз данных.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to stage the data copied from the relational databases. Данные можно сохранить в текстовом формате с разделителями или сжать как файлы Parquet.You can save the data in delimited text format or compressed as Parquet files.

  3. Используйте возможности Azure синапсе Polybase для быстрого приема в таблицах хранилища данных.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  4. Загрузите соответствующие данные из хранилища данных Azure синапсе в Power BI наборы данных для визуализации.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Power BI модели реализуют семантическую модель для упрощения анализа бизнес-данных и связей.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  5. Бизнес-аналитики используют Power BI отчеты и панели мониторинга для анализа данных и получения бизнес-аналитики.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

Частично структурированные источники данныхSemi-structured data sources

  1. Используйте конвейеры фабрики данных Azure для извлечения данных из широкого спектра частично структурированных источников данных как локально, так и в облаке.Use Azure Data Factory pipelines to pull data from a wide variety of semi-structured data sources, both on-premises and in the cloud. Например, можно принимать данные из файловых расположений, содержащих CSV-или JSON-файлы.For example, you can ingest data from file-based locations containing CSV or JSON files. Вы можете подключиться к базам данных без SQL, таким как Cosmos DB или Mongo DB.You can connect to No-SQL databases such as Cosmos DB or Mongo DB. Или же вы вызываете API-интерфейсы RESTFUL, предоставляемые приложениями SaaS, которые будут работать в качестве источника данных для конвейера.Or you call REST APIs provided by SaaS applications that will function as your data source for the pipeline.

  2. По-прежнему часть конвейера фабрики данных Azure используйте Azure Data Lake Store Gen 2, чтобы сохранить исходные данные, скопированные из частично структурированного источника данных.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to save the original data copied from the semi-structured data source.

  3. В фабрике данных Azure потоки данных или Azure Databricks записные книжки теперь можно использовать для обработки частично структурированных данных и применения необходимых преобразований, прежде чем данные можно будет использовать для создания отчетов.Azure Data Factory Mapping Data Flows or Azure Databricks notebooks can now be used to process the semi-structured data and apply the necessary transformations before data can be used for reporting. Полученный набор данных можно сохранить как Parquet файлы в Data Lake.You can save the resulting dataset as Parquet files in the data lake.

  4. Используйте возможности Azure синапсе Polybase для быстрого приема в таблицах хранилища данных.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  5. Загрузите соответствующие данные из хранилища данных Azure синапсе в Power BI наборы данных для визуализации.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Power BI модели реализуют семантическую модель для упрощения анализа бизнес-данных и связей.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  6. Бизнес-аналитики используют Power BI отчеты и панели мониторинга для анализа данных и получения бизнес-аналитики.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

Неструктурированные источники данныхNon-structured data sources

  1. Используйте конвейеры фабрики данных Azure для извлечения данных из разнообразных неструктурированных источников данных как локально, так и в облаке.Use Azure Data Factory pipelines to pull data from a wide variety of unstructured data sources, both on-premises and in the cloud. Например, можно принимать видео, изображения или данные журнала с произвольным текстом из файловых расположений.For example, you can ingest video, image or free text log data from file-based locations. Вы также можете вызывать API-интерфейсы RESTFUL, предоставляемые приложениями SaaS, которые будут работать в качестве источника данных для конвейера.You can also call REST APIs provided by SaaS applications that will function as your data source for the pipeline.

  2. По-прежнему часть конвейера фабрики данных Azure используйте Azure Data Lake Store Gen 2, чтобы сохранить исходные данные, скопированные из неструктурированного источника данных.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to save the original data copied from the unstructured data source.

  3. Вы можете вызвать Azure Databricks записные книжки из конвейера для обработки неструктурированных данных.You can invoke Azure Databricks notebooks from your pipeline to process the unstructured data. Записная книжка может использовать API-интерфейсы Cognitive Services или вызывать пользовательские модели служб Машинное обучение Azure для получения ценной информации из неструктурированных данных.The notebook can make use of Cognitive Services APIs or invoke custom Azure Machine Learning Service models to generate insights from the unstructured data. Полученный набор данных можно сохранить как Parquet файлы в Data Lake.You can save the resulting dataset as Parquet files in the data lake.

  4. Используйте возможности Azure синапсе Polybase для быстрого приема в таблицах хранилища данных.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  5. Загрузите соответствующие данные из хранилища данных Azure синапсе в Power BI наборы данных для визуализации.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Power BI модели реализуют семантическую модель для упрощения анализа бизнес-данных и связей.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  6. Бизнес-аналитики используют Power BI отчеты и панели мониторинга для анализа данных и получения бизнес-аналитики.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

Потоковая передачаStreaming

  1. Используйте концентраторы событий Azure для приема потоков данных, создаваемых клиентским приложением.Use Azure Event Hubs to ingest data streams generated by a client application. Затем концентратор событий принимает и сохраняет потоковые данные, сохраняющие последовательность полученных событий.The Event Hub will then ingest and store streaming data preserving the sequence of events received. Затем потребители могут подключаться к концентратору событий и получать сообщения для обработки.Consumers can then connect to Event Hub and retrieve the messages for processing.

  2. Настройте запись концентратора событий, чтобы сохранить копию событий в Data Lake.Configure the Event Hub Capture to save a copy of the events in your data lake. Эта функция реализует "холодный путь" шаблона лямбда-архитектуры и позволяет выполнять историю и анализ тенденций для потоковых данных, сохраненных в Data Lake, с помощью таких средств, как Azure Databricks записные книжки.This feature implements the "Cold Path" of the Lambda architecture pattern and allows you to perform historical and trend analysis on the stream data saved in your data lake using tools such as Azure Databricks notebooks.

  3. Используйте Stream Analytics задание для реализации "критического пути" шаблона лямбда-архитектуры и получения ценной информации из потоковых данных при передаче.Use a Stream Analytics job to implement the "Hot Path" of the Lambda architecture pattern and derive insights from the stream data in transit. Определите хотя бы один входной поток данных, поступающий из концентратора событий, один запрос для обработки входного потока данных и один Power BI выходных данных в место, куда будут отправляться результаты запроса.Define at least one input for the data stream coming from your Event Hub, one query to process the input data stream and one Power BI output to where the query results will be sent to.

  4. Затем бизнес-аналитики используют Power BI наборы данных и возможности панели мониторинга в режиме реального времени для визуализации быстрого изменения аналитических сведений, созданных Stream Analyticsным запросом.Business analysts then use Power BI real-time datasets and dashboard capabilities for to visualize the fast changing insights generated by your Stream Analytics query.

Компоненты архитектурыArchitecture components

В архитектуре были использованы следующие службы Azure:The following Azure services have been used in the architecture:

  • Фабрика данных AzureAzure Data Factory
  • Azure Data Lake 2-го поколенияAzure Data Lake Gen2
  • Azure Synapse AnalyticsAzure Synapse Analytics
  • Azure DatabricksAzure Databricks
  • Azure Cosmos DBAzure Cosmos DB
  • Azure Cognitive ServicesAzure Cognitive Services
  • Центры событий AzureAzure Event Hubs
  • Azure Stream AnalyticsAzure Stream Analytics
  • Microsoft Power BIMicrosoft Power BI

Если вам нужны дополнительные учебные материалы или доступ к технической документации, в таблице ниже приведены ссылки на Microsoft Learn и на техническую документацию по каждой службе.If you need further training resources or access to technical documentation, the table below links to Microsoft Learn and to each service's Technical Documentation.

Служба AzureAzure Service Microsoft LearnMicrosoft Learn Техническая документацияTechnical Documentation
Фабрика данных AzureAzure Data Factory Прием данных с помощью Фабрики данных AzureData ingestion with Azure Data Factory Техническая документация по фабрике данных AzureAzure Data Factory Technical Documentation
Azure Synapse AnalyticsAzure Synapse Analytics Реализация хранилища данных с помощью Azure Synapse AnalyticsImplement a Data Warehouse with Azure Synapse Analytics Техническая документация по Azure синапсе AnalyticsAzure Synapse Analytics Technical Documentation
Azure Data Lake Storage 2-го поколенияAzure Data Lake Storage Gen2 Обработка данных в большом объеме с Azure Data Lake Storage 2-го поколенияLarge Scale Data Processing with Azure Data Lake Storage Gen2 Техническая документация по Azure Data Lake Storage 2-го поколенияAzure Data Lake Storage Gen2 Technical Documentation
Azure Cognitive ServicesAzure Cognitive Services Cognitive Services путей обучения и модулейCognitive Services Learning Paths and Modules Техническая документация по Azure Cognitive ServicesAzure Cognitive Services Technical Documentation
Azure Cosmos DBAzure Cosmos DB Работа с данными NoSQL в Azure Cosmos DBWork with NoSQL data in Azure Cosmos DB Техническая документация по Azure Cosmos DBAzure Cosmos DB Technical Documentation
Azure DatabricksAzure Databricks Инжиниринг данных с Azure DatabricksPerform data engineering with Azure Databricks Техническая документация по Azure DatabricksAzure Databricks Technical Documentation
Центры событий AzureAzure Event Hubs Обеспечение надежного обмена сообщениями для приложений с большими данными с помощью концентраторов событий AzureEnable reliable messaging for Big Data applications using Azure Event Hubs Техническая документация по концентраторам событий AzureAzure Event Hubs Technical Documentation
Azure Stream AnalyticsAzure Stream Analytics Реализация решения для потока данных с помощью Azure Streaming AnalyticsImplement a Data Streaming Solution with Azure Streaming Analytics Техническая документация по Azure Stream AnalyticsAzure Stream Analytics Technical Documentation
Power BIPower BI Создание и использование аналитических отчетов в Power BICreate and use analytics reports with Power BI Техническая документация по Power BIPower BI Technical Documentation

Альтернативные вариантыAlternatives

  • В ситуациях, когда требуются Управление устройствами, проверка подлинности и подготовка, центр Интернета вещей Azure может оказаться предпочтительным решением для концентраторов событий.For situations where device management, authentication, and provisioning are required, Azure IOT Hub may be a preferred solution over Event Hubs. Концентраторы событий должны по-прежнему быть консидреред для других источников потоковых данных.Event Hubs should still be considrered for other streaming data sources.

  • В приведенной выше архитектуре фабрика данных Azure — это служба, ответственная за координацию конвейера данных.In the architecture above, Azure Data Factory is the service responsible for data pipeline orchestration. Azure Databricks также можно использовать для выполнения одной и той же роли при выполнении вложенных записных книжек.Azure Databricks can also be used to perform the same role through the execution of nested notebooks.

  • На приведенной выше архитектуре Azure Stream Analytics является службой, ответственной за обработку данных потоковой передачи.In the architecture above, Azure Stream Analytics is the service responsible for processing streaming data. Azure Databricks также можно использовать для выполнения одной и той же роли при выполнении записных книжек.Azure Databricks can also be used to perform the same role through the execution of notebooks.

  • На приведенной выше архитектуре Azure Databricks использовался для вызова Cognitive Services.In the architecture above, Azure Databricks was used to invoke Cognitive Services. Вы также можете использовать функции Azure для вызова Cognitive Services Azure из конвейера фабрики данных Azure.You can also make use of Azure Functions to invoke Azure Cognitive Services from an Azure Data Factory Pipeline.

  • Сравните с другими альтернативами:For comparisons of other alternatives, see:

РекомендацииConsiderations

В этой архитектуре были выбраны технологии, так как каждый из них предоставляет необходимые функции для обработки подавляющего большинства проблем с данными в Организации.The technologies in this architecture were chosen because each of them provide the necessary functionality to handle the vast majority of data challenges in an organization. Эти службы соответствуют требованиям к масштабируемости и доступности, помогая им контролировать затраты.These services meet the requirements for scalability and availability, while helping them control costs.

ЦеныPricing

Идеальная отдельная ценовая категория и общая стоимость каждой службы, включенной в архитектуру, зависят от объема обрабатываемых и сохраняемых данных, а также от ожидаемого уровня производительности.The ideal individual pricing tier and the total overall cost of each service included in the architecture is dependent on the amount of data to be processed and stored and the acceptable performance level expected. Используйте приведенное ниже руководство, чтобы узнать больше о стоимости каждой службы.Use the guide below to learn more about how each service is priced:

  • Azure синапсе позволяет независимо масштабировать уровни вычислений и хранилища.Azure Synapse allows you to scale your compute and storage levels independently. Стоимость за использование вычислительных ресурсов взимается каждый час. По требованию пользователя может быть выполнена приостановка использования данных ресурсов или их масштабируемость.Compute resources are charged per hour, and you can scale or pause these resources on demand. В ресурсах хранилища стоимость взимается за используемые терабайты, что значит, что при получении большего количества данных стоимость увеличится.Storage resources are billed per terabyte, so your costs will increase as you ingest more data.
  • Цены Фабрики данных основаны на количестве операций чтения и записи, операций мониторинга и операций оркестрации, выполняемых в рабочей нагрузке.Data Factory costs are based on the number of read/write operations, monitoring operations, and orchestration activities performed in a workload. Цены Фабрики данных будут увеличиваться с каждым дополнительным потоком и объемом данных, обработанных каждым из них.Your Data Factory costs will increase with each additional data stream and the amount of data processed by each one.
  • Существуют различные варианты решения Power BI. С их помощью оно может соответствовать различным требованиям.Power BI has different product options for different requirements. Power BI Embedded предоставляет опцию на основе Azure для внедрения функций Power BI в ваши приложения.Power BI Embedded provides an Azure-based option for embedding Power BI functionality inside your applications. Экземпляр Power BI Embedded включен в образец цены выше.A Power BI Embedded instance is included in the pricing sample above.

Дальнейшие действияNext steps