Plataforma de dados do Azure de ponta a pontaAzure data platform end-to-end

Este cenário de exemplo demonstra como usar a extensa família de serviços de dados do Azure para criar uma plataforma de dados moderna capaz de lidar com os desafios de dados mais comuns em uma organização.This example scenario demonstrates how to use the extensive family of Azure Data Services to build a modern data platform capable of handling the most common data challenges in an organization.

A solução descrita neste artigo combina uma variedade de serviços do Azure que irão ingerir, processar, armazenar, fornecer e Visualizar dados de diferentes fontes, estruturadas e não estruturadas.The solution described in this article combines a range of Azure services that will ingest, process, store, serve, and visualize data from different sources, both structured and unstructured.

Essa arquitetura de solução demonstra como uma única plataforma de dados unificada pode ser usada para atender aos requisitos mais comuns para:This solution architecture demonstrates how a single, unified data platform can be used to meet the most common requirements for:

  • Pipelines de dados relacionais tradicionaisTraditional relational data pipelines
  • Transformações de Big dataBig data transformations
  • Ingestão e enriquecimento de dados não estruturados com funções baseadas em iaUnstructured data ingestion and enrichment with AI-based functions
  • Processamento e ingestão de fluxo após a arquitetura lambdaStream ingestion and processing following the Lambda architecture
  • Atendendo informações para aplicativos controlados por dados e visualização de dados avançadaServing insights for data-driven applications and rich data visualization

Casos de uso relevantesRelevant use cases

Essa abordagem também pode ser usada para:This approach can also be used to:

  • Estabeleça um hub de dados de toda a empresa que consiste em um data warehouse para dados estruturados e um data Lake para dados semiestruturados e não estruturados.Establish an enterprise-wide data hub consisting of a data warehouse for structured data and a data lake for semi-structured and unstructured data. Esse Hub de dados se torna a única fonte de verdade para seus dados.This data hub becomes the single source of truth for your data.
  • Integre fontes de dados relacionais com outros conjuntos de dados não estruturados com o uso de Big Data tecnologias de processamento;Integrate relational data sources with other unstructured datasets with the use of big data processing technologies;
  • Use a modelagem semântica e as ferramentas de visualização poderosas para uma análise de dados mais simples.Use semantic modeling and powerful visualization tools for simpler data analysis.

ArquiteturaArchitecture

Arquitetura para uma plataforma de dados moderna usando os serviços de dados do AzureArchitecture for a modern data platform using Azure data services

Observação

  • Os serviços cobertos por essa arquitetura são apenas um subconjunto de uma família muito maior de serviços do Azure.The services covered by this architecture are only a subset of a much larger family of Azure services. Resultados semelhantes podem ser obtidos usando outros serviços ou recursos não cobertos por esse design.Similar outcomes can be achieved by using other services or features not covered by this design.
  • Requisitos de negócios específicos para seu caso de uso de análise também podem solicitar o uso de diferentes serviços ou recursos não considerados nesse design.Specific business requirements for your analytics use case may also ask for the use of different services or features not considered in this design.

Os dados fluem pela solução da seguinte maneira (de baixo para cima):The data flows through the solution as follows (from bottom-up):

Bancos de dados relacionaisRelational databases

  1. Use pipelines Azure Data Factory para efetuar pull de dados de uma ampla variedade de bancos de dados, tanto localmente quanto na nuvem.Use Azure Data Factory pipelines to pull data from a wide variety of databases, both on-premises and in the cloud. Os pipelines podem ser disparados com base em uma agenda predefinida, em resposta a um evento ou ser chamados explicitamente por meio de APIs REST.Pipelines can be triggered based on a pre-defined schedule, in response to an event or be explicitly called via REST APIs.

  2. Ainda faz parte do pipeline de Azure Data Factory, use Azure Data Lake Store Gen 2 para preparar os dados copiados dos bancos de dados relacionais.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to stage the data copied from the relational databases. Você pode salvar os dados em formato de texto delimitado ou compactados como arquivos parquet.You can save the data in delimited text format or compressed as Parquet files.

  3. Use os recursos do polybase do Azure Synapse para ingestão rápida em suas tabelas de data warehouse.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  4. Carregue dados relevantes do data warehouse do Azure Synapse em conjuntos de dados do Power BI para visualização do dado.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Os modelos de Power BI implementam um modelo semântico para simplificar a análise de dados de negócios e relações.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  5. Os analistas de negócios usam Power BI relatórios e painéis para analisar dados e gerar informações de negócios.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

Fontes de dados semiestruturadasSemi-structured data sources

  1. Use pipelines de Azure Data Factory para efetuar pull de dados de uma ampla variedade de fontes de dados semiestruturadas, tanto localmente quanto na nuvem.Use Azure Data Factory pipelines to pull data from a wide variety of semi-structured data sources, both on-premises and in the cloud. Por exemplo, você pode ingerir dados de locais baseados em arquivo que contêm arquivos CSV ou JSON.For example, you can ingest data from file-based locations containing CSV or JSON files. Você pode se conectar a bancos de dados não SQL, como o Cosmos DB ou o Mongo DB.You can connect to No-SQL databases such as Cosmos DB or Mongo DB. Ou você chama as APIs REST fornecidas por aplicativos SaaS que funcionarão como sua fonte de dados para o pipeline.Or you call REST APIs provided by SaaS applications that will function as your data source for the pipeline.

  2. Ainda faz parte do pipeline de Azure Data Factory, use Azure Data Lake Store Gen 2 para salvar os dados originais copiados da fonte de dados semiestruturada.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to save the original data copied from the semi-structured data source.

  3. Azure Data Factory mapeamento de fluxos de dados ou blocos de anotações de Azure Databricks agora podem ser usados para processar os dados semiestruturados e aplicar as transformações necessárias antes que os dados possam ser usados para relatórios.Azure Data Factory Mapping Data Flows or Azure Databricks notebooks can now be used to process the semi-structured data and apply the necessary transformations before data can be used for reporting. Você pode salvar o conjunto de dados resultante como arquivos parquet no data Lake.You can save the resulting dataset as Parquet files in the data lake.

  4. Use os recursos do polybase do Azure Synapse para ingestão rápida em suas tabelas de data warehouse.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  5. Carregue dados relevantes do data warehouse do Azure Synapse em conjuntos de dados do Power BI para visualização do dado.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Os modelos de Power BI implementam um modelo semântico para simplificar a análise de dados de negócios e relações.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  6. Os analistas de negócios usam Power BI relatórios e painéis para analisar dados e gerar informações de negócios.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

Fontes de dados não estruturadasNon-structured data sources

  1. Use pipelines de Azure Data Factory para efetuar pull de dados de uma ampla variedade de fontes de dados não estruturadas, tanto localmente quanto na nuvem.Use Azure Data Factory pipelines to pull data from a wide variety of unstructured data sources, both on-premises and in the cloud. Por exemplo, você pode ingerir dados de log de vídeo, imagem ou texto livre de locais baseados em arquivo.For example, you can ingest video, image or free text log data from file-based locations. Você também pode chamar as APIs REST fornecidas pelos aplicativos SaaS que funcionarão como sua fonte de dados para o pipeline.You can also call REST APIs provided by SaaS applications that will function as your data source for the pipeline.

  2. Ainda faz parte do pipeline de Azure Data Factory, use Azure Data Lake Store Gen 2 para salvar os dados originais copiados da fonte de dados não estruturada.Still part of the Azure Data Factory pipeline, use Azure Data Lake Store Gen 2 to save the original data copied from the unstructured data source.

  3. Você pode invocar Azure Databricks blocos de anotações de seu pipeline para processar os dados não estruturados.You can invoke Azure Databricks notebooks from your pipeline to process the unstructured data. O notebook pode fazer uso de API de Serviços Cognitivos ou invocar modelos de serviço de Azure Machine Learning personalizados para gerar informações a partir dos dados não estruturados.The notebook can make use of Cognitive Services APIs or invoke custom Azure Machine Learning Service models to generate insights from the unstructured data. Você pode salvar o conjunto de dados resultante como arquivos parquet no data Lake.You can save the resulting dataset as Parquet files in the data lake.

  4. Use os recursos do polybase do Azure Synapse para ingestão rápida em suas tabelas de data warehouse.Use Azure Synapse PolyBase capabilities for fast ingestion into your data warehouse tables.

  5. Carregue dados relevantes do data warehouse do Azure Synapse em conjuntos de dados do Power BI para visualização do dado.Load relevant data from the Azure Synapse data warehouse into Power BI datasets for data visualization. Os modelos de Power BI implementam um modelo semântico para simplificar a análise de dados de negócios e relações.Power BI models implement a semantic model to simplify the analysis of business data and relationships.

  6. Os analistas de negócios usam Power BI relatórios e painéis para analisar dados e gerar informações de negócios.Business analysts use Power BI reports and dashboards to analyze data and derive business insights.

StreamingStreaming

  1. Use os hubs de eventos do Azure para ingerir fluxos de dados gerados por um aplicativo cliente.Use Azure Event Hubs to ingest data streams generated by a client application. O Hub de eventos será ingerido e armazenará os dados de streaming preservando a sequência de eventos recebidos.The Event Hub will then ingest and store streaming data preserving the sequence of events received. Os consumidores podem, então, se conectar ao Hub de eventos e recuperar as mensagens para processamento.Consumers can then connect to Event Hub and retrieve the messages for processing.

  2. Configure a captura do hub de eventos para salvar uma cópia dos eventos no data Lake.Configure the Event Hub Capture to save a copy of the events in your data lake. Esse recurso implementa o "caminho frio" do padrão de arquitetura lambda e permite executar análises históricas e de tendências nos dados de fluxo salvos em seu data Lake usando ferramentas como notebooks Azure Databricks.This feature implements the "Cold Path" of the Lambda architecture pattern and allows you to perform historical and trend analysis on the stream data saved in your data lake using tools such as Azure Databricks notebooks.

  3. Use um trabalho de Stream Analytics para implementar o "Hot Path" do padrão de arquitetura lambda e obter informações dos dados de fluxo em trânsito.Use a Stream Analytics job to implement the "Hot Path" of the Lambda architecture pattern and derive insights from the stream data in transit. Defina pelo menos uma entrada para o fluxo de dados proveniente do seu hub de eventos, uma consulta para processar o fluxo de dados de entrada e uma Power BI saída para a qual os resultados da consulta serão enviados.Define at least one input for the data stream coming from your Event Hub, one query to process the input data stream and one Power BI output to where the query results will be sent to.

  4. Em seguida, os analistas de negócios usam Power BI conjuntos de data e recursos de painel em tempo real para visualizar as informações de alteração rápidas geradas por sua consulta Stream Analytics.Business analysts then use Power BI real-time datasets and dashboard capabilities for to visualize the fast changing insights generated by your Stream Analytics query.

Componentes da arquiteturaArchitecture components

Os seguintes serviços do Azure foram usados na arquitetura:The following Azure services have been used in the architecture:

  • Fábrica de dados do AzureAzure Data Factory
  • Azure Data Lake Gen2Azure Data Lake Gen2
  • Azure Synapse AnalyticsAzure Synapse Analytics
  • Azure DatabricksAzure Databricks
  • Azure Cosmos DBAzure Cosmos DB
  • Serviços Cognitivos do AzureAzure Cognitive Services
  • Hubs de eventos do AzureAzure Event Hubs
  • Stream Analytics do AzureAzure Stream Analytics
  • Microsoft Power BIMicrosoft Power BI

Se você precisar de mais recursos de treinamento ou de acesso à documentação técnica, a tabela abaixo será vinculada a Microsoft Learn e à documentação técnica de cada serviço.If you need further training resources or access to technical documentation, the table below links to Microsoft Learn and to each service's Technical Documentation.

Serviço do AzureAzure Service Microsoft LearnMicrosoft Learn Documentação técnicaTechnical Documentation
Fábrica de dados do AzureAzure Data Factory Ingestão de dados com o Azure Data FactoryData ingestion with Azure Data Factory Documentação técnica do Azure Data FactoryAzure Data Factory Technical Documentation
Azure Synapse AnalyticsAzure Synapse Analytics Implemente um data warehouse com o Azure Synapse AnalyticsImplement a Data Warehouse with Azure Synapse Analytics Documentação técnica do Azure Synapse AnalyticsAzure Synapse Analytics Technical Documentation
Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 Processamento de dados de grande escala com o Azure Data Lake Storage Gen2Large Scale Data Processing with Azure Data Lake Storage Gen2 Documentação técnica do Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 Technical Documentation
Serviços Cognitivos do AzureAzure Cognitive Services Caminhos e módulos de aprendizado de serviços cognitivasCognitive Services Learning Paths and Modules Documentação técnica dos serviços cognitivas do AzureAzure Cognitive Services Technical Documentation
Azure Cosmos DBAzure Cosmos DB Trabalhar com os dados NoSQL no Azure Cosmos DBWork with NoSQL data in Azure Cosmos DB Documentação técnica do Azure Cosmos DBAzure Cosmos DB Technical Documentation
Azure DatabricksAzure Databricks Executar engenharia de dados com o Azure DatabricksPerform data engineering with Azure Databricks Documentação técnica do Azure DatabricksAzure Databricks Technical Documentation
Hubs de eventos do AzureAzure Event Hubs Habilitar mensagens confiáveis para aplicativos de Big Data usando os Hubs de Eventos do AzureEnable reliable messaging for Big Data applications using Azure Event Hubs Documentação técnica dos hubs de eventos do AzureAzure Event Hubs Technical Documentation
Stream Analytics do AzureAzure Stream Analytics Implementar uma solução de streaming de dados com o Azure Stream AnalyticsImplement a Data Streaming Solution with Azure Streaming Analytics Documentação técnica do Azure Stream AnalyticsAzure Stream Analytics Technical Documentation
Power BIPower BI Criar e usar relatórios de análise com o Power BICreate and use analytics reports with Power BI Documentação técnica do Power BIPower BI Technical Documentation

AlternativasAlternatives

ConsideraçõesConsiderations

As tecnologias nessa arquitetura foram escolhidas porque cada uma delas fornece a funcionalidade necessária para lidar com a grande maioria dos desafios de dados em uma organização.The technologies in this architecture were chosen because each of them provide the necessary functionality to handle the vast majority of data challenges in an organization. Esses serviços atendem aos requisitos de escalabilidade e disponibilidade, ao mesmo tempo em que os ajudam a controlar os custos.These services meet the requirements for scalability and availability, while helping them control costs.

PreçosPricing

O tipo de preço individual ideal e o custo geral total de cada serviço incluído na arquitetura dependem da quantidade de dados a serem processados e armazenados e do nível de desempenho aceitável esperado.The ideal individual pricing tier and the total overall cost of each service included in the architecture is dependent on the amount of data to be processed and stored and the acceptable performance level expected. Use o guia abaixo para saber mais sobre como cada serviço tem o preço:Use the guide below to learn more about how each service is priced:

  • O Azure Synapse permite dimensionar seus níveis de computação e armazenamento de forma independente.Azure Synapse allows you to scale your compute and storage levels independently. Os recursos de computação são cobrados por hora e você pode dimensioná-los ou interrompê-los sob demanda.Compute resources are charged per hour, and you can scale or pause these resources on demand. Os recursos de armazenamento são cobrados por terabyte, assim seus custos aumentam à medida que você insere mais dados.Storage resources are billed per terabyte, so your costs will increase as you ingest more data.
  • Data Factory os custos são baseados no número de operações de leitura/gravação, monitoramento e atividades de orquestração realizadas em uma carga de trabalho.Data Factory costs are based on the number of read/write operations, monitoring operations, and orchestration activities performed in a workload. Os custos de Data Factory aumentam com cada fluxo de dados adicional e a quantidade de dados processados por cada um.Your Data Factory costs will increase with each additional data stream and the amount of data processed by each one.
  • O Power BI tem diferentes opções de produto para diversos requisitos.Power BI has different product options for different requirements. O Power BI Embedded fornece uma opção baseada no Azure para incorporar a funcionalidade do Power BI em seus aplicativos.Power BI Embedded provides an Azure-based option for embedding Power BI functionality inside your applications. Uma instância do Power BI Embedded está incluída no exemplo de preço acima.A Power BI Embedded instance is included in the pricing sample above.

Próximas etapasNext steps

  • Encontre orientações abrangentes de arquitetura em pipelines de dados, data warehouse, processamento analítico online (OLAP) e Big Data no Guia de arquitetura de dados do Azure.Find comprehensive architectural guidance on data pipelines, data warehousing, online analytical processing (OLAP), and big data in the Azure Data Architecture Guide.