Análise de Big Data com segurança de nível empresarial usando o Azure Synapse

Azure Analysis Services
Armazenamento do Azure Data Lake
Azure Synapse Analytics

Ideias de soluções

Esse artigo é uma ideia de solução. Caso deseje que ampliemos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco enviando seus comentários no GitHub.

A solução descrita neste artigo demonstra como usar o Azure Synapse Analytics para criar uma plataforma de dados moderna para ingerir, processar, armazenar, servir e visualizar dados de várias fontes.

Arquitetura

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

Os dados fluem pela solução da seguinte maneira:

  1. As atividades de cópia dos pipelines do Synapse ingerem dados estruturados brutos de data warehouses relacionais externos, dados semiestruturados, como logs, arquivos simples e xml, e outros sistemas de origem. Esses dados ingeridos são armazenados em um local do Azure Data Lake Storage Gen2. Usando um tempo de execução de integração auto-hospedado, você também pode gerenciar e executar atividades de cópia entre um armazenamento de dados em seu ambiente local e a nuvem.

  2. O Azure Data Lake Storage Gen2 fornece armazenamento seguro.

    • Usar um firewall para limitar o acesso da Conta de Armazenamento a serviços confiáveis do Azure é recomendado para limitar a vulnerabilidade de ataque externo.

    • Você pode usar pontos de extremidade privados para suas contas do Armazenamento do Azure e permitir que clientes na VNet (rede virtual) acessem dados com segurança por meio de um Link Privado. O ponto de extremidade privado usa um endereço IP do espaço de endereço de rede virtual para o serviço de discos gerenciados. O tráfego de rede entre a máquina em sua VNet e a conta do Automation atravessa a VNet e um link privado na rede principal da Microsoft, eliminando a exposição à Internet pública.

  3. Os dados são criptografados em repouso assim que são ingeridos no data lake. Usar suas próprias chaves gerenciadas pelo cliente pode proteger ainda mais suas chaves de criptografia e adicionar mais flexibilidade ao gerenciar controles de acesso.

  4. Os dados são ingeridos usando pipelines do Synapse e processados em estágios usando o pool do Synapse Spark e seus recursos Data Lake. Os dados são armazenados na conta de Armazenamento do Azure usando diretórios do Azure Data Lake Storage Gen 2 específicos do estágio. Essas fases são:

    1. Os pipelines do Synapse copiam as atividades inicialmente ingerem dados dos sistemas de origem. Esses dados ingeridos são armazenados em seu formato bruto usando o diretório Bronze do data lake.

    2. Em seguida, o pool do Synapse Spark executa regras de qualidade de dados para limpar os dados brutos. Esses dados enriquecidos são armazenados no diretório Silver do data lake.

    3. Após o processo de limpeza, o pool do Spark aplica qualquer normalização, transformações de dados e regras de negócios necessárias aos dados no diretório Silver. Esses dados transformados são armazenados no diretório Gold do data lake.

  5. O conector Synapse Apache Spark para Synapse SQL envia os dados normalizados para o pool SQL do Synapse para consumo por aplicativos downstream e serviços de relatório, como o Power BI. Esse conector foi projetado para transferir dados de forma otimizada entre os pools do Apache Spark sem servidor e os pools SQL no espaço de trabalho do Azure Synapse Analytics.

  6. O serviço do Power BI usa o modo DirectQuery para buscar dados com segurança do pool SQL do Synapse. Um gateway de dados instalado em uma máquina virtual na rede virtual privada atua como uma plataforma de conexão entre o serviço do Power BI e o pool SQL do Synapse, usando o Ponto de Extremidade Privado na mesma rede virtual para se conectar com segurança.

  7. Os aplicativos externos podem acessar dados dos pools sem servidor Synapse ou pools SQL dedicados acessando os pontos de extremidade privados apropriados conectados à rede virtual.

Esta solução de exemplo usa vários serviços e recursos do Azure:

  • O Azure Synapse Analytics é o serviço principal usado nesta solução de exemplo para fornecer ingestão, processamento e análise de dados.

  • O Azure Data Lake Storage (Gen2) é criado sobre os serviços de Armazenamento do Azure e fornece recursos de data lake que outros serviços nesta solução de exemplo usam ao armazenar e processar dados.

  • Os pipelines do Synapse copiam dados de fontes originais para os locais de armazenamento do data lake.

  • O Apache Spark no Azure Synapse Analytics limpa, normaliza e executa outras tarefas de processamento em dados ingeridos dos locais de origem.

  • O pool SQL dedicado (anteriormente SQL DW) fornece recursos de data warehousing para dados depois que eles são processados e normalizados e está pronto para uso por seus usuários finais e aplicativos.

  • O pool SQL sem servidor permite que os usuários consultem e analisem rapidamente dados processados e normalizados.

  • A RedeVirtual Gerenciada do Azure Synapse cria um ambiente de rede virtual gerenciado isolado para o espaço de trabalho do Azure Synapse, eliminando a necessidade de gerenciar a configuração de rede para os recursos do espaço de trabalho.

  • Os pontos de extremidade privados gerenciados do Azure Synapse estabelecem links privados para recursos do Azure e roteiam o tráfego entre seus espaços de trabalho do Azure Synapse e outros recursos do Azure usando apenas a rede de backbone da Microsoft.

  • A VNet (Rede Virtual do Azure) fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Ele permite que você gerencie o acesso, a segurança e o roteamento entre recursos.

  • O Ponto de Extremidade Privado do Azure fornece um endereço IP privado da Rede Virtual da solução para os serviços gerenciados do Azure, conectando efetivamente um serviço à Rede Virtual. Isso permite uma rede segura entre o espaço de trabalho do Azure Synapse e outros serviços do Azure, como o Armazenamento do Azure, o Azure Cosmos DB, o Banco de Dados SQL do Azure ou seu próprio serviço de Link Privado do Azure.

  • O Power BI permite que os usuários realizem análises avançadas e compartilhem insights usando os dados processados da solução.

Componentes

Detalhes do cenário

O Azure Synapse Analytics reúne integração de dados, data warehouse corporativo e análise de big data para ajudar você a criar uma plataforma de dados moderna capaz de lidar com os desafios de dados mais comuns enfrentados por grandes organizações. A Rede Virtual do Azure permite que você crie sua própria rede privada na nuvem pública e na rede gerenciada do Azure, e o Ponto de Extremidade Privado do Azure permite que você integre com segurança os serviços de nuvem gerenciados a essas redes privadas.

Possíveis casos de uso

A solução descrita neste artigo demonstra como combinar essas tecnologias para criar uma plataforma de dados moderna que possa ingerir, processar, armazenar, servir e visualizar dados de diferentes fontes, estruturadas e semiestruturadas, ao mesmo tempo em que atende aos altos padrões de segurança esperados por sua organização. Isso inclui o suporte a requisitos comuns, como:

  • Proteção de fontes de dados. As fontes de dados dentro da rede corporativa local ou na rede virtual são protegidas por um firewall. Esses recursos podem ser acessados com segurança instalando um tempo de execução de integração auto-hospedado em um recurso hospedado no local ou nas redes virtuais.

  • Autenticação e autorização usando identidades gerenciadas. A comunicação entre os serviços do Azure pode ser protegida usando identidades gerenciadas, que fornecem uma identidade para os aplicativos usarem ao se conectarem a recursos que oferecem suporte à autenticação do Microsoft Entra. Neste exemplo, o Azure Synapse usa a identidade gerenciada para integrar pipelines.

  • Os pontos de extremidade privados estabelecem um link privado para recursos do Azure. O Azure Synapse fornece funcionalidade de ponto de extremidade privado totalmente gerenciada para serviços no espaço de trabalho Synapse (como o Armazenamento do Azure ou o Azure Cosmos DB). Outros recursos do Azure, como aplicativos do Azure, Microsoft Power BI e serviço do Azure Synapse, são protegidos usando Pontos de Extremidade Privados integrados à rede virtual da solução de exemplo. O tráfego de rede entre um cliente em sua rede privada e os pools do Synapse usam o Link Privado para mover o tráfego ao longo da rede de backbone da Microsoft, eliminando a exposição à Internet pública.

  • Criptografia de dados em trânsito. Os dados são criptografados em trânsito, pois todas as transferências de dados são feitas por meio de HTTPS e TLS de canal seguro sobre TCP para evitar ataques intermediários durante a comunicação com os serviços do Azure, garantindo a movimentação segura de dados privados de ponta a ponta.

  • Criptografia de dados em repouso. A criptografia de dados transparente no Azure Synapse Analytics ajuda a proteger contra atividades mal-intencionadas por meio da execução de criptografia e descriptografia em tempo real dos seus dados armazenados no espaço de trabalho do Synapse. O Armazenamento do Azure também criptografa todos os dados em uma conta de armazenamento em repouso. Por padrão, os dados são criptografados com chaves gerenciadas pela Microsoft, mas você pode gerenciar suas próprias chaves se precisar de controle adicional sobre criptografia.

Implantar este cenário

Você deve ter uma conta do Azure já criada. Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Os modelos do Azure Resource Manager, que você precisará para implantar os componentes descritos nesta arquitetura, estão disponíveis no repositório do GitHub . Esses modelos implantarão todos os serviços mostrados no diagrama de arquitetura, exceto para: o Gateway de Dados do Power BI, o runtime de integração auto-hospedado e o Azure Key Vault para chaves gerenciadas pelo cliente.

Cabe ao usuário criar a estrutura de pastas do data lake e os pipelines de integração do Azure Synapse Analytics necessários para se conectar às fontes de dados.

Implante o modelo ARM diretamente clicando neste botão:

Deploy to Azure

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas

Para saber como desenvolver ainda mais essa abordagem, aprenda os conceitos básicos do Azure Synapse Analytics concluindo os seguintes tutoriais:

Consulte estes artigos ao planejar e implantar soluções usando o Azure Synapse Analytics: