Editar

Análise de Big Data com segurança de nível empresarial usando o Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

A solução descrita neste artigo demonstra como usar o Azure Synapse Analytics para criar uma plataforma de dados moderna para ingerir, processar, armazenar, servir e visualizar dados de várias fontes.

Arquitetura

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

Os dados fluem através da solução da seguinte forma:

  1. Os pipelines Synapse copiam atividades que ingerem dados estruturados brutos de data warehouses relacionais externos, dados semiestruturados, como logs, arquivos simples e xml, e outros sistemas de origem. Esses dados ingeridos são armazenados em um local do Azure Data Lake Storage Gen2. Usando um tempo de execução de integração auto-hospedado, você também pode gerenciar e executar atividades de cópia entre um armazenamento de dados em seu ambiente local e a nuvem.

  2. O Azure Data Lake Storage Gen2 fornece armazenamento seguro.

    • O uso de um firewall para limitar o acesso da Conta de Armazenamento a serviços confiáveis do Azure é recomendado para limitar a vulnerabilidade de ataques externos.

    • Os pontos de extremidade privados para suas contas de Armazenamento do Azure permitem que os clientes na rede virtual (VNet) acessem dados com segurança por meio de um Link Privado. O ponto de extremidade privado usa um endereço IP do espaço de endereço VNet para o serviço de conta de armazenamento. O tráfego de rede entre os clientes na VNet e a conta de armazenamento atravessa a VNet e um link privado na rede de backbone da Microsoft, eliminando a exposição à Internet pública.

  3. Os dados são criptografados em repouso assim que são ingeridos no data lake. Usar suas próprias chaves gerenciadas pelo cliente pode proteger ainda mais suas chaves de criptografia e adicionar mais flexibilidade ao gerenciar controles de acesso.

  4. Os dados são ingeridos usando pipelines Synapse e processados em estágios usando o pool Synapse Spark e seus recursos Data Lake. Os dados são armazenados na conta de Armazenamento do Azure usando diretórios do Azure Data Lake Storage Gen 2 específicos do estágio. Estas etapas são:

    1. Os pipelines Synapse copiam as atividades inicialmente ingerem dados dos sistemas de origem. Esses dados ingeridos são armazenados em seu formato bruto usando o diretório Bronze do data lake.

    2. Em seguida, o pool Synapse Spark executa regras de qualidade de dados para limpar os dados brutos. Esses dados enriquecidos são então armazenados no diretório Silver do data lake.

    3. Após o processo de limpeza, o pool do Spark aplica qualquer normalização necessária, transformações de dados e regras de negócios nos dados no diretório Silver. Esses dados transformados são então armazenados no diretório Gold do data lake.

  5. O conector Synapse Apache Spark to Synapse SQL envia os dados normalizados para o pool Synapse SQL para consumo por aplicativos downstream e serviços de relatórios, como o Power BI. Esse conector foi projetado para transferir dados de forma ideal entre os pools Apache Spark sem servidor e os pools SQL no espaço de trabalho do Azure Synapse Analytics.

  6. O serviço do Power BI usa o modo DirectQuery para buscar dados com segurança do pool Synapse SQL. Um gateway de dados instalado em uma máquina virtual na VNet privada atua como uma plataforma de conexão entre o serviço do Power BI e o pool Synapse SQL, usando o Ponto de Extremidade Privado na mesma VNet para se conectar com segurança.

  7. Aplicativos externos podem acessar dados dos pools sem servidor Synapse ou pools SQL dedicados acessando os pontos de extremidade privados apropriados conectados à VNet.

Este exemplo de solução usa vários serviços e recursos do Azure:

  • O Azure Synapse Analytics é o serviço principal usado neste exemplo de solução para fornecer ingestão, processamento e análise de dados.

  • O Armazenamento Azure Data Lake (Gen2) foi criado com base nos serviços de Armazenamento do Azure e fornece recursos de data lake que outros serviços nesta solução de exemplo usam ao armazenar e processar dados.

  • Os pipelines Synapse copiam dados de fontes originais para os locais de armazenamento do data lake.

  • O Apache Spark no Azure Synapse Analytics limpa, normaliza e executa outras tarefas de processamento em dados ingeridos de locais de origem.

  • O pool SQL dedicado (anteriormente SQL DW) fornece recursos de armazenamento de dados para dados depois que eles são processados e normalizados e estão prontos para uso por seus usuários finais e aplicativos.

  • O pool SQL sem servidor permite que os usuários consultem e analisem rapidamente dados processados e normalizados.

  • A Rede Virtual Gerenciada do Azure Synapse cria um ambiente de rede virtual gerenciado isolado para o espaço de trabalho do Azure Synapse, descarregando a necessidade de você gerenciar a configuração de rede para os recursos do espaço de trabalho.

  • Os pontos de extremidade privados gerenciados do Azure Synapse estabelecem links privados para recursos do Azure e roteiam o tráfego entre seus espaços de trabalho do Azure Synapse e outros recursos do Azure usando apenas a rede de backbone da Microsoft.

  • A Rede Virtual do Azure (VNet) fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Ele permite que você gerencie o acesso, a segurança e o roteamento entre recursos.

  • O Ponto de Extremidade Privado do Azure fornece um endereço IP privado da VNet da solução para os serviços gerenciados do Azure, conectando efetivamente um serviço à VNet. Isso permite uma rede segura entre o espaço de trabalho do Azure Synapse e outros serviços do Azure, como o Armazenamento do Azure, o Azure Cosmos DB, o Banco de Dados SQL do Azure ou seu próprio serviço de Link Privado do Azure.

  • O Power BI permite que os usuários realizem análises avançadas e compartilhem insights usando os dados processados da solução.

Componentes

Detalhes do cenário

O Azure Synapse Analytics reúne integração de dados, armazenamento de dados corporativos e análise de big data para ajudá-lo a criar uma plataforma de dados moderna capaz de lidar com os desafios de dados mais comuns enfrentados por grandes organizações. A Rede Virtual do Azure permite-lhe criar a sua própria rede privada na nuvem pública do Azure e na rede gerida, e o Azure Private Endpoint permite-lhe integrar com segurança serviços de nuvem geridos nestas redes privadas.

Potenciais casos de utilização

A solução descrita neste artigo demonstra como combinar essas tecnologias para criar uma plataforma de dados moderna que pode ingerir, processar, armazenar, servir e visualizar dados de diferentes fontes, estruturadas e semiestruturadas, ao mesmo tempo em que atende aos altos padrões de segurança esperados pela sua organização. Tal inclui o apoio a requisitos comuns, tais como:

  • Proteger fontes de dados. As fontes de dados dentro da rede corporativa local ou na rede virtual são protegidas por um firewall. Esses recursos podem ser acessados com segurança instalando um tempo de execução de integração auto-hospedado em um recurso hospedado no local ou nas redes virtuais.

  • Autenticação e autorização usando identidades gerenciadas. A comunicação entre os serviços do Azure pode ser protegida usando identidades gerenciadas, que fornecem uma identidade para os aplicativos usarem ao se conectar a recursos que dão suporte à autenticação do Microsoft Entra. Neste exemplo, o Azure Synapse usa a identidade gerenciada para integrar pipelines.

  • Pontos de extremidade privados que estabelecem um link privado para recursos do Azure. O Azure Synapse fornece funcionalidade de ponto de extremidade privado totalmente gerenciada para serviços dentro do espaço de trabalho Synapse (como o Armazenamento do Azure ou o Azure Cosmos DB). Outros recursos do Azure, como aplicativos do Azure, Microsoft Power BI e serviço Azure Synapse, são protegidos usando pontos de extremidade privados integrados à rede virtual da solução de exemplo. O tráfego de rede entre sua rede privada e os pools Synapse usa o Private Link para mover o tráfego pela rede de backbone da Microsoft, eliminando a exposição à Internet pública.

  • Encriptação de dados em trânsito. Os dados são criptografados em trânsito, pois todas as transferências de dados são feitas por meio de HTTPS e TLS de canal seguro sobre TCP para evitar ataques man-in-the-middle durante a comunicação com os serviços do Azure, garantindo a movimentação segura de dados privados de ponta a ponta.

  • Encriptação de dados em repouso. A criptografia de dados transparente no Azure Synapse Analytics ajuda a proteger contra atividades maliciosas executando criptografia em tempo real e descriptografia de seus dados armazenados no espaço de trabalho Synapse. O Armazenamento do Azure também criptografa todos os dados em uma conta de armazenamento em repouso. Por padrão, os dados são criptografados com chaves gerenciadas pela Microsoft, mas você pode gerenciar suas próprias chaves se precisar de controle adicional sobre a criptografia.

Implementar este cenário

Você deve ter uma conta existente do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Os modelos do Azure Resource Manager, que você precisará para implantar os componentes descritos nesta arquitetura, estão disponíveis no repositório do GitHub . Esses modelos implantarão todos os serviços mostrados no diagrama de arquitetura, exceto para: o Gateway de Dados do Power BI, o tempo de execução de integração auto-hospedado e o Cofre de Chaves do Azure para chaves gerenciadas pelo cliente.

Cabe ao usuário criar a estrutura de pastas do data lake e os pipelines de integração do Azure Synapse Analytics que são necessários para se conectar às fontes de dados.

Implante o modelo ARM diretamente clicando neste botão:

Deploy to Azure

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos

Para saber como desenvolver ainda mais essa abordagem, aprenda as noções básicas do Azure Synapse Analytics concluindo os seguintes tutoriais:

Consulte estes artigos ao planejar e implantar soluções usando o Azure Synapse Analytics: