Visão geral da arquitetura do Azure Databricks

Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa, em combinação com o Azure.

Plano de controle e plano de computação

O Azure Databricks está estruturado para permitir a colaboração segura entre equipas funcionais enquanto mantém uma quantidade significativa de serviços de back-end geridos pelo Azure Databricks para que possa manter-se focado nas suas tarefas de ciência de dados, análise de dados e engenharia de dados.

O Azure Databricks opera a partir de um plano de controle e um plano de computação.

  • O plano de controle inclui os serviços de back-end que o Azure Databricks gerencia em sua conta do Azure Databricks. Os comandos do bloco de anotações e muitas outras configurações do espaço de trabalho são armazenados no plano de controle e criptografados em repouso.

  • O plano de computação é onde seus dados são processados.

    • Para a maioria da computação do Azure Databricks, os recursos de computação estão em sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede em sua assinatura do Azure e seus recursos. O Azure Databricks usa o plano de computação clássico para seus blocos de anotações, trabalhos e para armazéns SQL Databricks profissionais e clássicos.
    • Para armazéns SQL sem servidor ou Serviço de Modelo, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks. Para obter informações adicionais sobre arquitetura, consulte Computação sem servidor.

    Nota

    Anteriormente, o Azure Databricks se referia ao plano de computação como o plano de dados.

Use os conectores do Azure Databricks para conectar clusters a fontes de dados externas fora da sua assinatura do Azure para ingerir dados ou para armazenamento. Você também pode ingerir dados de fontes de dados de streaming externas, como dados de eventos, dados de streaming, dados de IoT e muito mais. Consulte Conectar-se a fontes de dados.

Para configurar as redes para seu plano de computação clássico, consulte Rede de plano de computação clássica.

Seu data lake é armazenado em repouso em sua assinatura do Azure e em suas próprias fontes de dados para que você mantenha o controle e a propriedade de seus dados.

Os resultados do trabalho residem no armazenamento em sua assinatura do Azure. Para resultados de bloco de anotações interativos, o armazenamento está em uma combinação do plano de controle (resultados parciais para apresentação na interface do usuário) e seu armazenamento do Azure. Se quiser que os resultados do bloco de notas interativo sejam armazenados apenas na sua subscrição do Azure, pode configurar a localização de armazenamento para os resultados do bloco de notas interativo. Consulte Configurar o local de armazenamento para obter resultados interativos do bloco de anotações. Observe que alguns metadados sobre resultados, como nomes de colunas de gráficos, continuam a ser armazenados no plano de controle.

Arquitetura de alto nível

Embora as arquiteturas possam variar dependendo das configurações personalizadas (como quando você implantou um espaço de trabalho do Azure Databricks em sua própria rede virtual, também conhecida como injeção de VNet), o diagrama de arquitetura a seguir representa a estrutura e o fluxo de dados mais comuns para o Azure Databricks.

O diagrama a seguir descreve a arquitetura geral. Para obter detalhes sobre o plano de computação sem servidor usado para armazéns SQL sem servidor, consulte Computação sem servidor.

Diagram: Databricks architecture on Azure