Ingerir dados em uma casa de lago Databricks

Artigo
03/01/2024

O Azure Databricks oferece várias maneiras de ajudá-lo a ingerir dados em uma casa de lago apoiada pelo Delta Lake. A Databricks recomenda o uso do Auto Loader para ingestão incremental de dados do armazenamento de objetos na nuvem. A interface do usuário add data fornece várias opções para carregar rapidamente arquivos locais ou conectar-se a fontes de dados externas.

Execute sua primeira carga de trabalho ETL

Se você ainda não usou o Auto Loader no Azure Databricks, comece com um tutorial. Consulte Executar sua primeira carga de trabalho de ETL no Azure Databricks.

Carregador Automático

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem configuração adicional. O Auto Loader fornece uma fonte de Streaming Estruturado chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a fonte processa automaticamente novos arquivos à medida que eles chegam, com a cloudFiles opção de também processar arquivos existentes nesse diretório.

Automatize o ETL com Delta Live Tables e Auto Loader

Você pode simplificar a implantação de infraestrutura de ingestão escalável e incremental com o Auto Loader e o Delta Live Tables. Observe que o Delta Live Tables não usa a execução interativa padrão encontrada em notebooks, enfatizando a implantação de infraestrutura pronta para produção.

Carregue arquivos de dados locais ou conecte fontes de dados externas

Você pode carregar com segurança arquivos de dados locais ou ingerir dados de fontes externas para criar tabelas. Consulte Carregar dados usando a interface do usuário adicionar dados.

Ingerir dados no Azure Databricks usando ferramentas de terceiros

O Azure Databricks valida integrações de parceiros de tecnologia que permitem que você ingira dados no Azure Databricks. Essas integrações permitem a ingestão de dados escaláveis e de baixo código de várias fontes no Azure Databricks. Consulte Parceiros tecnológicos. Alguns parceiros de tecnologia são apresentados no Databricks Partner Connect, que fornece uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos seus dados lakehouse.

COPY INTO

COPY INTO permite que os usuários do SQL ingeram dados de forma idempotente e incremental do armazenamento de objetos em nuvem em tabelas Delta. Ele pode ser usado em Databricks SQL, notebooks e Databricks Jobs.

Quando usar COPY INTO e quando usar o Auto Loader

Aqui estão algumas coisas a considerar ao escolher entre Auto Loader e COPY INTO:

Se você vai ingerir arquivos na ordem de milhares, você pode usar COPY INTOo . Se você está esperando arquivos na ordem de milhões ou mais ao longo do tempo, use Auto Loader. O Auto Loader requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Auto Loader é menos caro e mais eficiente em escala.
Se o seu esquema de dados vai evoluir com frequência, o Auto Loader fornece melhores primitivos em torno da inferência e evolução do esquema. Consulte Configurar inferência e evolução de esquema no Auto Loader para obter mais detalhes.
Carregar um subconjunto de arquivos recarregados pode ser um pouco mais fácil de gerenciar com COPY INTOo . Com o Auto Loader, é mais difícil reprocessar um subconjunto selecionado de arquivos. No entanto, você pode usar COPY INTO para recarregar o subconjunto de arquivos enquanto um fluxo do carregador automático está sendo executado simultaneamente.
Para uma experiência de ingestão de arquivos ainda mais escalável e robusta, o Auto Loader permite que os usuários do SQL aproveitem as tabelas de streaming. Consulte Carregar dados usando tabelas de streaming no Databricks SQL.

Para uma breve visão geral e demonstração do Auto Loader, bem como COPY INTO, assista ao seguinte vídeo do YouTube (2 minutos).

Revisar metadados de arquivo capturados durante a ingestão de dados

O Apache Spark captura automaticamente dados sobre arquivos de origem durante o carregamento de dados. O Azure Databricks permite acessar esses dados com a coluna Metadados de arquivo.

Carregar exportações de folhas de cálculo para o Azure Databricks

Use a página Criar ou modificar tabela a partir do carregamento de arquivo para carregar arquivos CSV, TSV ou JSON. Consulte Criar ou modificar uma tabela usando o upload de arquivos.

Migrar aplicativos de dados para o Azure Databricks

Migre aplicativos de dados existentes para o Azure Databricks para que você possa trabalhar com dados de vários sistemas de origem em uma única plataforma. Consulte Migrar aplicativos de dados para o Azure Databricks.