O que é o Delta Lake?

O Delta Lake é a camada de armazenamento otimizada que fornece a base para armazenar dados e tabelas no lago Databricks. Delta Lake é um software de código aberto que estende os arquivos de dados do Parquet com um log de transações baseado em arquivo para transações ACID e manipulação de metadados escaláveis. O Delta Lake é totalmente compatível com APIs do Apache Spark e foi desenvolvido para uma integração total com o Structured Streaming, permitindo que você use facilmente uma única cópia de dados para operações em lote e streaming e fornecendo processamento incremental em escala.

Delta Lake é o formato de armazenamento padrão para todas as operações no Azure Databricks. A menos que especificado de outra forma, todas as tabelas no Azure Databricks são tabelas Delta. A Databricks desenvolveu originalmente o protocolo Delta Lake e continua a contribuir ativamente para o projeto de código aberto. Muitas das otimizações e produtos na plataforma Databricks se baseiam nas garantias fornecidas pelo Apache Spark e Delta Lake. Para obter informações sobre otimizações no Azure Databricks, consulte Recomendações de otimização no Azure Databricks.

Para obter informações de referência sobre comandos Delta Lake SQL, consulte Instruções Delta Lake.

O log de transações Delta Lake tem um protocolo aberto bem definido que pode ser usado por qualquer sistema para ler o log. Consulte Delta Transaction Log Protocol.

Introdução ao Delta Lake

Por predefinição, todas as tabelas no Azure Databricks são tabelas Delta. Se você estiver usando Apache Spark DataFrames ou SQL, você obtém todos os benefícios do Delta Lake apenas salvando seus dados na lakehouse com as configurações padrão.

Para obter exemplos de operações básicas do Delta Lake, como criar tabelas, ler, escrever e atualizar dados, veja Tutorial: Delta Lake.

O Databricks tem muitas recomendações para melhores práticas para o Delta Lake.

Convertendo e ingerindo dados para Delta Lake

O Azure Databricks fornece vários produtos para acelerar e simplificar o carregamento de dados para a sua casa do lago.

Para obter uma lista completa de opções de ingestão, consulte Ingerir dados em uma casa de lago Databricks.

Atualizando e modificando tabelas Delta Lake

As transações atômicas com o Delta Lake oferecem muitas opções para atualizar dados e metadados. O Databricks recomenda que você evite interagir diretamente com dados e arquivos de log de transações em diretórios de arquivos Delta Lake para evitar corromper suas tabelas.

  • O Delta Lake suporta upserts usando a operação de mesclagem.
  • O Delta Lake oferece inúmeras opções para substituições seletivas com base em filtros e partições.
  • Você pode atualizar manual ou automaticamente seu esquema de tabela sem reescrever dados.
  • O mapeamento de colunas permite que as colunas sejam renomeadas ou excluídas sem reescrever dados.

Cargas de trabalho incrementais e de streaming no Delta Lake

O Delta Lake é otimizado para Streaming Estruturado no Azure Databricks. O Delta Live Tables amplia os recursos nativos com implantação simplificada de infraestrutura, dimensionamento aprimorado e dependências de dados gerenciados.

Consultar versões anteriores de uma tabela

Cada escrita numa tabela Delta cria uma nova versão de tabela. Pode utilizar o registo de transações para rever as modificações à tabela e consultar versões de tabela anteriores. Veja Trabalhar com o histórico de tabelas do Delta Lake.

Aprimoramentos do esquema Delta Lake

O Delta Lake valida o esquema na gravação, garantindo que todos os dados gravados em uma tabela correspondam aos requisitos definidos.

Gerenciando arquivos e indexando dados com o Delta Lake

O Azure Databricks define muitos parâmetros padrão para o Delta Lake que afetam o tamanho dos arquivos de dados e o número de versões de tabela que são retidas no histórico. O Delta Lake usa uma combinação de análise de metadados e layout de dados físicos para reduzir o número de arquivos digitalizados para atender a qualquer consulta.

Definindo e revisando as configurações do Delta Lake

O Azure Databricks armazena todos os dados e metadados para tabelas Delta Lake no armazenamento de objetos na nuvem. Muitas configurações podem ser definidas no nível da tabela ou dentro da sessão do Spark. Você pode revisar os detalhes da tabela Delta para descobrir quais opções estão configuradas.

Pipelines de dados usando Delta Lake e Delta Live Tables

O Azure Databricks incentiva os usuários a aproveitar uma arquitetura medallion para processar dados por meio de uma série de tabelas à medida que os dados são limpos e enriquecidos. O Delta Live Tables simplifica as cargas de trabalho de ETL por meio de execução otimizada e implantação e dimensionamento automatizados de infraestrutura.

Solução de problemas de recursos do Delta Lake

Nem todos os recursos do Delta Lake estão em todas as versões do Databricks Runtime. Você pode encontrar informações sobre o controle de versão do Delta Lake e respostas a perguntas frequentes nos seguintes artigos:

Documentação da API Delta Lake

Para a maioria das operações de leitura e gravação em tabelas Delta, você pode usar APIs Spark SQL ou Apache Spark DataFrame .

Para obter instruções SQL específicas do Delta Lake, consulte Instruções do Delta Lake.

O Azure Databricks garante compatibilidade binária com APIs Delta Lake no Databricks Runtime. Para exibir a versão da API Delta Lake empacotada em cada versão do Databricks Runtime, consulte a seção Ambiente do sistema no artigo relevante nas notas de versão do Databricks Runtime. As APIs do Delta Lake existem para Python, Scala e Java na documentação do OSS Delta Lake.