Introdução

Delta Lake é uma camada de armazenamento de código aberto que traz fiabilidade aos lagos de dados. O Delta Lake disponibiliza transações ACID, processamento de metadados dimensionável e unifica o processamento de dados de transmissões e lotes. O Delta Lake corre em cima do seu lago de dados existente e é totalmente compatível com as APIs de Faíscas Apache.

Especificamente, o Delta Lake oferece:

  • Transações acid em Spark: Níveis de isolamento serializáveis garantem que os leitores nunca vêem dados inconsistentes.
  • Manuseamento de metadados escaláveis: Aproveita o poder de processamento distribuído da Spark para lidar com todos os metadados para tabelas à escala de petabyte com milhares de milhões de ficheiros à vontade.
  • Streaming e unificação de lotes: Uma mesa em Delta Lake é uma mesa de lote, bem como uma fonte de streaming e pia. Streaming de dados ingeridos, lote histórico de backfill, consultas interativas tudo apenas funcionar fora da caixa.
  • Aplicação do esquema: Manuseia automaticamente as variações de esquemas para evitar a inserção de registos maus durante a ingestão.
  • Viagem no tempo: A versão de dados permite retrocessos, percursos de auditoria histórico completos e experiências de aprendizagem automática reprodutíveis.
  • Upserts e eliminações: Suporta operações de fusão, atualização e eliminação para permitir casos de utilização complexa como a captura de dados de alteração, operações de dimensão em mudança lenta (SCD), streaming de eserções, e assim por diante.

As otimizações do Delta Engine tornam as operações do Delta Lake altamente performativas, suportando uma variedade de cargas de trabalho que vão desde o processamento ETL em larga escala até consultas ad-hoc, interativas. Para obter informações sobre o Motor Delta, consulte o Motor Delta.

Início Rápido

O quickstart do Delta Lake fornece uma visão geral do básico de trabalhar com o Lago Delta. O quickstart mostra como construir o pipeline que lê dados JSON numa tabela Delta, modificar a tabela, ler a tabela, mostrar o histórico da tabela e otimizar a tabela.

Para os cadernos Azure Databricks que demonstrem estas funcionalidades, consulte cadernos introdutórios.

Para experimentar o Delta Lake, consulte o Azure Databricks.

Recursos