O que é arquitetura medallion do Lakehouse?

A arquitetura medallion descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados no Lakehouse. O Databricks recomenda adotar uma abordagem de várias camadas para criar uma única fonte confiável para produtos de dados corporativos. Essa arquitetura garante a atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas de validações e transformações antes de serem armazenados em um layout otimizado para análise eficiente. Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.

É importante observar que essa arquitetura medallion não substitui outras técnicas de modelagem dimensional. Esquemas e tabelas dentro de cada camada podem assumir uma variedade de formulários e graus de normalização, dependendo da frequência e natureza das atualizações de dados e dos casos de uso downstream para os dados.

As organizações podem aproveitar o lakehouse do Databricks para criar e manter conjuntos de dados validados acessíveis em toda a empresa. Adotar uma mentalidade organizacional focada na curadoria de dados como produtos é uma etapa fundamental na criação de um data Lakehouse com êxito.

Ingerir dados brutos na camada bronze

A camada bronze contém dados não avaliados. Os dados ingeridos na camada bronze normalmente:

  • Mantém o estado bruto da fonte de dados.
  • São incrementalmente acrescentados e crescem ao longo do tempo.
  • Pode ser qualquer combinação de streaming e transações em lote.

Manter o histórico completo e não processado de cada conjunto de dados em um formato de armazenamento eficiente fornece a capacidade de recriar qualquer estado de um determinado sistema de dados.

Metadados adicionais (como nomes de arquivo de origem ou gravação do tempo em que os dados foram processados) podem ser adicionados a dados durante a ingestão para maior detectabilidade, descrição do estado do conjunto de dados de origem e desempenho otimizado em aplicativos downstream.

Validar e eliminar a duplicação de dados na camada prata

Não esqueça que, embora a camada bronze contenha todo o histórico de dados em um estado quase bruto, a camada prata representa uma versão validada e enriquecida de nossos dados que pode ser confiável para análise downstream.

Embora o Databricks acredite fortemente na visão do Lakehouse impulsionada por tabelas bronze, prata e ouro, simplesmente implementar uma camada prata com eficiência desbloqueará imediatamente muitos dos benefícios potenciais do Lakehouse.

Para qualquer pipeline de dados, a camada prata pode conter mais de uma tabela.

Análise de energia com a camada ouro

Esses dados ouro geralmente são altamente refinados e agregados, contendo dados que alimentam aplicativos de análise, aprendizado de máquina e produção. Embora todas as tabelas no Lakehouse devam servir a um propósito importante, as tabelas ouro representam dados que foram transformados em conhecimento, em vez de apenas informações.

Analistas dependem em grande parte de tabelas ouro para suas principais responsabilidades, e os dados compartilhados com um cliente raramente seriam armazenados fora desse nível.

Atualizações a essas tabelas são concluídas como parte de cargas de trabalho de produção agendadas regularmente, o que ajuda a controlar os custos e permite que os SLAs (contratos de nível de serviço) para que a atualização dos dados seja estabelecida.

Embora o Lakehouse não tenha os mesmos problemas de deadlock que você pode encontrar em um data warehouse corporativo, as tabelas ouro geralmente são armazenadas em um contêiner de armazenamento separado para ajudar a evitar limites de nuvem em solicitações de dados.

Em geral, como agregações, junções e filtragem são tratadas antes de os dados serem gravados na camada ouro, os usuários devem ver baixo desempenho de consulta de latência em dados em tabelas ouro.