¿Qué es la arquitectura de medallón de Lakehouse?

La arquitectura de medallón describe una serie de capas de datos que denotan la calidad de los datos almacenados en Lakehouse. Databricks recomienda adoptar un enfoque multicapa para compilar un origen único de verdad para los productos de datos empresariales. Esta arquitectura garantiza la atomicidad, la coherencia, el aislamiento y la durabilidad a medida que los datos pasan por varias capas de validaciones y transformaciones antes de almacenarse en un diseño optimizado para un análisis eficiente. Los términos bronce (sin procesar), plata (validado) y oro (enriquecido) describen la calidad de los datos en cada una de estas capas.

Es importante tener en cuenta que esta arquitectura de medallón no reemplaza otras técnicas de modelado dimensional. Los esquemas y las tablas de cada capa pueden adoptar varias formas y grados de normalización en función de la frecuencia y la naturaleza de las actualizaciones de datos, así como de los casos de uso de bajada para los datos.

Las organizaciones pueden sacar provecho del almacén de lago de Databricks para crear y mantener conjuntos de datos validados que son accesibles en toda la empresa. La adopción de una mentalidad organizativa que se centre en la creación de un modelo de datos como productos es un paso clave para crear correctamente un almacén de lago de datos.

Ingesta de datos sin procesar en la capa de bronce

La capa de bronce contiene datos que no están validados. Los datos que se ingieren en la capa de bronce normalmente:

  • Mantienen el estado sin procesar del origen de datos.
  • Se anexan de manera incremental y aumentan con el tiempo.
  • Puede ser cualquier combinación de transacciones por secuencias y por lotes.

La conservación del historial completo y sin procesar de cada conjunto de datos en un formato de almacenamiento eficiente proporciona la capacidad de volver a crear cualquier estado de un sistema de datos determinado.

Se pueden agregar metadatos adicionales (como los nombres de archivos de origen o el registro del tiempo en que se procesaron los datos) a los datos de la ingesta a fin de mejorar la detección, la descripción del estado del conjunto de datos de origen y el rendimiento optimizado en las aplicaciones de bajada.

Validación y eliminación de datos duplicados en la capa de plata

Recuerde que, mientras que la capa de bronce contiene todo el historial de datos en un estado casi sin procesar, la capa de plata representa una versión validada y enriquecida de los datos, en la que se puede confiar para el análisis de bajada.

Aunque Databricks cree firmemente en la visión de Lakehouse que dirigen las tablas de bronce, plata y oro, la simple implementación de una capa de plata de manera eficaz desbloqueará inmediatamente muchas de las ventajas potenciales de Lakehouse.

En el caso de cualquier canalización de datos, la capa de plata puede contener más de una tabla.

Impulsar el análisis con la capa de oro

Estos datos de oro suelen ser muy refinados y agregados y contienen datos que impulsan el análisis, el aprendizaje automático y las aplicaciones de producción. Aunque todas las tablas de Lakehouse deben servir para un objetivo importante, las tablas de oro representan los datos que se han transformado en conocimiento, en lugar de simple información.

Los analistas dependen en gran medida de las tablas de oro para sus principales responsabilidades y los datos compartidos con un cliente no suelen almacenarse fuera de este nivel.

Las actualizaciones de estas tablas se realizan como parte de las cargas de trabajo de producción programadas periódicamente, lo que ayuda a controlar los costos y permite establecer acuerdos de nivel de servicio (SLA) para la actualización de los datos.

Aunque Lakehouse no tiene los mismos problemas de interbloqueo que se pueden encontrar en un almacenamiento de datos empresarial, las tablas de oro suelen almacenarse en un contenedor de almacenamiento independiente a fin de ayudar a evitar límites de la nube en las solicitudes de datos.

En general, dado que las agregaciones, las combinaciones y el filtrado se controlan antes de que los datos se escriban en la capa de oro, los usuarios deberán ver un rendimiento de consultas de baja latencia en los datos de las tablas de oro.