Ámbito de la plataforma del lago de datos

Artículo
05/22/2024

Un marco de plataforma de inteligencia artificial y datos modernos

Para analizar el ámbito de la plataforma de inteligencia de datos de Databricks, es útil definir primero un marco básico para la plataforma moderna de datos e inteligencia artificial:

Marco de análisis de datos en la nube

Información general sobre el ámbito del lago de datos

Databricks Data Intelligence Platform cubre el marco de plataforma de datos moderno completo. Se basa en la arquitectura de lago de datos y se basa en un motor de inteligencia de datos que comprende las cualidades únicas de los datos. Es una base abierta y unificada para las cargas de trabajo ETL, ML/AI y DWH/BI, y proporciona Unity Catalog como la solución central de gobernanza de datos e inteligencia artificial.

Roles del marco de plataforma

En el marco se tratan los miembros del equipo de datos principales (personas) que trabajan con las aplicaciones del marco:

Los ingenieros de datos proporcionan a los científicos de datos y analistas de negocios datos precisos y reproducibles para la toma de decisiones oportuna y la información en tiempo real. Implementan procesos ETL altamente coherentes y confiables para aumentar la confianza del usuario y la confianza en los datos. Garantizan que los datos están bien integrados con los distintos pilares de la empresa y suelen seguir los procedimientos recomendados de ingeniería de software.
Los científicos de datos combinan conocimientos analíticos y conocimientos empresariales para transformar los datos en información estratégica y modelos predictivos. Son expertos en traducir desafíos empresariales en soluciones controladas por datos, ya sea a través de conclusiones analíticas retrospectivas o modelado predictivo de futuro. Aprovechando las técnicas de modelado de datos y aprendizaje automático, diseñan, desarrollan e implementan modelos que desvelan patrones, tendencias y previsiones de datos. Actúan como puente, convirtiendo narrativas de datos complejas en historias comprensibles, lo que garantiza que las partes interesadas de la empresa no solo comprendan, sino que también puedan actuar basándose en las recomendaciones controladas por datos, a su vez impulsando un enfoque centrado en los datos para resolver problemas dentro de una organización.
Los ingenieros de ML (ingenieros de aprendizaje automático) dirigen la aplicación práctica de la ciencia de datos en productos y soluciones mediante la creación, implementación y mantenimiento de modelos de aprendizaje automático. Su principal enfoque se centra en el aspecto de ingeniería del desarrollo y la implementación de modelos. Los ingenieros de ML garantizan la solidez, la confiabilidad y la escalabilidad de los sistemas de aprendizaje automático en entornos activos, abordando los desafíos relacionados con la calidad de los datos, la infraestructura y el rendimiento. Al integrar modelos de inteligencia artificial y aprendizaje automático en procesos empresariales operativos y productos orientados al usuario, facilitan el uso de la ciencia de datos en la resolución de desafíos empresariales, lo que garantiza que los modelos no solo sigan investigándose, sino que impulsan el valor empresarial tangible.
Los analistas de negocios capacitan a las partes interesadas y a los equipos empresariales con datos accionables. A menudo interpretan los datos y crean informes u otra documentación para el liderazgo mediante herramientas de BI estándar. Normalmente son el punto de contacto para compañeros de negocio y de operaciones no técnicos para preguntas de análisis rápidas.
Los socios comerciales son una parte interesada importante en un mundo empresarial cada vez más en la red. Se definen como una empresa o persona con la que una empresa tiene una relación formal para lograr un objetivo común y pueden incluir proveedores, vendedores, distribuidores y otros asociados de terceros. El uso compartido de datos es un aspecto importante de las asociaciones empresariales, ya que permite la transferencia y el intercambio de datos para mejorar la colaboración y la toma de decisiones controladas por datos.

Dominios del marco de plataforma

La plataforma consta de varios dominios:

Almacenamiento: en la nube, los datos se almacenan principalmente en almacenamientos de objetos en la nube escalables, eficientes y resistentes proporcionados por los proveedores de nube.
Gobernanza: funcionalidades en torno a la gobernanza de datos, por ejemplo, control de acceso, auditoría, administración de metadatos, seguimiento de linaje, supervisión de todos los datos y recursos de inteligencia artificial.
Motor de IA: el motor de IA proporciona funcionalidades de IA generativas para toda la plataforma.
Ingesta y transformación Las funcionalidades de las cargas de trabajo de ETL.
Análisis avanzado, ML e IA Todas las funcionalidades en torno al aprendizaje automático, la inteligencia artificial, la inteligencia artificial generativa y también el análisis de streaming.
Almacenamiento de datos El dominio que admite casos de uso de DWH y BI.
Dominio de orquestación para la administración central de flujos de trabajo y
Herramientas de ETL & DS: las herramientas de front-end que los ingenieros de datos, los científicos de datos y los ingenieros de ML usan principalmente para el trabajo.
Herramientas de BI: las herramientas de front-end que los analistas de BI usan principalmente para el trabajo.
Colaboración: funcionalidades para compartir datos entre dos o más partes.

Ámbito de la plataforma de Databricks

Databricks Data Intelligence Platform y sus componentes se pueden asignar al marco de trabajo de la siguiente manera:

Ámbito del almacén de lago de datos

Descarga: Ámbito de los componentes del lago de datos: Databricks

Lo más importante es que Databricks Data Intelligence Platform cubre todas las cargas de trabajo pertinentes para el dominio de datos en una plataforma, con Apache Spark/Photon como motor:

Ingesta y transformación

En el caso de la ingesta de datos, Auto Loader procesa incrementalmente y automáticamente los archivos que aterrizan en el almacenamiento en la nube en trabajos programados o continuos, sin necesidad de administrar la información de estado. Una vez ingeridos, es necesario transformar los datos sin procesar para que estén listos para BI y ML/AI. Databricks proporciona eficaces funcionalidades ETL para ingenieros de datos, científicos de datos y analistas.

Delta Live Tables (DLT) permite escribir trabajos ETL de forma declarativa, lo que simplifica todo el proceso de implementación. La calidad de los datos se puede mejorar definiendo las expectativas de los datos.
Análisis avanzado, ML e IA

La plataforma incluye Databricks Mosaic AI, un conjunto de herramientas de aprendizaje automático e inteligencia artificial totalmente integradas para el aprendizaje automático tradicional y el aprendizaje profundo, así como la inteligencia artificial generativa y los modelos de lenguaje grande (LLM). Abarca todo el flujo de trabajo, desde la preparación de datos hasta la creación de modelos de aprendizaje automático y aprendizaje profundo, a Mosaic AI Model Serving.

Spark Structured Streaming y DLT permiten el análisis en tiempo real.
Almacenamiento de datos

Databricks Data Intelligence Platform también proporciona una solución completa de almacenamiento de datos con Databricks SQL, que se rige centralmente por Unity Catalog con control de acceso específico.

Asignación de las características de Databricks Data Intelligence Platform a las demás capas del marco, de abajo a arriba:

Almacenamiento en la nube

Todos los datos del lago de datos se almacenan en el almacenamiento de objetos del proveedor de nube. Databricks admite tres proveedores de nube: AWS, Azure y GCP. Los archivos en varios formatos estructurados y semiestructurados (por ejemplo, Parquet, CSV, JSON, Avro), así como formatos no estructurados (por ejemplo, imágenes) se ingieren y transforman mediante procesos por lotes o de streaming.

Delta Lake es el formato de datos recomendado para lagos de datos (transacciones de archivos, confiabilidad, coherencia, actualizaciones, etc.) y es un completamente de código abierto para proporcionar así alternativas. Y el formato universal Delta (UniForm) permite leer tablas Delta con clientes lectores Iceberg.

No se usan formatos de datos de propiedad en Databricks Data Intelligence Platform.
Gobernanza de datos

Además de la capa de almacenamiento, Unity Catalog ofrece una amplia gama de funcionalidades de gobernanza de datos, incluida la administración de metadatos en el metastore, el control de acceso, la auditoría, la detección de datos, el linaje de datos.

La supervisión del lago de datos proporciona métricas de calidad integradas para los recursos de datos e inteligencia artificial y paneles generados automáticamente para visualizar estas métricas.

Los orígenes SQL externos se pueden integrar en el lago de datos y en Unity Catalog a través de la federación de lago de datos.
Motor de IA

La plataforma de inteligencia de datos se basa en la arquitectura de lago de datos y se mejora mediante el motor de inteligencia de datos DatabricksIQ. DatabricksIQ combina inteligencia artificial generativa con las ventajas de unificación de la arquitectura de lago de datos para comprender la semántica única de los datos. Intelligent Search y Databricks Assistant son ejemplos de servicios con tecnología de inteligencia artificial que simplifican el trabajo con la plataforma para cada usuario.
Orquestación

Los flujos de trabajo de Databricks permiten ejecutar diversas cargas de trabajo para el ciclo de vida completo de los datos y la inteligencia artificial en cualquier nube. Permiten organizar trabajos, así como Delta Live Tables para SQL, Spark, cuadernos, DBT, modelos de ML, etc.
Herramientas de ETL y DS

En la capa de consumo, los ingenieros de datos y los ingenieros de ML suelen trabajar con la plataforma mediante IDE. Los científicos de datos suelen preferir cuadernos y usar los entornos de ejecución de ML e IA, y el sistema de flujo de trabajo de aprendizaje automático MLflow para realizar un seguimiento de los experimentos y administrar el ciclo de vida del modelo.
Herramientas de BI

Normalmente, los analistas de negocios usan su herramienta de BI preferida para acceder al almacenamiento de datos de Databricks. Databricks SQL se puede consultar mediante diferentes herramientas de análisis y BI, consulte BI y visualización

Además, la plataforma ofrece herramientas de consulta y análisis lista para usar:
- Paneles para crear visualizaciones de datos y compartir información de forma de arrastrar y colocar.
- Editor de SQL para analistas de SQL para analizar datos.
Colaboración

Delta Sharing es un protocolo abierto desarrollado por Databricks para proteger el uso compartido de datos con otras organizaciones, independientemente de las plataformas informáticas que usen.

Databricks Marketplace, es un foro abierto para intercambiar productos de datos. Aprovecha Delta Sharing para dar a los proveedores de datos las herramientas para compartir productos de datos de forma segura y a los consumidores de datos el poder de explorar y ampliar su acceso a los datos y servicios de datos que necesitan.

Compartir a través de