Conceptos de Azure Databricks

Artículo
05/03/2024

En este artículo se presenta el conjunto de conceptos fundamentales que debe comprender para poder usar Azure Databricks de forma eficaz.

Cuentas y áreas de trabajo

En Azure Databricks, un área de trabajo es una implementación de Azure Databricks en la nube que funciona como un entorno para que el equipo acceda a los recursos de Databricks. La organización puede elegir tener múltiples áreas de trabajo o solo una, en función de sus necesidades.

Una cuenta de Azure Databricks representa una sola entidad que puede incluir varias áreas de trabajo. Las cuentas habilitadas para Unity Catalog se pueden usar para administrar usuarios y su acceso a los datos de forma centralizada en todas las áreas de trabajo de la cuenta.

Facturación: unidades de Databricks (DBU)

Facturas de Azure Databricks que se generan en función de las unidades de Databricks (DBU) y las unidades de capacidad de procesamiento por hora en función del tipo de instancia de VM.

Consulte la página de precios de Azure Databricks.

Autenticación y autorización

En esta sección se describen los conceptos que debe conocer cuando administre identidades de Azure Databricks y su acceso a los recursos de Azure Databricks.

Usuario

Persona única que tiene acceso al sistema. Las identidades de usuario se representan mediante direcciones de correo electrónico. Consulte Administrar usuarios.

Entidad de servicio

Una identidad de servicio para usarla con trabajos, herramientas automatizadas y sistemas, como scripts, aplicaciones y plataformas de CI/CD. Las entidades de servicio se representan mediante un id. de aplicación. Consulte: Administración de entidades de servicio.

Grupo

Colección de identidades. Los grupos simplifican la administración de identidades, lo que facilita la asignación de acceso a áreas de trabajo, datos y otros objetos protegibles. Todas las identidades de Databricks se pueden asignar como miembros de grupos. Consulte Administración de grupos.

Lista de control de acceso (ACL)

Lista de permisos asociados al área de trabajo, el clúster, el trabajo, la tabla o el experimento. Una ACL especifica a qué usuarios o procesos del sistema se les concede acceso a los objetos, así como qué operaciones se permiten en los recursos. Cada entrada de una ACL típica especifica un sujeto y una operación. Vea listas de control de acceso

Token de acceso personal

Cadena opaca que se usa para autenticarse a la API de REST y por las herramientas de los asociados tecnológicos para la conexión a los almacenes de SQL. Consulta Autenticación de token de acceso personal de Azure Databricks.

Los tokens de Microsoft Entra ID (anteriormente Azure Active Directory) también se pueden usar para autenticarse en la API REST.

UI

La interfaz de usuario de Azure Databricks es una interfaz gráfica para interactuar con distintas características, como carpetas del área de trabajo y objetos que contienen, objetos de datos y recursos de cálculo.

Ciencia de datos e ingeniería

Las herramientas de ciencia de datos e ingeniería permiten la colaboración entre científicos de datos, ingenieros de datos y analistas de datos. En esta sección se describen los conceptos básicos.

Área de trabajo

Un área de trabajo es un entorno para acceder a todos los recursos de Azure Databricks. El área de trabajo organiza los objetos (cuadernos, bibliotecas, paneles y experimentos) en carpetas y proporciona acceso a los objetos de datos y los recursos de cálculo.

Notebook

Interfaz basada en web para crear flujos de trabajo de ciencia de datos y aprendizaje automático que pueden contener comandos ejecutables, visualizaciones y texto narrativo. Consulte Introducción a los cuadernos de Databricks.

Panel

Interfaz que proporciona acceso organizado a las visualizaciones. Consulte Paneles en cuadernos.

Biblioteca

Paquete de código disponible para el cuaderno o el trabajo que se ejecuta en el clúster. Los runtimes de Databricks incluyen muchas bibliotecas y puede agregar las suyas propias.

Carpeta Git (anteriormente Repos)

Carpeta cuyo contenido tiene control de versiones mediante su sincronización con un repositorio de Git remoto. Carpetas de Git de Databricks integrar con Git para proporcionar control de código fuente y de versiones para los proyectos.

Experimento

Una colección de ejecuciones de MLflow para entrenar un modelo de aprendizaje automático. Consulte Organización de ejecuciones de entrenamiento con experimentos de MLflow.

Interfaces de Azure Databricks

En esta sección se describen las interfaces que admite Azure Databricks, además de la interfaz de usuario, para acceder a los recursos: API y línea de comandos (CLI).

API DE REST

Databricks proporciona documentación sobre la API para el área de trabajo y la cuenta.

CLI

Un proyecto de código abierto que se hospeda en GitHub. La CLI se basa en la API de REST de Databricks.

Administración de datos

En esta sección se describen los objetos que contiene los datos sobre los que se realizan análisis y que alimentan los algoritmos de aprendizaje automático.

Sistema de archivos de Databricks (DBFS)

Una capa de abstracción de sistema de archivos sobre un almacén de blobs. Contiene directorios, que pueden contener archivos (archivos de datos, bibliotecas e imágenes) y otros directorios. DBFS se rellena automáticamente con algunos conjuntos de datos que puede usar para aprender Azure Databricks. Consulte ¿Qué es el sistema de archivos de Databricks (DBFS)?.

Base de datos

Colección de objetos de datos, como tablas o vistas y funciones, que se organiza para que se pueda acceder, administrar y actualizar fácilmente. Consulte ¿Qué es una base de datos?

Tabla

Representación de datos estructurados. Las tablas se consultan con Apache Spark SQL y las API de Apache Spark. Consulte ¿Qué es una tabla?

Tabla delta

De forma predeterminada, todas las tablas creadas en Azure Databricks son tablas delta. Las tablas delta se basan en el proyecto de código abierto Delta Lake, un marco para el almacenamiento de tablas ACID de alto rendimiento a través de almacenes de objetos en la nube. Una tabla Delta almacena datos como un directorio de archivos en el almacenamiento de objetos en la nube y registra metadatos de tabla en el metastore dentro de un catálogo y esquema.

Obtenga más información sobre las tecnologías con la marca Delta.

Metastore

Componente que almacena toda la información de estructura de las distintas tablas y particiones del almacenamiento de datos, incluidas la columna y la información de tipo de columna, los serializadores y deserializadores necesarios para leer y escribir datos, y los archivos correspondientes donde se almacenan los datos. Consulte ¿Qué es un metastore?

Todas las implementaciones de Azure Databricks tienen una instancia de metastore de Hive central a la que pueden tener acceso todos los clústeres para conservar los metadatos de la tabla. También tiene la opción de usar un metastore de Hive externo existente.

Visualización

Presentación gráfica del resultado de ejecutar una consulta. Consulte Visualizaciones en cuadernos de Databricks.

Administración de cálculos

En esta sección se describen los conceptos que debe conocer para ejecutar cálculos en Azure Databricks.

Clúster

Conjunto de recursos de cálculo y configuraciones en el que se ejecutan cuadernos y trabajos. Hay dos tipos de clústeres: de uso general y de trabajos. Consulte Proceso.

Los clústeres de uso general se crean mediante la interfaz de usuario, la CLI o la API REST. Los clústeres de uso general se pueden finalizar y reiniciar un clúster de uso general. Varios usuarios pueden compartir dichos clústeres para llevar a cabo análisis interactivos colaborativos.
El programador de trabajos de Azure Databricks crea un clúster de trabajos cuando se ejecuta un trabajo en un clúster de trabajos nuevo y lo finaliza cuando se completa el trabajo. No puede reiniciar un clúster de trabajos.

grupo

Conjunto de instancias inactivas y listas para usar que reduce los tiempos de inicio y escalado automático del clúster. Cuando se asocia a un grupo, un clúster asigna sus nodos de controlador y de trabajo desde el grupo. Consulte Referencia de configuración del grupo.

Si el grupo no tiene suficientes recursos inactivos para dar cabida a la solicitud del clúster, el grupo se expande asignando nuevas instancias del proveedor de instancias. Cuando finaliza un clúster asociado, las instancias que ha usado se devuelven al grupo y otro clúster puede reutilizarlas.

Runtime de Databricks

Conjunto de componentes principales que se ejecutan en los clústeres administrados por Azure Databricks. Consulte Proceso.* Azure Databricks tiene los siguientes entornos de ejecución:

Databricks Runtime incluye Apache Spark, pero también agrega una serie de componentes y actualizaciones que mejoran considerablemente la facilidad de uso, el rendimiento y la seguridad en el análisis de macrodatos.
Databricks Runtime para aprendizaje automático se compila en Databricks Runtime y proporciona una infraestructura de aprendizaje automático prediseñada que se integra con todas las capacidades del área de trabajo de Azure Databricks. Contiene varias bibliotecas populares, como TensorFlow, Keras, PyTorch y XGBoost.

Workflows

Marcos para desarrollar y ejecutar canalizaciones de procesamiento de datos:

Trabajos: mecanismo no interactivo para ejecutar un cuaderno o una biblioteca de forma inmediata o programada.
Delta Live Tables: marco para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y que se pueden probar.

Vea la Introducción al flujo de trabajo de Azure Databricks .

Carga de trabajo

Azure Databricks identifica dos tipos de cargas de trabajo sujetas a diferentes esquemas de precios: ingeniería de datos (trabajo) y análisis de datos (uso general).

Ingeniería de datos: una carga de trabajo (automatizada) se ejecuta en un clúster de trabajos que el programador de trabajos de Azure Databricks crea para cada carga de trabajo.
Análisis de datos: una carga de trabajo (interactiva) se ejecuta en un clúster de uso general. Las cargas de trabajo interactivas suelen ejecutar los comandos dentro de un cuaderno de Azure Databricks. Sin embargo, la ejecución de un trabajo en un clúster de uso general existente también se trata como una carga de trabajo interactiva.

Contexto de ejecución

Estado de un entorno read–eval–print loop (REPL) para cada lenguaje de programación admitido. Los lenguajes admitidos son Python, R, Scala y SQL.

Machine Learning

Aprendizaje automático en Azure Databricks es un entorno integrado de un extremo a otro que incorpora servicios administrados para el seguimiento de experimentos, entrenamiento de modelos, desarrollo y administración de características, y servicio de características y modelos.

Experimentos

Unidad principal de la organización para el seguimiento del desarrollo de modelos de aprendizaje automático. Consulte Organización de ejecuciones de entrenamiento con experimentos de MLflow. Los experimentos organizan, muestran y controlan el acceso a ejecuciones registradas individuales del código de entrenamiento del modelo.

Almacén de características

Un repositorio centralizado de características. Consulte ¿Qué es un almacén de características? El almacén de características permite el uso compartido y la detección de características en toda la organización y también garantiza que se usa el mismo código de cálculo de características para el entrenamiento y la inferencia de modelos.

Modelos y registro de modelos

Un modelo de aprendizaje automático o de aprendizaje profundo entrenado que se ha registrado en el Registro de modelos.

SQL

API de REST SQL

Interfaz que le permite automatizar tareas en objetos SQL. Consulte API DE SQL.

Panel

Presentación de visualizaciones de datos y comentarios. Vea Paneles. Para ver los paneles heredados, vea paneles heredados.

Consultas SQL

En esta sección se describen los conceptos que debe conocer para ejecutar consultas SQL en Azure Databricks.

Consulta: instrucción SQL válida.
Almacén SQL: recurso informático en el que se ejecutan consultas SQL.
Historial de consultas: lista de consultas ejecutadas y sus características de rendimiento.

Conceptos de Azure Databricks

Cuentas y áreas de trabajo

Facturación: unidades de Databricks (DBU)

Autenticación y autorización

Usuario

Entidad de servicio

Grupo

Lista de control de acceso (ACL)

Token de acceso personal

UI

Ciencia de datos e ingeniería

Área de trabajo

Notebook

Panel

Biblioteca

Carpeta Git (anteriormente Repos)

Experimento

Interfaces de Azure Databricks

API DE REST

CLI

Administración de datos

Sistema de archivos de Databricks (DBFS)

Base de datos

Tabla

Tabla delta

Metastore

Visualización

Administración de cálculos

Clúster

grupo

Runtime de Databricks

Workflows

Carga de trabajo

Contexto de ejecución

Machine Learning

Experimentos

Almacén de características

Modelos y registro de modelos

SQL

API de REST SQL

Panel

Consultas SQL

Comentarios

Comentarios

Recursos adicionales