IA y Machine Learning en Databricks

Artículo
03/11/2024

En este artículo se describen las herramientas que proporciona Azure Databricks para ayudarle a crear y supervisar flujos de trabajo de IA y ML. En el diagrama se muestra cómo funcionan juntos estos componentes para ayudarle a implementar el proceso de desarrollo e implementación de modelos.

Machine learning diagram: Model development and deployment on Databricks

Por qué usar Databricks para el aprendizaje automático y el aprendizaje profundo

Con Azure Databricks, puede implementar el ciclo de vida completo de ML en una sola plataforma con gobernanza de un extremo a otro en toda la canalización de ML. Azure Databricks incluye las siguientes herramientas integradas para la compatibilidad con flujos de trabajo de ML:

Unity Catalog para gobernanza, detección, control de versiones y control de acceso a datos, características, modelos y funciones.
Lakehouse Monitoring para la supervisión de datos.
Ingeniería de características y servicios
Compatibilidad con el ciclo de vida de modelos:
- Databricks AutoML para el entrenamiento automatizado de modelos.
- MLflow para el seguimiento del desarrollo de modelos.
- Unity Catalog para la administración de modelos.
- Servicio de modelos de Databricks para proporcionar servicio de modelos de alta disponibilidad y baja latencia. Esto incluye usar la implementación de LLM:
  - API de modelos de base que le permiten acceder a los modelos abiertos más avanzados y consultarlos desde un punto de conexión.
  - Modelos externos que le permiten acceder a modelos hospedados fuera de Databricks.
- Lakehouse Monitoring para realizar un seguimiento de la calidad y el desfase en la predicción de modelos.
Flujos de trabajo de Databricks para flujos de trabajo automatizados y canalizaciones ETL listas para producción.
Repositorios de Databricks para la administración del código y la integración de Git.

Aprendizaje profundo en Databricks

La configuración de la infraestructura para aplicaciones de aprendizaje profundo puede ser difícil.

Databricks Runtime para Machine Learning se ocupa de ello por usted, al disponer de clústeres que tienen versiones compatibles integradas de las bibliotecas de aprendizaje profundo más comunes, como TensorFlow, PyTorch y Keras, y bibliotecas auxiliares, como Petastorm, Hyperopt y Horovod. Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. También admite bibliotecas como Ray para paralelizar el procesamiento de proceso para escalar flujos de trabajo de ML y aplicaciones de inteligencia artificial.

Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. Databricks Model Serving permite la creación de puntos de conexión de GPU escalables para modelos de aprendizaje profundo sin configuración adicional.

En el caso de las aplicaciones de aprendizaje automático, Databricks recomienda usar un clúster que ejecute Databricks Runtime para Machine Learning. Consulte Creación de un clúster mediante Databricks Runtime ML.

Para empezar con el aprendizaje profundo en Databricks, consulte:

Modelos de lenguaje grandes (LLM) e inteligencia artificial generativa en Databricks

Databricks Runtime para Machine Learning incluye bibliotecas como Hugging Face Transformers y LangChain que le permiten integrar modelos previamente entrenados ya existentes u otras bibliotecas de código abierto en el flujo de trabajo. La integración de MLflow de Databricks facilita el uso del servicio de seguimiento de MLflow con canalizaciones, modelos y componentes de procesamiento de transformadores. Además, puede integrar modelos o soluciones de OpenAI de asociados como John Snow Labs en los flujos de trabajo de Azure Databricks.

Con Azure Databricks, puede personalizar un LLM en los datos de su tarea específica. Gracias a la ayuda de herramientas de código abierto, como Hugging Face y DeepSpeed, puede tomar eficazmente un modelo LLM de base y entrenarlo con sus propios datos para mejorar su precisión de acuerdo con su dominio y carga de trabajo específicos. Luego, puede usar el LLM personalizado en las aplicaciones de IA generativa.

Además, Databricks proporciona API de modelos de base y modelos externos que le permiten acceder y consultar modelos abiertos de última generación desde un punto de conexión. Con las API de modelos fundacionales, los desarrolladores pueden compilar de forma rápida y sencilla aplicaciones que usan un modelo de inteligencia artificial generativa de alta calidad sin necesidad de mantener su propia implementación de modelos.

Para los usuarios de SQL, Databricks proporciona funciones de inteligencia artificial que los analistas de datos de SQL pueden usar para acceder a modelos LLM, por ejemplo, desde OpenAI, directamente dentro de sus canalizaciones de datos y flujos de trabajo. Consulte Funciones de IA en Azure Databricks.

Databricks Runtime para Machine Learning

Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza la creación de un clúster con una infraestructura de aprendizaje profundo y aprendizaje automático precompilada, incluidas las bibliotecas de ML y DL más comunes. Puede ver la lista completa de bibliotecas de cada versión de Databricks Runtime ML en las notas de la versión.

Para acceder a los datos del Catálogo de Unity para flujos de trabajo de aprendizaje automático, el modo de acceso del clúster debe ser un solo usuario (asignado). Los clústeres compartidos no son compatibles con Databricks Runtime para Machine Learning. Además, Databricks Runtime ML no se admite en clústeres de TableACLs o clústeres con spark.databricks.pyspark.enableProcessIsolation config establecido en true.

Creación de un clúster mediante Databricks Runtime ML

Al crear un clúster, seleccione una versión de Databricks Runtime ML en el menú desplegable de versión de Databricks Runtime. Están disponibles los entornos de ejecución de ML habilitados tanto para CPU como para GPU.

Select Databricks Runtime ML

Si selecciona un clúster en el menú desplegable del cuaderno, la versión de Databricks Runtime aparece a la derecha del nombre del clúster:

View Databricks Runtime ML version

Si selecciona un entorno de ejecución de ML habilitado para GPU, se le pedirá que seleccione un tipo de controlador y un tipo de trabajo compatibles. Los tipos de instancia incompatibles aparecen atenuados en el menú desplegable. Los tipos de instancia habilitados para GPU se muestran en la etiqueta Acelerada por GPU.

Nota:

Bibliotecas incluidas en Databricks Runtime ML

Databricks Runtime ML incluye varias bibliotecas populares de ML. Las bibliotecas se actualizan con cada versión para incluir nuevas características y correcciones.

Databricks ha designado un subconjunto de las bibliotecas admitidas como bibliotecas de nivel superior. Para estas bibliotecas, Databricks proporciona una cadencia de actualización más rápida a las versiones de paquete más recientes con cada versión del entorno de ejecución (sin conflictos de dependencia). Databricks también proporciona compatibilidad avanzada, pruebas y optimizaciones insertadas para bibliotecas de nivel superior.

Para obtener una lista completa de las bibliotecas de primer nivel y de otras bibliotecas proporcionadas, consulte las notas de la versión para Databricks Runtime ML.

Pasos siguientes

Para empezar, consulte:

Tutoriales: Introducción a ML

Para obtener un flujo de trabajo de MLOps recomendado en Databricks Machine Learning, consulte:

Flujos de trabajo de MLOps en Azure Databricks

Para más información sobre las características clave de Databricks Machine Learning, consulte: