Compartir a través de


Carga de datos para el aprendizaje automático y el aprendizaje profundo

En esta sección se incluye información sobre cómo cargar datos específicamente para las aplicaciones de aprendizaje automático y aprendizaje profundo. Para información general sobre cómo cargar datos, consulte Ingesta de datos en un lago de datos de Databricks.

Almacenamiento de archivos para la carga de datos y los puntos de control de modelo

Es posible que las aplicaciones de aprendizaje automático deban usar el almacenamiento compartido para la carga de datos y la creación de puntos de comprobación del modelo. Esto es especialmente importante para el aprendizaje profundo distribuido.

Azure Databricks ofrece Databricks File System (DBFS) para acceder a los datos de un clúster mediante las API de archivo local y Spark.

Carga de datos tabulares

Puede cargar datos tabulares de aprendizaje automático desde tablas o archivos (por ejemplo, vea Lectura y escritura en archivos CSV). Puede convertir dataframes de Apache Spark en dataframes de Pandas con el método de PySparktoPandas() y, después, convertirlos opcionalmente al formato NumPy con el método de PySparkto_numpy().

Preparación de datos para ajustar modelos de lenguaje grandes

Con Hugging Face Transformers y Hugging Face Datasets puede preparar sus datos para ajustar grandes modelos de lenguaje de código abierto.

Preparar los datos para ajustar los modelos de Hugging Face

Preparación de datos para el aprendizaje distribuido

En esta sección se describen dos métodos para preparar los datos para el entrenamiento distribuido: Petastorm y TFRecords.