Carregue dados para aprendizado de máquina e aprendizado profundo

Artigo
03/01/2024

Esta secção inclui informações sobre o carregamento de dados especificamente para aplicações ML e DL. Para obter informações gerais sobre como carregar dados, consulte Ingerir dados em uma casa de lago Databricks.

Armazenar ficheiros para carregamento de dados e ponto de verificação de modelos

As aplicações de machine learning podem ter de utilizar o armazenamento partilhado para carregamento de dados e ponto de verificação de modelos. O armazenamento partilhado é particularmente importante para a aprendizagem profunda distribuída.

O Azure Databricks fornece o Sistema de Arquivos Databricks (DBFS) para acessar dados em um cluster usando o Spark e APIs de arquivo locais.

Carregar dados tabulares

Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Ler e gravar em arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o métodotoPandas() PySpark e, opcionalmente, converter para o formato NumPy usando o métodoto_numpy() PySpark.

Preparar dados para ajustar modelos de linguagem grandes

Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.

Preparar dados para ajustar modelos Hugging Face

Preparar os dados para a preparação distribuída

Esta seção abrange dois métodos para preparar dados para treinamento distribuído: Petastorm e TFRecords.

Preparar os dados para a preparação distribuída
- Petastorm (Recomendado)
- TFRecord

Carregue dados para aprendizado de máquina e aprendizado profundo

Armazenar ficheiros para carregamento de dados e ponto de verificação de modelos

Carregar dados tabulares

Preparar dados para ajustar modelos de linguagem grandes

Preparar os dados para a preparação distribuída

Recursos adicionais