Carregue dados para aprendizado de máquina e aprendizado profundo
Esta secção inclui informações sobre o carregamento de dados especificamente para aplicações ML e DL. Para obter informações gerais sobre como carregar dados, consulte Ingerir dados em uma casa de lago Databricks.
Armazenar ficheiros para carregamento de dados e ponto de verificação de modelos
As aplicações de machine learning podem ter de utilizar o armazenamento partilhado para carregamento de dados e ponto de verificação de modelos. O armazenamento partilhado é particularmente importante para a aprendizagem profunda distribuída.
O Azure Databricks fornece o Sistema de Arquivos Databricks (DBFS) para acessar dados em um cluster usando o Spark e APIs de arquivo locais.
Carregar dados tabulares
Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Ler e gravar em arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o métodotoPandas()
PySpark e, opcionalmente, converter para o formato NumPy usando o métodoto_numpy()
PySpark.
Preparar dados para ajustar modelos de linguagem grandes
Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.
Preparar dados para ajustar modelos Hugging Face
Preparar os dados para a preparação distribuída
Esta seção abrange dois métodos para preparar dados para treinamento distribuído: Petastorm e TFRecords.