Läsa in data för maskininlärning och djupinlärning

Det här avsnittet innehåller information om att läsa in data specifikt för ML- och DL-program. Allmän information om inläsning av data finns i Mata in data i ett Databricks lakehouse.

Lagra filer för datainläsning och modellkontrollpunkter

Maskininlärningsprogram kan behöva använda delad lagring för datainläsning och modellkontrollpunkter. Detta är särskilt viktigt för distribuerad djupinlärning.

Azure Databricks tillhandahåller Databricks File System (DBFS) för åtkomst till data i ett kluster med både Spark- och lokala fil-API:er.

Läsa in tabelldata

Du kan läsa in tabellbaserade maskininlärningsdata från tabeller eller filer (till exempel läsa och skriva till CSV-filer). Du kan konvertera Apache Spark DataFrames till Pandas DataFrames med hjälp av PySpark-metodentoPandas() och sedan konvertera till NumPy-format med pyspark-metodento_numpy().

Förbereda data för att finjustera stora språkmodeller

Du kan förbereda dina data för finjustering öppen källkod stora språkmodeller med Hugging Face Transformers och Hugging Face Datasets.

Förbereda data för finjustering av Hugging Face-modeller

Förbereda data för distribuerad träning

Det här avsnittet beskriver två metoder för att förbereda data för distribuerad träning: Petastorm och TFRecords.