Läsa in data för maskininlärning och djupinlärning
Det här avsnittet innehåller information om att läsa in data specifikt för ML- och DL-program. Allmän information om inläsning av data finns i Mata in data i ett Databricks lakehouse.
Lagra filer för datainläsning och modellkontrollpunkter
Maskininlärningsprogram kan behöva använda delad lagring för datainläsning och modellkontrollpunkter. Detta är särskilt viktigt för distribuerad djupinlärning.
Azure Databricks tillhandahåller Databricks File System (DBFS) för åtkomst till data i ett kluster med både Spark- och lokala fil-API:er.
Läsa in tabelldata
Du kan läsa in tabellbaserade maskininlärningsdata från tabeller eller filer (till exempel läsa och skriva till CSV-filer). Du kan konvertera Apache Spark DataFrames till Pandas DataFrames med hjälp av PySpark-metodentoPandas()
och sedan konvertera till NumPy-format med pyspark-metodento_numpy()
.
Förbereda data för att finjustera stora språkmodeller
Du kan förbereda dina data för finjustering öppen källkod stora språkmodeller med Hugging Face Transformers och Hugging Face Datasets.
Förbereda data för finjustering av Hugging Face-modeller
Förbereda data för distribuerad träning
Det här avsnittet beskriver två metoder för att förbereda data för distribuerad träning: Petastorm och TFRecords.