加载用于机器学习和深度学习的数据

项目
03/01/2024

本部分介绍了如何加载专用于 ML 和 DL 应用程序的数据。有关如何加载数据的一般信息，请参阅将数据引入 Databricks 湖屋中。

存储文件来执行数据加载和模型检查点操作

机器学习应用程序可能需要使用共享存储来执行数据加载和模型检查点操作。对于分布式深度学习来说，这尤其重要。

Azure Databricks 提供了 Databricks 文件系统 (DBFS)，你可通过它使用 Spark 和本地文件 API 访问群集上的数据。

加载表格数据

可从表格或文件（例如，请参阅读取和写入 CSV 文件）加载表格机器学习数据。可使用 PySpark 方法toPandas() 将 Apache Spark 数据帧转换为 Pandas 数据帧，然后根据需要使用 Pandas to_numpy() 转换为 NumPy 格式。

准备数据以微调大型语言模型

可以使用 Hugging Face Transformers 和 Hugging Face Datasets 准备数据以微调开源大型语言模型。

准备数据以微调 Hugging Face 模型

准备数据以进行分布式训练

本部分介绍了两种用于准备数据进行分布式训练的方法：Petastorm 和 TFRecords。

准备数据以进行分布式训练
- Petastorm（推荐）
- TFRecord