載入機器學習和深度學習的數據

發行項
03/05/2024

本節涵蓋針對 ML 和 DL 應用程式特別載入數據的相關信息。如需載入數據的一般資訊，請參閱將數據內嵌至 Databricks Lakehouse。

儲存用於數據載入和模型檢查點的檔案

機器學習應用程式可能需要使用共用記憶體來載入數據，並建立模型檢查點。對於分散式深度學習來說，這特別重要。

Azure Databricks 提供 Databricks 檔案系統（DBFS），以使用 Spark 和本機檔案 API 存取叢集上的數據。

載入表格式數據

您可以從數據表或檔案載入表格式機器學習數據（例如，請參閱讀取和寫入 CSV 檔案）。您可以使用 PySpark 方法將 Apache Spark DataFrame 轉換成 pandas DataFrame，然後使用 PySpark 方法to_numpy()toPandas()選擇性地轉換成 NumPy 格式。

準備數據以微調大型語言模型

您可以使用擁抱臉部轉換器和擁抱臉部數據集，準備數據以微調開放原始碼大型語言模型。

準備數據以微調擁抱臉部模型

準備分散式定型的數據

本節涵蓋準備分散式定型數據的兩種方法：Petastorm 和 TFRecords。

準備分散式定型的數據
- Petastorm （建議）
- TFRecord