載入機器學習和深度學習的數據

本節涵蓋針對 ML 和 DL 應用程式特別載入數據的相關信息。 如需載入數據的一般資訊,請參閱 將數據內嵌至 Databricks Lakehouse

儲存用於數據載入和模型檢查點的檔案

機器學習應用程式可能需要使用共用記憶體來載入數據,並建立模型檢查點。 對於分散式深度學習來說,這特別重要。

Azure Databricks 提供 Databricks 檔案系統 (DBFS) ,以使用 Spark 和本機檔案 API 存取叢集上的數據。

載入表格式數據

您可以從數據表或檔案載入表格式機器學習數據(例如,請參閱讀取和寫入 CSV 檔案)。 您可以使用 PySpark 方法將 Apache Spark DataFrame 轉換成 pandas DataFrame,然後使用 PySpark 方法to_numpy()toPandas()選擇性地轉換成 NumPy 格式。

準備數據以微調大型語言模型

您可以使用擁抱臉部轉換器擁抱臉部數據集,準備數據以微調 開放原始碼 大型語言模型。

準備數據以微調擁抱臉部模型

準備分散式定型的數據

本節涵蓋準備分散式定型數據的兩種方法:Petastorm 和 TFRecords。