將 Apache Spark DataFrame 儲存為 TFRecord 檔案

本文說明如何使用 spark-tensorflow-connector 將 Apache Spark DataFrames 儲存至 TFRecord 檔案,並使用 TensorFlow 載入 TFRecord。

TFRecord 檔案格式是 ML 定型資料的簡單記錄導向二進位格式。 tf.data.TFRecordDataset 類別可讓您在輸入管線中串流一或多個 TFRecord 檔案的內容。

使用連結 spark-tensorflow-connector

您可以使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案。

spark-tensorflow-connector是 TensorFlow 生態系統 中的 程式庫,可在 Spark DataFrames 與 TFRecords 之間進行轉換(適用于儲存 TensorFlow 資料的常用格式)。 使用 spark-tensorflow-connector,您可以使用 Spark DataFrame API 將 TFRecords 檔案讀取至 DataFrame,並將 DataFrame 寫入為 TFRecords。

注意

連結 spark-tensorflow-connector 庫包含在 databricks Runtime for 機器學習 中。 若要在 spark-tensorflow-connector Databricks Runtime 版本資訊和相容性 上使用 ,您需要從 Maven 安裝程式庫。 如需詳細資訊,請參閱 Maven 或 Spark 套件

範例:使用 TensorFlow 從 TFRecord 檔案載入資料

範例筆記本示範如何將 Apache Spark DataFrame 中的資料儲存至 TFRecord 檔案,以及載入 TFRecord 檔案以進行 ML 定型。

您可以使用 類別載入 TFRecord 檔案 tf.data.TFRecordDataset 。 如需詳細資訊,請參閱 [從 TensorFlow 讀取 TFRecord 檔案]( https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file)。

準備分散式 DL 筆記本的映射資料

取得筆記本