將 Apache Spark DataFrame 儲存為 TFRecord 檔案
本文說明如何使用 spark-tensorflow-connector 將 Apache Spark DataFrames 儲存至 TFRecord 檔案,並使用 TensorFlow 載入 TFRecord。
TFRecord 檔案格式是 ML 定型資料的簡單記錄導向二進位格式。 tf.data.TFRecordDataset 類別可讓您在輸入管線中串流一或多個 TFRecord 檔案的內容。
使用連結 spark-tensorflow-connector
庫
您可以使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案。
spark-tensorflow-connector
是 TensorFlow 生態系統 中的 程式庫,可在 Spark DataFrames 與 TFRecords 之間進行轉換(適用于儲存 TensorFlow 資料的常用格式)。 使用 spark-tensorflow-connector,您可以使用 Spark DataFrame API 將 TFRecords 檔案讀取至 DataFrame,並將 DataFrame 寫入為 TFRecords。
注意
連結 spark-tensorflow-connector
庫包含在 databricks Runtime for 機器學習 中。 若要在 spark-tensorflow-connector
Databricks Runtime 版本資訊和相容性 上使用 ,您需要從 Maven 安裝程式庫。 如需詳細資訊,請參閱 Maven 或 Spark 套件 。
範例:使用 TensorFlow 從 TFRecord 檔案載入資料
範例筆記本示範如何將 Apache Spark DataFrame 中的資料儲存至 TFRecord 檔案,以及載入 TFRecord 檔案以進行 ML 定型。
您可以使用 類別載入 TFRecord 檔案 tf.data.TFRecordDataset
。 如需詳細資訊,請參閱 [從 TensorFlow 讀取 TFRecord 檔案]( https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file)。