Speichern von Apache Spark-DataFrames in TFRecord-Dateien

In diesem Artikel erfahren Sie, wie Sie spark-tensorflow-connector verwenden, um Apache Spark-DataFrames in TFRecord-Dateien zu speichern und TFRecord mit TensorFlow zu laden.

Das TFRecord-Dateiformat ist ein einfaches datensatzorientiertes Binärformat für ML-Trainingsdaten. Mit der Klasse tf.data.TFRecordDataset können Sie den Inhalt einer oder mehrerer TFRecord-Dateien als Teil einer Eingabepipeline streamen.

Verwenden der spark-tensorflow-connector-Bibliothek

Sie können spark-tensorflow-connector verwenden, um Apache Spark-DataFrames in TFRecord-Dateien zu speichern.

spark-tensorflow-connector ist eine Bibliothek innerhalb des TensorFlow-Ökosystems, welche die Konvertierung zwischen Spark-DataFrames und TFRecords (einem beliebten Format zum Speichern von Daten für TensorFlow) ermöglicht. Mit spark-tensorflow-connector können Sie Spark-DataFrame-APIs verwenden, um TFRecords-Dateien in DataFrames einzulesen und DataFrames als TFRecords zu schreiben.

Hinweis

Die spark-tensorflow-connector-Bibliothek ist in Databricks Runtime für Machine Learning enthalten. Um spark-tensorflow-connector für Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität zu verwenden, müssen Sie die Bibliothek aus Maven installieren. Weitere Informationen finden Sie unter Maven- oder Spark-Paket.

Beispiel: Laden von Daten aus TFRecord-Dateien mit TensorFlow

Im Beispielnotebook wird veranschaulicht, wie Sie Daten aus Apache Spark-DataFrames in TFRecord-Dateien speichern und TFRecord-Dateien für das ML-Training laden.

Sie können die TFRecord-Dateien mithilfe der tf.data.TFRecordDataset-Klasse laden. Weitere Informationen finden Sie unter [Lesen einer TFRecord-Datei](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) aus TensorFlow.

Aufbereiten von Imagedaten für verteiltes DL-Notebook

Notebook abrufen