Spara Apache Spark DataFrames som TFRecord-filer

Den här artikeln visar hur du använder spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer och läsa in TFRecord med TensorFlow.

TFRecord-filformatet är ett enkelt postorienterat binärt format för ML-träningsdata. Med klassen tf.data.TFRecordDataset kan du strömma över innehållet i en eller flera TFRecord-filer som en del av en indatapipeline.

Använda spark-tensorflow-connector bibliotek

Du kan använda spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer.

spark-tensorflow-connectorär ett bibliotek i TensorFlow-ekosystemet som möjliggör konvertering mellan Spark DataFrames och TFRecords (ett populärt format för lagring av data för TensorFlow). Med spark-tensorflow-connector kan du använda Spark DataFrame-API:er för att läsa TFRecords-filer i DataFrames och skriva DataFrames som TFRecords.

Kommentar

Biblioteket spark-tensorflow-connector ingår i Databricks Runtime for Machine Learning. Om du vill använda spark-tensorflow-connectorversionerna och kompatibiliteten i Databricks Runtime måste du installera biblioteket från Maven. Mer information finns i Maven- eller Spark-paketet .

Exempel: Läsa in data från TFRecord-filer med TensorFlow

Exempelanteckningsboken visar hur du sparar data från Apache Spark DataFrames till TFRecord-filer och läser in TFRecord-filer för ML-träning.

Du kan läsa in TFRecord-filerna med hjälp av tf.data.TFRecordDataset klassen . Mer information finns i [Läsa en TFRecord-fil](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) från TensorFlow.

Förbereda avbildningsdata för distribuerad DL-notebook-fil

Hämta notebook-fil