Enregistrer des DataFrames Apache Spark en tant que fichiers TFRecord

Cet article vous montre comment utiliser spark-tensorflow-connector pour enregistrer des DataFrames Apache Spark dans des fichiers TFRecord et charger TFRecord avec TensorFlow.

Le format de fichier TFRecord est un format binaire orienté enregistrement simple pour des données de formation ML. La classe tf.data.TFRecordDataset vous permet de diffuser en continu le contenu d’un ou plusieurs fichiers TFRecord dans le cadre d’un pipeline d’entrée.

Utiliser la bibliothèque spark-tensorflow-connector

Vous pouvez utiliser spark-tensorflow-connector pour enregistrer des DataFrames Apache Spark dans des fichiers TFRecord.

spark-tensorflow-connector est une bibliothèque au sein de l’écosystème TensorFlow qui permet la conversion entre des DataFrames Spark et des TFRecords (un format populaire de stockage de données pour TensorFlow). Avec spark-tensorflow-connector, vous pouvez utiliser des API DataFrames Spark pour lire des fichiers TFRecords dans des DataFrames et écrire des DataFrames sous des TFRecords.

Notes

La bibliothèque spark-tensorflow-connector est comprise dans Databricks Runtime pour Machine Learning. Pour utiliser spark-tensorflow-connector sur les Notes de publication sur les versions et la compatibilité de Databricks Runtime, vous devez installer la bibliothèque à partir de Maven. Pour plus d’informations, consultez le package Maven ou Spark.

Exemple : Charger des données à partir de fichiers TFRecord avec TensorFlow

L'exemple de bloc-notes montre comment enregistrer les données d'Apache Spark DataFrames dans des fichiers TFRecord et charger des fichiers TFRecord pour la formation ML.

Vous pouvez charger les fichiers TFRecord à l’aide de la classe tf.data.TFRecordDataset. Voir [Lecture d'un fichier TFRecord](https://www.tensorflow.org/ tutoriels/load_data/tfrecord#reading_a_tfrecord_file) depuis TensorFlow pour plus de détails.

Préparer les données d'image pour le bloc-notes Distributed DL

Obtenir le notebook