Guardado de DataFrames de Apache Spark como archivos TFRecord

Este artículo muestra cómo usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos con TensorFlow.

El formato de archivo TFRecord es un formato binario sencillo orientado a registros para datos de entrenamiento de ML. La clase tf.data.TFRecordDataset permite transmitir el contenido de uno o varios archivos TFRecord como parte de una canalización de entrada.

Usar biblioteca spark-tensorflow-connector

Puede usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord.

spark-tensorflow-connector es una biblioteca del ecosistema de TensorFlow que permite la conversión entre DataFrames de Spark y archivos TFRecord (un formato popular de almacenamiento de datos para TensorFlow). Con spark-tensorflow-connector, puede usar DataFrame API de Spark para leer archivos TFRecord en DataFrames y escribir DataFrames como archivos TFRecord.

Nota:

La biblioteca spark-tensorflow-connector está incluida en Databricks Runtime para Machine Learning. Para usar spark-tensorflow-connector en Versiones y compatibilidad de las notas de la versión de Databricks Runtime, debe instalar la biblioteca desde Maven. Consulte Paquete de Maven o Spark para obtener más información.

Ejemplo: carga de datos desde archivos TFRecord con TensorFlow

En el cuaderno de ejemplo se muestra cómo guardar datos de DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos para el entrenamiento de ML.

Puede cargar los archivos TFRecord mediante la clase tf.data.TFRecordDataset. Consulte [Lectura de un archivo TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) de TensorFlow para obtener más información.

Preparar los datos de imagen para el cuaderno de DL distribuido

Obtener el cuaderno