Guardado de DataFrames de Apache Spark como archivos TFRecord

Artículo
03/01/2024

Este artículo muestra cómo usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos con TensorFlow.

El formato de archivo TFRecord es un formato binario sencillo orientado a registros para datos de entrenamiento de ML. La clase tf.data.TFRecordDataset permite transmitir el contenido de uno o varios archivos TFRecord como parte de una canalización de entrada.

Usar biblioteca `spark-tensorflow-connector`

Puede usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord.

spark-tensorflow-connector es una biblioteca del ecosistema de TensorFlow que permite la conversión entre DataFrames de Spark y archivos TFRecord (un formato popular de almacenamiento de datos para TensorFlow). Con spark-tensorflow-connector, puede usar DataFrame API de Spark para leer archivos TFRecord en DataFrames y escribir DataFrames como archivos TFRecord.

Nota:

La biblioteca spark-tensorflow-connector está incluida en Databricks Runtime para Machine Learning. Para usar spark-tensorflow-connector en Versiones y compatibilidad de las notas de la versión de Databricks Runtime, debe instalar la biblioteca desde Maven. Consulte Paquete de Maven o Spark para obtener más información.

Ejemplo: carga de datos desde archivos TFRecord con TensorFlow

En el cuaderno de ejemplo se muestra cómo guardar datos de DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos para el entrenamiento de ML.

Puede cargar los archivos TFRecord mediante la clase tf.data.TFRecordDataset. Consulte [Lectura de un archivo TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) de TensorFlow para obtener más información.

Preparar los datos de imagen para el cuaderno de DL distribuido

Obtener el cuaderno

Guardado de DataFrames de Apache Spark como archivos TFRecord

Usar biblioteca spark-tensorflow-connector

Ejemplo: carga de datos desde archivos TFRecord con TensorFlow

Preparar los datos de imagen para el cuaderno de DL distribuido

Recursos adicionales

Usar biblioteca `spark-tensorflow-connector`