Сохранение кадров данных Apache Spark в виде файлов TFRecord

В этой статье показано, как использовать соединитель spark-tensorflow-connector для сохранения кадров данных Apache Spark в файлы TFRecord и загрузки TFRecord с TensorFlow.

Формат файла TFRecord — это простой, ориентированный на записи двоичный формат для данных Машинного обучения. Класс tf.data.TFRecordDataset позволяет выполнять потоковую передачу содержимого одного или нескольких файлов TFRecord в составе входного конвейера.

Использование spark-tensorflow-connector библиотеки

Вы можете использовать соединитель spark-tensorflow-connector для сохранения Apache Spark DataFrames в файлах TFRecord.

spark-tensorflow-connector— это библиотека в экосистеме TensorFlow, которая обеспечивает преобразование между кадрами данных Spark и TFRecords (популярным форматом хранения данных для TensorFlow). С помощью соединителя spark-tensorflow-connector можно использовать API-интерфейсы Spark DataFrame для чтения файлов TFRecords в DataFrames и записи DataFrames как TFRecords.

Примечание.

Библиотека spark-tensorflow-connector включена в Databricks Runtime для Машинное обучение. Чтобы использовать spark-tensorflow-connectorпримечания о выпуске Databricks Runtime версии и совместимость, необходимо установить библиотеку из Maven. Дополнительные сведения см. в разделе Пакет Maven или Spark.

Пример. Загрузка данных из файлов TFRecord с помощью TensorFlow

В примере записной книжки показано, как сохранять данные из Кадров данных Apache Spark в файлы TFRecord и загружать файлы TFRecord для обучения машинного обучения.

Файлы TFRecord можно загрузить с помощью класса tf.data.TFRecordDataset. Дополнительные сведения см. в статье [Чтение файла TFRecord](https://www.tensorflow.org/ учебники/load_data/tfrecord#reading_a_tfrecord_file) из TensorFlow.

Подготовка данных изображения для распределенной записной книжки DL

Получить записную книжку