Salve o Apache Spark DataFrames como arquivos TFRecord

Este artigo mostra como usar o spark-tensorflow-connector para salvar o Apache Spark DataFrames em arquivos TFRecord e carregar o TFRecord com o TensorFlow.

O formato de arquivo TFRecord é um formato binário simples orientado a registros para dados de treinamento de ML. A classe tf.data.TFRecordDataset permite que você transmita o conteúdo de um ou mais arquivos TFRecord como parte de um pipeline de entrada.

Usar spark-tensorflow-connector biblioteca

Você pode usar spark-tensorflow-connector para salvar o Apache Spark DataFrames em arquivos TFRecord.

spark-tensorflow-connectoré uma biblioteca dentro do ecossistema TensorFlow que permite a conversão entre Spark DataFrames e TFRecords (um formato popular para armazenar dados para o TensorFlow). Com spark-tensorflow-connector, você pode usar APIs do Spark DataFrame para ler arquivos TFRecords em DataFrames e gravar DataFrames como TFRecords.

Nota

A spark-tensorflow-connector biblioteca está incluída no Databricks Runtime for Machine Learning. Para usar spark-tensorflow-connector as versões e a compatibilidade das notas de versão do Databricks Runtime, você precisa instalar a biblioteca do Maven. Consulte o pacote Maven ou Spark para obter detalhes.

Exemplo: Carregar dados de arquivos TFRecord com o TensorFlow

O bloco de anotações de exemplo demonstra como salvar dados do Apache Spark DataFrames em arquivos TFRecord e carregar arquivos TFRecord para treinamento de ML.

Você pode carregar os arquivos TFRecord usando a tf.data.TFRecordDataset classe. Consulte [Reading a TFRecord file](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) do TensorFlow para obter detalhes.

Preparar dados de imagem para o bloco de anotações DL distribuído

Obter o bloco de notas