Apache Spark DataFrames 名前を TFRecord ファイルに保存して、保存されたフローで読み込みますSave Apache Spark DataFrames to TFRecord files and load with TensorFlow

TFRecord ファイル形式は、ML トレーニングデータ用の単純なレコード指向バイナリ形式です。The TFRecord file format is a simple record-oriented binary format for ML training data. Tf. data. TFRecordDatasetクラスを使用すると、入力パイプラインの一部として1つ以上の tfrecord ファイルの内容をストリームできます。The tf.data.TFRecordDataset class enables you to stream over the contents of one or more TFRecord files as part of an input pipeline.


このガイドは、データのインポートに関する包括的なガイドではありません。This guide is not a comprehensive guide on importing data with TensorFlow. 「Azure azure API ガイド」を参照してください。See the TensorFlow API Guide.

Apache Spark dataframes tfrecord ファイルに保存する Save Apache Spark DataFrames to TFRecord files

Spark-の並べ替えを使用して、Apache Spark Dataframes tfrecord ファイルに保存できます。You can use spark-tensorflow-connector to save Apache Spark DataFrames to TFRecord files.

sparkは、このライブラリを使用して、Spark Dataframes tfrecordsの間の変換を可能にします (これは、一般に、保存のためにデータを格納するための一般的な形式です)。spark-tensorflow-connector is a library within the TensorFlow ecosystem that enables conversion between Spark DataFrames and TFRecords (a popular format for storing data for TensorFlow). Spark データフレーム Api を使用すると、Spark の "Api" Api を使用して、TFRecords ファイルを Dataframes に読み取り、TFRecords として書き込むことができます。With spark-tensorflow-connector, you can use Spark DataFrame APIs to read TFRecords files into DataFrames and write DataFrames as TFRecords.


Spark による転送のフローコネクタライブラリは、機械学習とデータサイエンス用の準備が整った環境を提供する machine learning ランタイムである、 Machine Learning の Databricks Runtimeに含まれています。The spark-tensorflow-connector library is included in Databricks Runtime for Machine Learning, a machine learning runtime that provides a ready-to-go environment for machine learning and data science. 次の手順に従ってライブラリをインストールするのではなく、 Machine Learning の Databricks Runtimeを使用してクラスターを簡単に作成できます。Instead of installing the library using the following instructions, you can simply create a cluster using Databricks Runtime for Machine Learning. Databricks Runtimeで spark を使用するには、Maven からライブラリをインストールする必要があります。To use spark-tensorflow-connector on Databricks Runtime, you need to install the library from Maven. 詳細については、「 Maven または Spark パッケージ 」を参照してください。See Maven or Spark package for details.

すべてのデータを TFRecord ファイルから読み込みます。Load data from TFRecord Files with TensorFlow

クラスを使用して、TFRecord ファイルを読み込むことができ tf.data.TFRecordDataset ます。You can load the TFRecord files using the tf.data.TFRecordDataset class. 詳細については、「azure での TFRecord ファイルの読み取り 」を参照してください。See Reading a TFRecord file from TensorFlow for details.

次の notebook の例では、Apache Spark DataFrames データを TFRecord ファイルに保存し、ML トレーニング用の TFRecord ファイルを読み込む方法を示します。The following example notebook demonstrates how to save data from Apache Spark DataFrames to TFRecord files and load TFRecord files for ML training.

分散型 DL のイメージデータを準備するPrepare image data for Distributed DL

ノートブックを入手Get notebook