Apache Spark-adatkeretek mentése TFRecord-fájlokba és betöltés a TensorFlow használatával

A TFRecord fájlformátum egy egyszerű rekordorientált bináris formátum ML betanítási adatokhoz. A tf.data.TFRecordDataset osztály lehetővé teszi, hogy egy vagy több TFRecord fájl tartalmát streamelje egy bemeneti folyamat részeként.

Megjegyzés

Ez az útmutató nem egy átfogó útmutató az adatok TensorFlow-val történő importálásához. Tekintse meg a TensorFlow API-útmutatót.

Apache Spark-adatkeretek mentése TFRecord-fájlokba

A spark-tensorflow-connector használatával apache Spark-adatkereteket menthet TFRecord fájlokba.

A spark-tensorflow-connector egy kódtár a TensorFlow ökoszisztémájában, amely lehetővé teszi a Spark-adatkeretek és a TFRecords közötti átalakítást (ez egy népszerű formátum a TensorFlow adatainak tárolására). A Spark-tensorflow-connector használatával a Spark DataFrame API-kkal beolvashatja a TFRecords-fájlokat a DataFrame-be, és adatkereteket írhat TFRecord-ként.

Megjegyzés

A Spark-tensorflow-connector kódtár a Databricks Runtime for Machine Learning része, amely egy gépi tanulási futtatókörnyezet, amely használatra kész környezetet biztosít a gépi tanuláshoz és az adatelemzéshez. A kódtár az alábbi utasítások alapján történő telepítése helyett egyszerűen létrehozhat egy fürtöt a Databricks Runtime for Machine Learning használatával. A Spark-tensorflow-connector Databricks Runtime-on való használatához telepítenie kell a kódtárat a Mavenből. Részletekért lásd a Maven- vagy Spark-csomagot .

Adatok betöltése TFRecord fájlokból a TensorFlow használatával

A TFRecord fájlokat az osztály használatával töltheti tf.data.TFRecordDataset be. A részleteket a TensorFlow-ból származó TFRecord fájl olvasása című témakörben találja.

Az alábbi példajegyzetfüzet bemutatja, hogyan menthet adatokat apache Spark-adatkeretekből TFRecord-fájlokba, és hogyan tölthet be TFRecord fájlokat ML betanításhoz.

Rendszerképadatok előkészítése elosztott DL-hez

Jegyzetfüzet beszerzése