Uložení datových rámců Apache Sparku jako souborů TFRecord

V tomto článku se dozvíte, jak pomocí konektoru spark-tensorflow-connector uložit datové rámce Apache Sparku do souborů TFRecord a načíst TFRecord s TensorFlow.

Formát souboru TFRecord je jednoduchý binární formát orientovaný na záznam pro trénovací data ML. Tf.data.TFRecordDataset třída umožňuje streamovat obsah jednoho nebo více souborů TFRecord jako součást vstupního kanálu.

Použití spark-tensorflow-connector knihovny

Pomocí konektoru spark-tensorflow-connector můžete ukládat datové rámce Apache Sparku do souborů TFRecord.

spark-tensorflow-connectorje knihovna v ekosystému TensorFlow, která umožňuje převod mezi datovými rámci Sparku a TFRecords (oblíbený formát pro ukládání dat pro TensorFlow). Pomocí konektoru spark-tensorflow-connector můžete pomocí rozhraní API datového rámce Sparku číst soubory TFRecords do datových rámců a zapisovat datové rámce jako soubory TFRecords.

Poznámka

Knihovna spark-tensorflow-connector je součástí modulu Databricks Runtime pro machine Učení. Pokud chcete používat spark-tensorflow-connectorpoznámky k verzi Databricks Runtime a jeho kompatibilitu, musíte knihovnu nainstalovat z Mavenu. Podrobnosti najdete v balíčku Maven nebo Spark.

Příklad: Načtení dat ze souborů TFRecord pomocí TensorFlow

Ukázkový poznámkový blok ukazuje, jak uložit data z datových rámců Apache Sparku do souborů TFRecord a načíst soubory TFRecord pro trénování ML.

Soubory TFRecord můžete načíst pomocí tf.data.TFRecordDataset třídy. Podrobnosti najdete v tématu [Čtení souboru TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) z TensorFlow.

Příprava dat image pro distribuovaný poznámkový blok DL

Získat poznámkový blok