機械学習とディープ ラーニング用のデータの読み込み

このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。 データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。 これは分散型ディープ ラーニングの場合に特に重要です。

Azure Databricks では、Spark とローカル ファイル API の両方を使用してクラスター上のデータにアクセスするための Databricks ファイル システム (DBFS) が提供されています。

表形式データを読み込む

表形式の機械学習データはテーブルまたはファイルから読み込むことができます (例については、CSV ファイルの読み取りと書き込みに関する記事を参照)。 PySpark メソッドtoPandas() を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッドto_numpy() を使用して NumPy 形式に変換できます。

大規模言語モデルを微調整するためのデータを準備する

Hugging Face TransformersHugging Face Datasets を使用して、オープン ソースの大規模言語モデルを微調整するためのデータを準備できます。

Hugging Face モデルを微調整するためのデータを準備する

分散トレーニング用にデータを準備する

このセクションでは、分散トレーニング用のデータを準備するための 2 つの方法である Petastorm および TFRecords について説明します。