機械学習とディープラーニング用のデータの読み込み

[アーティクル]
03/01/2024

このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。これは分散型ディープラーニングの場合に特に重要です。

Azure Databricks では、Spark とローカルファイル API の両方を使用してクラスター上のデータにアクセスするための Databricks ファイルシステム (DBFS) が提供されています。

表形式データを読み込む

表形式の機械学習データはテーブルまたはファイルから読み込むことができます (例については、CSV ファイルの読み取りと書き込みに関する記事を参照)。 PySpark メソッドtoPandas() を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッドto_numpy() を使用して NumPy 形式に変換できます。

大規模言語モデルを微調整するためのデータを準備する

Hugging Face Transformers と Hugging Face Datasets を使用して、オープンソースの大規模言語モデルを微調整するためのデータを準備できます。

Hugging Face モデルを微調整するためのデータを準備する

分散トレーニング用にデータを準備する

このセクションでは、分散トレーニング用のデータを準備するための 2 つの方法である Petastorm および TFRecords について説明します。

分散トレーニング用にデータを準備する
- Petastorm (推奨)
- TFRecord

機械学習とディープ ラーニング用のデータの読み込み

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

表形式データを読み込む

大規模言語モデルを微調整するためのデータを準備する

分散トレーニング用にデータを準備する

その他のリソース

機械学習とディープラーニング用のデータの読み込み