データ形式の変換

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

この記事では、Machine Learning で使用されるさまざまなファイル形式間でデータを変換するために Machine Learning Studio (クラシック) で提供されているモジュールの一覧を示します。

サポートされている形式は次のとおりです。

  • Machine Learning 全体で使用されるデータセット形式。
  • Wekaによって使用されるarff形式。 Weka は、オープンソースの Java ベースの機械学習アルゴリズムのセットです。
  • Svmlight形式。 SVMLight 形式は、machine learning 用の svmlight フレームワーク用に開発されました。 Vowpal Wabbit でも使用できます。
  • ほとんどのリレーショナルデータベースでサポートされている、 タブ区切り (TSV) および コンマ区切り (csv) のフラットファイル形式。 これらの形式は、R および Python でも広くサポートされています。

これらの形式にデータを変換すると、さまざまな機械学習フレームワークまたはストレージメカニズム間で結果とデータをより簡単に移動できます。

注意

これらのデータ変換モジュールは、完全なデータセットのみを指定された形式に変換します。 キャスト、切り捨て、日付/時刻形式の変換、またはその他の値の操作を行う必要がある場合は、 データ変換でモジュールを使用するか、 関連するタスクの一覧を参照してください。

一般的なデータ変換のシナリオ

通常、データ変換モジュールは、Machine Learning 実験から別の機械学習ツールまたはプラットフォームにデータを移動する必要がある場合に使用します。 また、モジュールを使用して、データベースやその他のツールで使用できる形式で Machine Learning からデータをエクスポートすることもできます。 次に例を示します。

タスク プロパティ
Excel で使用する中間データセットを保存するか、データベースにインポートする必要があります。 CSVモジュールまたはTSVモジュールを使用して、正しい形式でデータを準備します。 次に、データをダウンロードするか、Azure Storage に保存します。
実験のデータを R または Python コードで再利用する必要がある。 CSVモジュールまたはTSVモジュールを使用してデータを準備します。 次に、変換されたデータセットを右クリックして、データセットにアクセスするために必要な Python コードを取得します。
Weka と Machine Learning 間で実験とデータを移植しています。 Arffモジュールを使用してデータを準備します。 次に、結果をダウンロードします。
SVMlight フレームワークでデータを準備する必要があります。 SVMLight への変換モジュールを使用して、データを準備します。 次に、結果のデータをダウンロードします。
Vowpal Wabbit と共に使用するデータを作成します。 Svmlight形式を使用します。 次に、この記事で説明されているように、ファイルを変更します。 Machine Learning の Vowpal Wabbit モジュールで使用するために、Azure Blob ストレージにファイルを保存します。
データが表形式ではありません。 データセットへの変換モジュールを使用してデータセット形式に変換します。

データを Machine Learning にインポートしたり、個々の列のデータを変換したりする必要がある場合は、データ変換を実行する前に次のモジュールを使用します。

タスク プロパティ
コンピューターから Machine Learning にデータをインポートします。 トレーニングデータを Machine Learning Studio にインポートする (クラシック)」で説明されているように、CSV 形式のデータセットをアップロードします。
Hadoop または Azure を含むクラウドデータソースからデータをインポートします。 データの インポート モジュールを使用します。
Machine learning データセットを Azure Blob storage、Hadoop クラスター、またはその他のクラウドベースのストレージに保存します。 データの エクスポート モジュールを使用します。
列のデータ型を変更するか、列を別の形式または型にキャストしてください。 Machine Learning では、[メタデータの編集] または [ SQL の適用] 変換モジュールを使用します。 R または Python に習熟している場合は、 Python スクリプトの実行 または r スクリプトの実行 モジュールを試してください。
数値データを丸め、グループ化、または正規化します。 算術演算の適用ビンへのデータのグループ化、またはデータの正規化モジュールを使用します。

モジュールの一覧

[ データ形式変換 ] カテゴリには、次のモジュールが含まれています。

  • ARFF への変換: weka ツールセットで使用される属性リレーションシップファイル形式にデータ入力を変換します。
  • CSV に変換: データセットをコンマ区切り値形式に変換します。
  • データセットへの変換: データ入力を Machine Learning によって使用される内部データセット形式に変換します。
  • Svmlight に変換: データ入力を svmlight フレームワークによって使用される形式に変換します。
  • TSV への変換: データ入力をタブ区切り形式に変換します。

こちらもご覧ください