データ形式の変換

注意

適用対象: Machine Learning Studio (クラシック)

このコンテンツは、Studio (クラシック) のみに関連しています。 Azure Machine Learning デザイナーに同様のドラッグアンドドロップモジュールが追加されました。 この記事では、2つのバージョンの比較について詳しく説明します。

この記事では、Machine Learning で使用されるさまざまなファイル形式間でデータを変換するために Azure Machine Learning Studio (クラシック) に用意されているモジュールの一覧を示します。

サポートされている形式は次のとおりです。

  • Azure Machine Learning 全体で使用される データセット 形式。
  • Wekaによって使用される arff 形式。 Weka は、オープンソースの Java ベースの機械学習アルゴリズムのセットです。
  • Svmlight 形式。 SVMLight 形式は、machine learning 用の svmlight フレームワーク用に開発されました。 Vowpal Wabbit でも使用できます。
  • ほとんどのリレーショナルデータベースでサポートされている、 タブ区切り (TSV) および コンマ区切り (csv) のフラットファイル形式。 これらの形式は、R および Python でも広くサポートされています。

これらの形式にデータを変換すると、さまざまな機械学習フレームワークまたはストレージメカニズム間で結果とデータをより簡単に移動できます。

注意

これらのデータ変換モジュールは、完全なデータセットのみを指定された形式に変換します。 キャスト、切り捨て、日付/時刻形式の変換、またはその他の値の操作を行う必要がある場合は、 データ変換でモジュールを使用するか、 関連するタスクの一覧を参照してください。

一般的なデータ変換のシナリオ

通常、データ変換モジュールは、Azure Machine Learning 実験から別の機械学習ツールまたはプラットフォームにデータを移動する必要がある場合に使用します。 また、モジュールを使用して、データベースやその他のツールで使用できる形式で Machine Learning からデータをエクスポートすることもできます。 次に例を示します。

タスク プロパティ
Excel で使用したり、データベースにインポートしたりするには、中間データセットを保存する必要があります。 CSVモジュールまたはTSVモジュールを使用して、正しい形式でデータを準備します。 次に、データをダウンロードするか、Azure Storage に保存します。
実験のデータを R または Python コードで再利用する必要がある。 CSVモジュールまたはTSVモジュールを使用してデータを準備します。 次に、変換されたデータセットを右クリックして、データセットにアクセスするために必要な Python コードを取得します。
Weka と Azure Machine Learning 間で実験とデータを移植しています。 Arffモジュールを使用してデータを準備します。 次に、結果をダウンロードします。
SVMlight フレームワークでデータを準備する必要があります。 SVMLight への変換モジュールを使用して、データを準備します。 次に、結果のデータをダウンロードします。
Vowpal Wabbit と共に使用するデータを作成します。 Svmlight形式を使用します。 次に、この記事で説明されているように、ファイルを変更します。 Azure Machine Learning の Vowpal Wabbit モジュールで使用するために、Azure Blob ストレージにファイルを保存します。
データが表形式ではありません。 データセットへの変換モジュールを使用してデータセット形式に変換します。

データを Azure Machine Learning にインポートしたり、個々の列のデータを変換したりする必要がある場合は、データ変換を実行する前に次のモジュールを使用します。

タスク プロパティ
コンピューターから Azure Machine Learning にデータをインポートします。 トレーニングデータを Azure Machine Learning Studio にインポートする (クラシック)」の説明に従って、データセットを CSV 形式でアップロードします。
Hadoop または Azure を含むクラウドデータソースからデータをインポートします。 データの インポート モジュールを使用します。
Machine learning データセットを Azure Blob storage、Hadoop クラスター、またはその他のクラウドベースのストレージに保存します。 データの エクスポート モジュールを使用します。
列のデータ型を変更するか、列を別の形式または型にキャストしてください。 Azure Machine Learning では、[ メタデータの編集 ] または [ SQL 変換の適用 ] モジュールを使用します。 R または Python に習熟している場合は、 Python スクリプトの実行 または r スクリプトの実行 モジュールを試してください。
数値データを丸め、グループ化、または正規化します。 算術演算の適用ビンへのデータのグループ化、またはデータの正規化モジュールを使用します。

モジュールの一覧

[ データ形式変換 ] カテゴリには、次のモジュールが含まれています。

  • ARFF への変換: weka ツールセットで使用される属性リレーションシップファイル形式にデータ入力を変換します。
  • CSV に変換: データセットをコンマ区切り値形式に変換します。
  • データセットへの変換: データ入力を Azure Machine Learning によって使用される内部データセット形式に変換します。
  • Svmlight に変換: データ入力を svmlight フレームワークによって使用される形式に変換します。
  • TSV への変換: データ入力をタブ区切り形式に変換します。

関連項目