データ変換-操作

この記事では、基本的なデータ操作に使用できる Azure Machine Learning Studio (クラシック) のモジュールについて説明します。

注意

適用対象: Machine Learning Studio (クラシック)

このコンテンツは、Studio (クラシック) のみに関連しています。 Azure Machine Learning デザイナーに同様のドラッグアンドドロップモジュールが追加されました。 この記事では、2つのバージョンの比較について詳しく説明します。

Machine Learning Studio (クラシック) では、正規化や機能の選択など、機械学習に固有のタスクがサポートされています。 このカテゴリのモジュールは、より一般的なタスクを対象としています。

データ操作タスク

このカテゴリのモジュールは、Machine Learning Studio (クラシック) で実行する必要のある主要なデータ管理タスクをサポートすることを目的としています。 次のタスクは、主要なデータ管理タスクの例です。

  • 結合を使用するか、列または行をマージすることによって、2つのデータセットを結合します。
  • データのグループ化に使用する新しいカテゴリを作成します。
  • 列見出しの変更、列のデータ型の変更、または特徴またはラベルとしての列のフラグの設定を行います。
  • 欠損値を確認し、適切な値に置き換えます。
  • サンプリングを実行するか、データセットをトレーニングセットとテストセットに分割する: データ変換-サンプルモジュールと分割 モジュールを使用します。
  • 数値のスケール、データの正規化、または数値のビンへの格納: データ変換 を使用します。
  • 数値データフィールドに対して計算を実行したり、一般的に使用される統計情報を生成したりする: 統計関数のツールを使用します。

使用例

機械学習実験で複雑なデータを操作する方法の例については、 Azure AI Galleryの次のサンプルを参照してください。

  • データの処理と分析: 主要なツールとプロセスを示します。
  • Ast のがんの検出: データセットをパーティション分割し、各パーティションに特別な処理を適用する方法を示します。

このカテゴリのモジュール

データ変換操作 カテゴリには、次のモジュールが含まれています。

  • 列の追加: あるデータセットから別のデータセットに列のセットを追加します。
  • 行の追加: 入力データセットの行セットを別のデータセットの末尾に追加します。
  • SQL 変換の適用: 入力データセットに対して SQLite クエリを実行し、データを変換します。
  • 欠損データのクリーンアップ: データセットに欠けている値の処理方法を指定します。 このモジュールは、非推奨とされている欠損値削除機能を置き換えます。
  • インジケーター値への変換: 列のカテゴリ値をインジケーター値に変換します。
  • メタデータの編集: データセット内の列に関連付けられているメタデータを編集します。
  • カテゴリ値のグループ化: 複数のカテゴリのデータを新しいカテゴリにグループ化します。
  • データの結合: 2 つのデータセットを結合します。
  • 重複する行の削除: データセットから重複する行を削除します。
  • データセット内の列の選択: データセットに含める列、または操作でデータセットから除外する列を選択します。
  • Select Columns Transform: 指定したデータセットと同じ列のサブセットを選択する変換を作成します。
  • SMOTE: 合成された少数派オーバーサンプリングを使用して、データセット内の低インシデントの例の数を増やします。

関連項目