カウント変換のマージ

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

カウント テーブルに基づく特徴セットを作成します

カテゴリ: ラーニング Counts

注意

適用対象: Machine Learning Studio (クラシック) のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では、Machine Learning Studio (クラシック) のマージ カウント変換モジュールを使用して、カウントベースの機能の 2 つのセットを組み合わせる方法について説明します。 2 つの関連するカウントと特徴のセットをマージすることで、機能のカバレッジと分布を改善できる可能性があります。

ラーニングから取得する機能は、カーディナリティ機能が高い大規模なデータ セットで特に役立ちます。 データセットを再処理することなく、複数のデータセットをカウント ベースの特徴セットに結合する機能により、非常に大きなデータセットに関する統計を収集し、新しいデータセットに適用しやすくなります。 たとえば、カウント テーブルを使用して、テラバイト単位のデータに関する情報を収集できます。 これらの統計を再使用して、小規模なデータ セットの予測モデルの精度を向上できます。

カウントベースの特徴の 2 つのセットをマージするには、同じスキーマを持つテーブルを使用して特徴を作成する必要があります。つまり、両方のセットで同じ列を使用し、同じ名前とデータ型を持つ必要があります。

マージ カウント変換を構成する方法

  1. マージ カウント 変換を使用するには、少なくとも 1 つのカウントベースの変換を作成し、その変換をワークスペースに存在する必要があります。 別の実験からカウントベースの変換を保存した場合は、[変換] グループ を確認 します。 現在の実験で変換を作成した場合は、次のモジュールの出力を接続します。

    • ビルドカウント変換。 ソース データから新しいカウントベースの変換を作成します。

    • Count Table パラメーターを変更します。 既存のカウント変換を入力として受け取り、更新された変換を出力します。

    • カウント テーブルのインポート。 このモジュールでは、カウントベースの学習を使用した古い実験との下位互換性がサポートされています。 Import Count Table を使用してデータセット内の値の分布を分析し、非推奨の Count Featurizer モジュールを使用して値を特徴に変換した場合は、カウント テーブルのインポートを使用して結果を変換します。

  2. マージ カウント 変換モジュールを 実験に追加し、変換を各入力に接続します。

    ヒント

    2 番目の変換は省略可能な入力です。同じ変換を 2 回接続するか、2 番目の入力ポートで何も接続しません。

  3. 2 番目のデータセットを最初のデータセットと等しく重み付けしない場合は、Decay 係数の値 を指定します。 入力する値は、2 番目の変換の特徴のセットを重み付けする方法を示します。

    たとえば、既定値の 1 では、両方の特徴セットが均等に重み付けされます。 値が .5 の場合は、2 番目のセットの特徴の重みの半分が最初のセットの重みになります。

  4. 必要に応じて、変換の適用モジュールのインスタンス 追加し、変換をデータセットに適用します。

このモジュールの使用例については、次のAzure AI Gallery。

  • ラーニングカウントを使用する: 二項分類: カウント モジュールで学習を使用して、二項分類モデルのカテゴリ値の列から特徴を生成する方法を示します。

  • ラーニングカウントを使用する: NYC タクシー データを使用した多クラス分類: 一般公開されている NYC タクシー データセットで多クラス分類を実行するために、counts モジュールで学習を使用する方法を示します。 このサンプルでは、多クラスロジスティック回帰学習器を使用してこの問題をモデル化します。

  • ラーニングカウントを使用した分類: NYC タクシー データを使用した二項分類: 一般公開されている NYC タクシー データセットで二項分類を実行するために、counts モジュールで学習を使用する方法を示します。 このサンプルでは、2 クラスのロジスティック回帰学習器を使用して問題をモデル化します。

想定される入力

名前 説明
前のカウント変換 ITransform インターフェイス 編集するカウント変換
新しいカウント変換 ITransform インターフェイス 追加するカウント変換 (省略可能)

モジュールのパラメーター

名前 種類 Range 省略可能 説明 Default
減衰係数 Float 必須 1.0f 右側の入力ポートのカウント変換に乗算する減衰係数

出力

名前 説明
マージされたカウント変換 ITransform インターフェイス マージされた変換

例外

例外 説明
エラー 0003 1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0086 カウント変換が有効ではない場合、例外が発生します。

こちらもご覧ください

カウントを使用した学習