カウント テーブル パラメーターの変更

カウントから機能を作成するために使用するパラメーターを変更します

カテゴリ: カウントを使用した学習

注意

適用対象: Machine Learning Studio (クラシック)

このコンテンツは、Studio (クラシック) のみに関連しています。 Azure Machine Learning デザイナーに同様のドラッグアンドドロップモジュールが追加されました。 この記事では、2つのバージョンの比較について詳しく説明します。

モジュールの概要

この記事では、Azure Machine Learning Studio (クラシック) の カウントテーブルパラメーターの変更 モジュールを使用して、カウントテーブルからの機能の生成方法を変更する方法について説明します。

一般に、カウントベースの特徴を作成するには、 ビルドカウント変換 を使用してデータセットを処理し、カウントテーブルを作成します。そのカウントテーブルから、新しい機能セットを生成します。

ただし、カウントテーブルを既に作成している場合は、カウント テーブルパラメーターの変更 モジュールを使用して、カウントデータの処理方法の定義を編集できます。 これにより、データセットを再分析しなくても、既存のデータに基づいて異なるカウントベースの統計を作成できます。

Modify Count パラメーターを構成する方法

  1. 変更する変換を [ 変換 ] グループで探し、実験に追加します。

    カウント変換を作成した実験を以前に実行している必要があります。

    • 保存した変換を変更するに は、 [変換] グループで 変換を見つけて、実験に追加します。

    • 同じ実験内で作成されたカウント変換を変更するに は: 変換が保存されていないが、現在の実験で出力として使用できる (たとえば、 ビルドカウント変換 モジュールの出力を確認する) 場合は、モジュールを接続して直接使用できます。

  2. カウントテーブルパラメーターの変更 モジュールを追加し、変換を入力として接続します。

  3. カウントテーブルパラメーターの変更 モジュールの プロパティ ペインで、ガベージビンのしきい 値として使用する値を入力します。

    この値は、各機能の値が使用されるために必要な最小出現回数を指定します。 値の頻度がガベージビンのしきい値未満の場合、値とラベルのペアは不連続項目としてカウントされません。代わりに、しきい値よりも小さいカウントを持つすべての項目は、単一の "ガベージビン" に配置されます。

    小さなデータセットを使用していて、同じデータに対してカウントとトレーニングを行っている場合は、開始値として1を使用することをお勧めします。

  4. 前の擬似的な例 については、追加する擬似例の数を示す数値を入力します。 これらの例を提供する必要はありません。擬似的な例は、前のディストリビューションに基づいて生成されます。

  5. [ Laを 使用したノイズスケール] で、laの分布からサンプリングされたノイズの導入に使用されるスケールを表す正の浮動小数点値を入力します。 スケール値を設定すると、許容可能なノイズレベルがモデルに組み込まれます。そのため、データの見えない値によってモデルが影響を受ける可能性は低くなります。

  6. [ 出力機能] には、変換に含めるカウントベースの特徴を作成するときに使用する方法を選択します。

    • CountsOnly: カウントを使用して特徴を作成します。

    • LogOddsOnly: 確率比率のログを使用して特徴を作成します。

    • BothCountsAndLogOdds: カウントとログの記録を両方とも使用して機能を作成します。

  7. 機能の作成時に出力のフラグを上書きする場合は、[ バックオフ列を無視 する] オプションを選択し IsBackOff ます。 このオプションを選択すると、列に有意なカウント値がない場合でも、カウントベースの特徴が作成されます。

  8. 実験を実行します。 その後、必要に応じて、 Modify Count テーブルパラメーター の出力を新しい変換として保存できます。

このモジュールの例については、 Azure AI Galleryを参照してください。

  • カウントを使用した学習:二項分類: カウントの学習モジュールを使用して、二項分類モデルのカテゴリ値の列から特徴を生成する方法を示します。

  • カウントを使用した学習: NYC タクシーデータを使用した多クラスの分類: サンプルでは、一般公開されている NYC タクシーデータセットで多クラス分類を実行するために、カウントの学習モジュールを使用する方法を示します。 このサンプルでは、多クラスロジスティック回帰学習器を使用して、この問題をモデル化します。

  • カウントを使用した学習: NYC タクシーデータを使用した二項分類: 一般公開されている NYC タクシーデータセットで二項分類を実行するために、カウントの学習モジュールを使用する方法を示します。 このサンプルでは、2クラスのロジスティック回帰学習器を使用して、この問題をモデル化します。

テクニカル ノート

このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。

ラプラス ノイズ スケール パラメーターを設定すると、同じデータ セットでのカウントおよびトレーニングが統計的に言って安全に実行できます。

想定される入力

名前 Type 説明
カウント (変換を) ITransform インターフェイス 適用するカウント変換

モジュールのパラメーター

名前 Type Range 省略可能 Default 説明
ガベージ ビンのしきい値 Float >=0.0f 必須 10.0 f 列の値がガベージビンに対して特徴付けされるしきい値
追加の先行する擬似例 Float >=0.0f 必須 42.0 f 前の配布に続く擬似的な例を含める
ラプラス ノイズ スケール Float >=0.0f 必須 0.0f ノイズがサンプリングされる Laの分布のスケール
出力に含まれる特徴 OutputFeatureType 必須 BothCountsAndLogOdds 出力する機能
バック オフ列の無視 Boolean 必須 false 出力の IsBackOff オフ列を無視するかどうか

出力

名前 Type 説明
変更された変換 ITransform インターフェイス 変更された変換

例外

例外 説明
エラー 0003 1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0086 カウント変換が有効ではない場合、例外が発生します。

Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。

API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。

関連項目

カウントを使用した学習