順列の特徴量の重要度

与えられたトレーニング済みモデルとテスト データセットに対して特徴変数の順列特徴の重要度スコアを計算します。

カテゴリ: 機能選択モジュール

注意

適用対象: Machine Learning Studio (クラシック)

このコンテンツは、Studio (クラシック) のみに関連しています。 Azure Machine Learning デザイナーに同様のドラッグアンドドロップモジュールが追加されました。 この記事では、2つのバージョンの比較について詳しく説明します。

モジュールの概要

この記事では、Azure Machine Learning Studio (クラシック) の 順列機能の重要度 モジュールを使用して、データセットの特徴の重要度スコアのセットを計算する方法について説明します。 これらのスコアは、モデルで使用する最適な特徴を決定するために使用します。

このモジュールでは、特徴の値は一度に 1 列ずつランダムにシャッフルされ、その前後のモデルのパフォーマンスが測定されます。 提供される標準メトリックの 1 つを選択してパフォーマンスを測定できます。

モジュールから返されるスコアは、順列の後のトレーニング済みモデルのパフォーマンスの 変化 を表しています。 重要な特徴は、通常、シャッフル プロセスの影響を受けやすいため、重要度スコアは高くなります。

この記事では、順列機能の重要度、理論上の特徴、および機械学習におけるアプリケーションの特徴に関する一般的な概要を説明します。 順列機能の重要度

順列の特徴量の重要度の使用方法

特徴スコアのセットを生成するには、テスト データセットだけでなくトレーニング済みのモデルが必要です。

  1. 順列機能の重要度 モジュールを実験に追加します。 このモジュールは、 [Feature Selection]/(特徴選択/) カテゴリにあります。

  2. トレーニング済みのモデルを左側の入力に接続します。 モデルは回帰モデルまたは分類モデルである必要があります。

  3. 右側の入力で、データセットを接続します。可能であれば、モデルのトレーニングに使用されたデータセットとは異なるものを使用します。 このデータセットは、トレーニング済みのモデルに基づくスコアリングと、特徴の値が変更された後のモデルの評価に使用されます。

  4. [Random seed](ランダム シード) には、ランダム化のシードとして使用する値を入力します。 0 (既定値) を指定すると、システム クロックに基づいて数値が生成されます。

    シード値は省略可能ですが、同じ実験の実行間で再現性を向上させるには、値を指定する必要があります。

  5. [Metric for measuring performance]/(パフォーマンスを測定するためのメトリック/) については、順列後にモデルの品質を計算するときに使用する 1 つのメトリックを選択します。

    Azure Machine Learning Studio (クラシック) では、分類モデルと回帰モデルのどちらを評価するかに応じて、次のメトリックがサポートされます。

    • 分類

      精度、正確度、リコール、平均ログ損失

    • Regression (回帰)

      有効桁数、再呼び出し、平均絶対誤差、平方根平均二乗誤差、相対絶対誤差、相対二乗誤差、決定係数

    これらの評価メトリックとその計算方法の詳細については、「 Evaluate」を参照してください。

  6. 実験を実行します。

  7. このモジュールは、特徴列とそれらに関連付けられているスコアの一覧を、スコアの順序に従って降順に出力します。

Azure AI Galleryの次のサンプル実験を参照してください。

テクニカル ノート

このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が提供されています。

これは他の特徴選択方式とどのように比較されるのでしょうか。

順列の特徴量の重要度は、各特徴列の値を一度に 1 列ずつランダムに変更し、モデルを評価することによって機能します。

順列の特徴量の重要度によって提供される順位付けは、モデルの作成 前に スコアを計算する フィルターに基づく特徴選択から得られるものとは異なることがよくあります。

これは、順列の特徴量の重要度では、特徴量と目標値の間の関連付けが測定されず、モデルからの予測に対して各機能がどの程度の影響を与えるかをキャプチャするためです。

想定される入力

名前 Type 説明
トレーニングされたモデル ILearner インターフェイス トレーニング済みの分類または回帰モデル
テスト データ データ テーブル 特徴値の順列後のモデルのスコア付けと評価のためのテスト データセット

モジュールのパラメーター

名前 Type Range 省略可能 Default 説明
Random seed (ランダム シード) Integer >=0 必須 0 乱数ジェネレーター シード値
パフォーマンスを測定するためのメトリック EvaluationMetricType リストから選択 必須 分類 - 精度 順列後のモデルの可変性を評価するときに使用するメトリックを選択します

出力

名前 Type 説明
特徴の重要度 データ テーブル 選択したメトリックに基づいて特徴の重要度結果を含むデータセット

例外

例外 説明
エラー 0062 学習器の種類が異なる 2 つのモデルを比較しようとすると、例外が発生します。
エラー 0024 データセットにラベル列が含まれていない場合、例外が発生します。
エラー 0105 モジュール定義ファイルによりサポートされないパラメーター タイプが定義されるときにスローされます
エラー 0021 モジュールに渡された一部のデータセットの行の数が少なすぎる場合、例外が発生します。

関連項目

機能の選択
フィルターに基づく特徴の選択
主成分分析を参照してください