データの集計

データセット内の列について基本的な記述統計量のレポートを生成します

Category: 統計関数

注意

適用対象: Machine Learning Studio (クラシック)

このコンテンツは、Studio (クラシック) のみに関連しています。 Azure Machine Learning デザイナーに同様のドラッグアンドドロップモジュールが追加されました。 この記事では、2つのバージョンの比較について詳しく説明します。

モジュールの概要

この記事では、Azure Machine Learning Studio (クラシック) の [ データの集計 ] モジュールを使用して、入力テーブル内の各列を記述する一連の標準統計メジャーを作成する方法について説明します。

このような概要統計は、完全なデータセットの特性を理解するのに役立ちます。 たとえば、次のことを知る必要がある場合があります。

  • 各列で欠落している値の数はいくつあるか。
  • 特徴列にある一意の値の数はいくつか。
  • 各列の平均偏差と標準偏差はいくつか。

このモジュールは、各列の重要なスコアを計算し、入力として提供された各変数 (データ列) の要約統計の行を返します。

ヒント

Studio (クラシック) の [ 視覚化 ] オプションを使用して、統計の簡単な一覧を取得できることを既に理解している場合があります。 ただし、この視覚化は、いくつかの上位の行に基づいて作成されます。 これに対して、 データの要約 モジュールは、すべてのデータ行の統計を計算します。

データの集計を使用する方法

  1. データの 要約 モジュールを実験に追加します。 このモジュールは、Studio (クラシック) の [ 統計関数 ] カテゴリで見つけることができます。

  2. レポートを生成する対象のデータセットを接続します。

    一部の列のみに関するレポートを作成する場合は、Select Columns in Dataset (データセット内の列の選択) モジュールを使用して、使用する列のサブセットを指定します。

  3. 追加のパラメーターは必要ありません。 既定では、モジュールは入力として指定されたすべての列を分析し、列内の値の型に応じて、「結果」セクションで説明されているように、関連する統計のセットを出力します。

  4. 実験を実行するか、モジュールを右クリックして、[ 選択した ものを実行] を選択します。

結果

モジュールからのレポートには、次の統計情報を含めることができます。

  • 生成される正確な統計は、列のデータ型によって異なります。 詳細については、「 テクニカルノート 」を参照してください。

  • インスタンスが母集団の代表的なサンプルに属していることが前提となります。 作成時の統計を計算する必要がある場合は、Compute statistics ( 基本的 な統計) モジュールのオプションを使用します。これにより、サンプルまたは母集団の統計を計算できます。

列名 説明
機能 列の名前
Count すべての行の数
Unique Value Count (一意の値の数) 列内の一意の値の数
Missing Value Count (欠損値の数) 列内の一意の値の数
Min (最小値) 列内の最小値
Max (最大値) 列内の最大値
Mean (平均値) すべての列値の平均値
Mean Deviation (平均偏差) 列値の平均偏差
1st Quartile (第 1 四分位数) 第 1 四分位数の値
中央値 中央の列値
3rd Quartile (第 3 四分位数) 第 3 四分位数の値
モード 列値のモード
Range 最大値と最小値の間の値の数を表す整数
Sample Variance (サンプル分散) 列の分散。注を参照。
Sample Standard Deviation (サンプル標準偏差) 列の標準偏差。注を参照。
Sample Skewness (サンプル歪度) 列の歪度。注を参照。
Sample Kurtosis (サンプル尖度) 列の尖度。注を参照。
P0.5 0.5% パーセンタイル
P1 1% パーセンタイル
P5 5% パーセンタイル
P95 95% パーセンタイル
P99.5 99.5% パーセンタイル

ヒント

統計レポートを表形式のデータセットとして出力します。これにより、BI レポートツールでデータを使用したり、実験で別の操作への入力として値を使用したりできます。

実験で データの要約 モジュールを使用する方法の例については、 Azure AI Galleryを参照してください。

テクニカルノート

  • 数値およびブール型の列の場合は、平均、中央値、モード、および標準偏差を出力できます。

  • 数値以外の列では、一意の値の数、および 欠損値の数 の値のみが計算されます。 他の統計では、null 値が返されます。

  • ブール値を含む列は、これらのルールを使用して処理されます。

    • 最小 の計算時には論理 AND が適用されます。

    • Max を計算する場合は、論理 or が適用されます。

    • 範囲 の計算時、モジュールはまず、列の一意の値の数が 2 と等しいかどうかを確認します。

    • 浮動小数点演算が必要なすべての統計の計算時には、True の値が 1.0、False の値が 0.0 として扱われます。

想定される入力

名前 Type 説明
データセット データ テーブル 入力データセット

出力

名前 Type 説明
結果のデータセット データ テーブル 記述統計を含む入力データセットのプロファイル

例外

例外 説明
エラー 0003 1 つ以上の入力が null または空の場合に、例外が発生します。
エラー 0020 モジュールに渡された一部のデータセットの列数が少なすぎる場合に、例外が発生します。
エラー 0021 モジュールに渡された一部のデータセットの行数が少なすぎる場合に、例外が発生します。

Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。

API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。

関連項目

統計関数
基本統計のコンピューティング