分離メソッド (データ マイニング)

適用対象: Azure Analysis Services Power BI Premiumを SQL Server Analysis Servicesする

重要

データ マイニングは、SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で廃止されました。 非推奨および廃止された機能については、ドキュメントは更新されません。 詳細については、 Analysis Services の下位互換性に関するページを参照してください。

SQL Server SQL Server Analysis Servicesでデータ マイニング モデルを作成するために使用される一部のアルゴリズムでは、正しく機能するために特定のコンテンツ タイプが必要です。 たとえば、Microsoft Naive Bayes アルゴリズムでは、入力として連続列を使用できず、連続値を予測できません。 また、一部の列に含まれている値が多すぎるため、データ マイニング モデルの作成元となるデータ内の対象パターンをアルゴリズムで容易に識別できない場合があります。

このような場合、アルゴリズムを使用してマイニング モデルを生成できるように、列内のデータを分離できます。 分離 とは、値をバケットに分割して、限定された数の可能な状態を生成するプロセスです。 バケット自体は、順序付きの不連続の値として処理されます。 数値と文字列の両方の列を分離できます。

データを分離するためのいくつかのメソッドがあります。 データ マイニング ソリューションでリレーショナル データを使用する場合は、 DiscretizationBucketCount property プロパティの値を設定して、データのグループ化に使用するバケットの数を制御できます。 既定のバケット数は 5 です。

データ マイニング ソリューションでオンライン分析処理 (OLAP) キューブのデータを使用する場合、データ マイニング アルゴリズムでは生成するバケットの数が次の式を使用して自動的に計算されます。ここで、n は列のデータの個別の値の数です。

Number of Buckets = sqrt(n)

バケットの数を計算SQL Server Analysis Servicesしない場合は、このプロパティをDiscretizationBucketCount使用してバケットの数を手動で指定できます。

次の表では、SQL Server Analysis Servicesのデータを分離するために使用できるメソッドについて説明します。

分離メソッド 説明
自動 SQL Server Analysis Servicesは、使用する分離方法を決定します。
クラスター このアルゴリズムは、トレーニング データをサンプリングして多数のランダム ポイントに初期化し、Expectation Maximization (EM) クラスター化アルゴリズムを使用して Microsoft クラスタリング アルゴリズムを何度か繰り返し実行することによって、データをグループに分割します。 CLUSTERS メソッドは、どのような分布曲線にも使用できるので便利です。 ただし、その他の分離メソッドよりも処理時間は長くなります。

このメソッドは数値列でのみ使用できます。
EQUAL_AREAS このアルゴリズムは、同数の値が含まれているグループにデータを分割します。 このメソッドは正規分布曲線に最適ですが、連続データの小さなグループに多数の値が含まれている分布の場合は適切に機能しません。 たとえば、品目の半数のコストが 0 である場合、データの半数は曲線の 1 点の下に位置します。 このような分布の場合、このメソッドはデータを分割するときに、複数の領域に均等に分離しようとします。 これにより、データが不適切に表示されます。

注釈

  • EQUAL_AREAS メソッドを使用すると、文字列を分離できます。

  • CLUSTERS メソッドでは、ランダム サンプルとして 1,000 個のレコードを使用してデータの分離が行われます。 アルゴリズムでデータをサンプリングしない場合は、 EQUAL_AREAS メソッドを使用します。

関連項目

コンテンツの種類 (データ マイニング)
コンテンツの種類 (DMX)
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
マイニング構造 (Analysis Services - データ マイニング)
データ型 (データ マイニング)
マイニング構造列
列の分布 (データ マイニング)