[アーティクル]
04/01/2012

データマイニングウィザード (Analysis Services - データマイニング)

Microsoft SQL Server Analysis Services のデータマイニングウィザードは、新しいマイニング構造をデータマイニングプロジェクトに追加するたびに起動します。このウィザードでは、新しいマイニング構造を定義することができ、データマイニングに使用するデータソースが自動的に選択されます。また、マイニング構造内のデータをトレーニングセットとテストセットにパーティション分割して、それぞれの構造の初期マイニングモデルを追加できます。

マイニング構造のコンテンツは、既存のデータソースビューまたはキューブから取得されます。マイニング構造に含める列を選択できます。その構造に基づいているすべてのモデルでこれらの列を使用できます。データマイニングモデルのユーザーがマイニングモデルの結果からドリルダウンして、マイニングモデル自体に含まれていなかった追加のマイニング構造列を確認できるようにすることができます。

データマイニングウィザードを使用してデータマイニング構造およびモデルを作成する場合は、次の項目を決定する必要があります。

データマイニング構造およびモデルを、リレーショナルデータベースから作成するか、または OLAP データベースの既存のキューブから作成するか。
どれだけの量のデータをトレーニングで使用するか、およびどれだけの量のデータをテスト用に確保するか。マイニング構造をトレーニングデータセットとテストデータセットにパーティション分割する場合、その構造に基づいているすべてのモデルでそのテストセットを使用できます。
どの列または属性を予測に使用するか、およびどの列または属性を分析の入力として使用するか。それぞれの構造には、ケースレコードを一意に識別するキーも格納されている必要があります。
どのアルゴリズムを使用するか。SQL Server Analysis Services に用意されているアルゴリズムはそれぞれに特性が異なり、生成する結果も異なります。異なるアルゴリズムを使用して複数のモデルを作成したり、アルゴリズムのパラメーターを変更して異なるモデルを作成したりできます。.

データマイニングウィザードには、これらの項目を決定する際に役立つ以下の機能があります。

ケースセットを定義するためのウィザードページ。リレーショナルデータソースからケーステーブルおよび入れ子になったテーブルを選択するか、または OLAP データソースを選択してからケースキーおよびケースレベル列を選択し、必要に応じてキューブにフィルターを設定します。
列内のデータを分析し、列の使用法を推奨するダイアログボックス。
列のコンテンツの種類およびデータ型を自動検出する機能。
キューブの自動スライス機能 (マイニングモデルが OLAP データソースに基づいている場合)。

データマイニングウィザードを完了したら、データマイニングデザイナーを使用してマイニング構造およびモデルを変更し、モデルの精度の表示、構造およびモデルの特性の表示、またはモデルを使用した予測の作成を行います。

詳細情報 : 「データマイニングデザイナ」

データマイニングウィザードの使用

データマイニングウィザードを起動するには、ソリューションエクスプローラーまたは Business Intelligence Development Studio の [プロジェクト] メニューを使用して、新しいマイニング構造を Analysis Services プロジェクトに追加します。

データマイニングウィザードは、使用するデータソースがリレーショナルかキューブ内にあるかに応じて、2 つに分岐します。

リレーショナルマイニングモデル
OLAP マイニングモデル

注
データマイニングを行うためにキューブまたは OLAP データベースは必要ありません。データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データマイニングにはリレーショナルテーブルまたはデータソースを使用することをお勧めします。

データマイニングを行うためにキューブまたは OLAP データベースは必要ありません。データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データマイニングにはリレーショナルテーブルまたはデータソースを使用することをお勧めします。

リレーショナルマイニングモデル

Analysis Services のリレーショナルデータソースからマイニングモデルを作成する場合は、まずデータマイニングウィザードで、既存のリレーショナルデータベースを使用してモデルの構造を定義することを指定します。マイニング構造のみを作成したり、マイニング構造とそれに関連するデータマイニングモデルを 1 つ作成したりできます。マイニングモデルを作成することを選択した場合は、目的のデータマイニング分析の種類に最適なアルゴリズムを選択して、使用するデータマイニング技法を指定する必要があります。

詳細情報 : 「データマイニングアルゴリズム (Analysis Services - データマイニング)」

データソースビューとテーブルの種類の指定

次に、ウィザードで、マイニング構造を定義するための特定のデータソースビューを選択し、ケーステーブルを指定します。ケーステーブルは、データマイニングモデルのトレーニング用として使用されます。また、必要に応じてテスト用としても使用されます。入れ子になったテーブルを指定することもできます。

ケーステーブルの選択は、重要な決定事項です。ケーステーブルには、分析するエンティティ (たとえば顧客とその人口統計情報) が格納されている必要があります。通常、入れ子になったテーブルには、ケーステーブル内のエンティティに関する追加情報 (たとえば顧客によって行われた取引) や、エンティティと多対一の関係を持つ属性が格納されます。たとえば、Customers ケーステーブルに結合されている入れ子になったテーブルには、各顧客によって購入された製品のリストや、趣味のリストが含まれています。詳細情報 : 「入れ子になったテーブル (Analysis Services - データマイニング)」

列の使用法の指定

ケーステーブルと入れ子になったテーブルを指定したら、マイニング構造に含めるテーブルの列ごとに使用法を決定します。列の使用法を指定しないと、列はマイニング構造に含まれません。

データマイニング列は、キー列、入力列、予測可能列、または入力列と予測可能列の組み合わせの 4 種類のいずれかです。キー列には、テーブルの行ごとに一意識別子が含まれます。シーケンスクラスターアルゴリズムやタイムシリーズアルゴリズムに基づいたマイニングモデルなどでは、複数のキー列を含めることができます。ただし、これらの複数のキーは、リレーショナルな意味では複合キーではありませんが、時系列およびシーケンスクラスター分析をサポートするために選択する必要があります。詳細については、「Microsoft タイムシリーズアルゴリズム」または「Microsoft シーケンスクラスターアルゴリズム」を参照してください。

入力列は、予測を行うための情報を提供します。予測可能列には、マイニングモデルで予測しようとする情報が含まれています。

たとえば、一連のテーブルに、顧客 ID、人口統計情報、および特定の店で各顧客が使う金額を含めることができます。顧客 ID は顧客を一意に識別し、ケーステーブルを入れ子になったテーブルに関連付けるので、顧客 ID をキー列として使用します。人口統計情報からの選択した列を入力列として使用し、各顧客が使う金額を示す列を予測可能列として使用できます。これにより、顧客が 1 つの店で使う金額に人口統計を関連付けるマイニングモデルを作成できます。このモデルはターゲットマーケティングのベースとして使用できます。

データマイニングウィザードでは、予測可能列を選択した場合に使用できる [候補検索] 機能が提供されています。多くの場合、データセットには、マイニングモデルの作成に必要な列よりも多くの列が含まれます。[候補検索] 機能では、データセット内の各列と予測可能列の間のリレーションシップを説明する 0 ～ 1 の数値スコアが計算されます。このスコアに基づいて、マイニングモデルの入力として使用する列が提示されます。[候補検索] 機能を使用する場合は、提示された列を使用するか、必要に応じて選択を変更するか、または提示を無視することができます。

コンテンツの種類とデータ型の指定

1 つまたは複数の予測可能列と入力列を選択したら、列ごとにコンテンツの種類とデータ型を指定できます。

詳細情報 : 「データ型 (データマイニング)」、「コンテンツの種類 (データマイニング)」

トレーニングセットとテストセットへのデータの分割

ウィザードを完了する前の最後の手順では、データをトレーニングセットとテストセットにパーティション分割します。データの一部をテスト用に提示するこの機能は SQL Server 2008 の新機能であり、新しいマイニング構造に関連するすべてのマイニングモデルに使用可能な、一貫したテストデータのセットを確保するための使いやすい機構を提供します。

テスト用に使用するデータの割合を指定できます。その場合、残りのデータは、すべてトレーニング用に使用されます。テストに使用するケースの数を指定することもできます。パーティションの定義はマイニング構造と一緒に格納されます。これにより、構造に基づいて新しいモデルを作成するときに、このテストデータセットを使用してモデルの精度を評価できるようになります。

詳細情報 : 「データマイニングモデルの検証 (Analysis Services - データマイニング)」、「トレーニングセットとテストセットへのデータのパーティション分割 (Analysis Services - データマイニング)」

ウィザードの完了

ウィザードでの最後の手順として、マイニング構造と関連マイニングモデルに名前を付けます。[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。これにより、適切な権限を持つユーザーが、モデルの作成に使用するソースデータを調査できるようになります。

詳細情報 : 「マイニングモデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データマイニング)」

トップに戻る

OLAP マイニングモデル

Analysis Services の OLAP データソースから多次元マイニングモデルを作成する場合は、まずデータマイニングウィザードで、既存のキューブを使用してモデルの構造を定義する必要があることを指定します。マイニング構造のみを作成したり、マイニング構造とそれに関連するデータマイニングモデルを 1 つ作成したりできます。マイニングモデルを作成することを選択した場合は、ビジネス上の問題に最適なアルゴリズムを選択して、使用するデータマイニング技法を指定する必要があります。

詳細情報 : 「データマイニングアルゴリズム (Analysis Services - データマイニング)」

データソースとケースキーの指定

次に、マイニング構造を定義するためのデータソースとして使用するキューブディメンションを選択します。マイニングモデルのキー (ケースキー) として使用する属性を選択します。

注
作成する OLAP マイニングモデルと、モデルの作成に使用するソースキューブは、同じ Analysis Services データベースに含まれている必要があります。

ケースレベル列と列の使用法の指定

ケースキーを選択すると、そのキーに関連付けられている属性およびメジャーが、ウィザードの次のページにあるツリービューに表示されます。この一覧から、構造の列として使用する属性およびメジャーを選択します。これらの列は、ケースレベル列と呼ばれます。リレーショナルモデルと同様に、ウィザードの次のページで、構造での各列の使用法も指定する必要があります。列は、キー列、入力列、予測可能列、入力列および予測可能列、または未選択にすることができます。

入れ子になったテーブルの追加

データマイニングウィザードの OLAP 分岐には、入れ子になったテーブルをマイニングモデル構造に追加するためのオプションが含まれています。ウィザードの [マイニングモデル列の使用法の指定] ページで、[入れ子になっているテーブルの追加] をクリックして、入れ子になったテーブルを追加する手順を案内する、別のダイアログボックスを開きます。ディメンションに適用されるメジャーグループのみが表示されます。ケースディメンションの外部キーを含むメジャーグループを選択します。次に、メジャーグループの各列の使用法を、入力列または予測可能列に指定します。ウィザードによって、入れ子になったテーブルがケーステーブルに追加されます。入れ子になったテーブルの既定の名前は、入れ子になったディメンション名ですが、入れ子になったテーブルとその列は名前を変更できます。詳細情報 : 「入れ子になったテーブル (Analysis Services - データマイニング)」

コンテンツの種類とデータ型の指定

1 つまたは複数の予測可能列と入力列を選択したら、列ごとにコンテンツの種類とデータ型を指定できます。

詳細情報 : 「データ型 (データマイニング)」、「コンテンツの種類 (データマイニング)」

ソースキューブのスライス

ウィザードの OLAP 分岐で、マイニングモデルをトレーニングする前にソースキューブをスライスすることによって、マイニングモデルのスコープを制限できます。キューブのスライスは、SQL ステートメントへの WHERE 句の追加に似ています。たとえば、キューブに製品の購入に関する情報が含まれている場合、年齢の属性を 31 歳以上、性別の列を女性のみ、購入日を 2000 年 3 月以降に制限できます。このようにすると、年齢が 31 歳以上で、2000 年 3 月以降に製品を購入した女性のスコープが対象になるようにモデルを制限できます。

トレーニングセットとテストセットへのデータの分割

ウィザードを完了する前の最後の手順では、キューブから取得できるデータをトレーニングセットとテストセットにパーティション分割します。パーティションの定義はマイニング構造と一緒に格納されます。これにより、構造に基づいて新しいモデルを作成するときに、このテストデータセットを使用してモデルの精度を評価できるようになります。

ウィザードの完了

ウィザードでの最後の手順として、マイニング構造と関連マイニングモデルに名前を付けます。[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。これにより、適切な権限を持つユーザーが、モデルの作成に使用するソースデータを調査できるようになります。マイニングモデルに基づいて新しいディメンションをソースキューブに追加するか、マイニングモデルから新しいキューブを作成するかを指定することもできます。

詳細情報 : 「マイニングモデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データマイニング)」

トップに戻る

次の方法で共有

データマイニングウィザード (Analysis Services - データマイニング)

データマイニングウィザードの使用

リレーショナルマイニングモデル

データソースビューとテーブルの種類の指定

列の使用法の指定

コンテンツの種類とデータ型の指定

トレーニングセットとテストセットへのデータの分割

ウィザードの完了

OLAP マイニングモデル

データソースとケースキーの指定

ケースレベル列と列の使用法の指定

入れ子になったテーブルの追加

コンテンツの種類とデータ型の指定

ソースキューブのスライス

トレーニングセットとテストセットへのデータの分割

ウィザードの完了

関連項目

概念

その他の技術情報

その他のリソース

次の方法で共有

データ マイニング ウィザード (Analysis Services - データ マイニング)

データ マイニング ウィザードの使用

リレーショナル マイニング モデル

データ ソース ビューとテーブルの種類の指定

列の使用法の指定

コンテンツの種類とデータ型の指定

トレーニング セットとテスト セットへのデータの分割

ウィザードの完了

OLAP マイニング モデル

データ ソースとケース キーの指定

ケース レベル列と列の使用法の指定

入れ子になったテーブルの追加

コンテンツの種類とデータ型の指定

ソース キューブのスライス

トレーニング セットとテスト セットへのデータの分割

ウィザードの完了

関連項目

概念

その他の技術情報

その他のリソース

データマイニングウィザード (Analysis Services - データマイニング)

データマイニングウィザードの使用

リレーショナルマイニングモデル

データソースビューとテーブルの種類の指定

トレーニングセットとテストセットへのデータの分割

OLAP マイニングモデル

データソースとケースキーの指定

ケースレベル列と列の使用法の指定

ソースキューブのスライス

トレーニングセットとテストセットへのデータの分割