マイニング構造 (Analysis Services - データマイニング)

[アーティクル]
12/23/2023

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データマイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。非推奨および停止された機能については、ドキュメントの更新は行われません。詳細については、「Analysis Services 下位互換性」を参照してください。

マイニング構造には、マイニングモデルの作成元となる、データソースビュー、列の数と型、トレーニングセットとテストセットに分ける省略可能なパーティションなどのデータを定義します。 1 つのマイニング構造は、同じドメインを共有する複数のマイニングモデルをサポートできます。次の図は、データマイニング構造とデータソースの関係、およびデータマイニング構造とそれを構成するデータマイニングモデルの関係を示しています。

データの処理: ソースから構造、モデルへの

図内のマイニング構造は、CustomerID フィールドで結合された複数のテーブルまたはビューを含むデータソースを基にしています。 1 つのテーブルには顧客に関する情報 (地理的な領域、年齢、収入、性別など) が格納され、入れ子になった関連テーブルには各顧客の追加情報 (顧客が購入した製品など) を含む複数の行が格納されます。この図は、同じマイニング構造から複数のモデルを作成し、それぞれのモデルに構造からさまざまな列を採用できることを示しています。

モデル 1 CustomerID、Income、Age、Region を使用し、Region でデータをフィルタリングします。

モデル 2 CustomerID、Income、Age、Region を使用し、Age でデータをフィルタリングします。

モデル 3 CustomerID、Age、Gender と入れ子になったテーブルを使用し、フィルターは適用しません。

それぞれのモデルは入力に異なる列を使用しており、うち 2 つのモデルはフィルター適用によってモデル内で使用するデータをさらに絞り込んでいるため、同じデータに基づいていても結果は著しく異なる場合があります。 CustomerID 列は、ケースキーとして使用できる唯一の有効な列であるため、すべてのモデルに必要となります。

このセクションでは、データマイニング構造の基本的なアーキテクチャについて説明します。マイニング構造の定義方法、その構造にデータを設定する方法、モデル作成のためにそれを使用する方法などが含まれます。既存のデータマイニング構造の管理方法またはエクスポート方法の詳細については、「データマイニングソリューションおよびオブジェクトの管理」を参照してください。

マイニング構造の定義

データマイニング構造の設定は、次の手順で行います。

データソースを定義します。
構造に含めるデータの列を選択し (モデルにはすべての列を含める必要はありません)、キーを定義します。
必要に応じて入れ子になったテーブルのキーも含めて、構造のキーを定義します。
ソースデータをトレーニングセットとテストセットに分割する必要があるかどうかを指定します。この手順は省略可能です。
構造を処理します。

これらの手順は、以下のセクションで詳しく説明します。

マイニング構造のデータソース

マイニング構造を定義する際には、既存のデータソースビューで使用できる列を指定します。データソースビューは、複数のデータソースをまとめて 1 つのデータソースとして使用することができる共有オブジェクトです。元のデータソースはクライアントアプリケーションでは表示されません。データ型の変更や、集計列またはエイリアス列の作成には、データソースビューのプロパティを使用できます。

同じマイニング構造から複数のマイニングモデルを作成する場合、それぞれのモデルに構造からさまざまな列を採用することができます。たとえば、1 つの構造を作成してデシジョンツリーモデルとクラスターモデルを別々に作成し、各モデルが別々の列を使用したり、異なる属性を予測したりできます。

また、各モデルでは、構造からさまざまな方法で列を使用できます。たとえば、データソースビューに Income 列が含まれるとすると、それを異なるモデルに対して異なる方法でバインドすることができます。

データマイニング構造には、データソースおよびそれに含まれる列の定義がソースデータへの バインド という形で保存されます。データソースバインドの詳細については、「データソースとバインド (SSAS 多次元)」を参照してください。ただし、DMX CREATE MINING STRUCTURE (DMX) ステートメントを使用して、特定のデータソースにバインドせずにデータマイニング構造を作成することもできます。

マイニング構造列

マイニング構造の構成要素は、データソースに格納されているデータについて記述したマイニング構造列です。マイニング構造列には、データ型、コンテンツの種類、データの配布方法などの情報が格納されます。マイニング構造には、特定のマイニングモデルに対する列の使用方法や、モデルを構築するために使用されるアルゴリズムの種類などの情報は含まれていません。これらの情報は、マイニングモデルの内部で定義されます。

マイニング構造には、入れ子になったテーブルを含めることもできます。入れ子になったテーブルは、ケースのエンティティとその関連属性との間の一対多の関係を表します。たとえば、顧客に関する情報と顧客の購入記録が別々のテーブルに格納されている場合は、入れ子になったテーブルを使用すると、これらの情報を単一のケースにまとめることができます。この場合、顧客の識別子はエンティティで、購入記録は関連する属性となります。入れ子になったテーブルを使用する場合の詳細については、「入れ子になったテーブル (Analysis Services - データマイニング)」を参照してください。

SQL Server Data Toolsでデータマイニングモデルを作成するには、まずデータマイニング構造を作成する必要があります。データマイニングウィザードを使用すると、マイニング構造の作成、データの選択、およびマイニングモデルの追加の手順を段階的に実行できます。

データマイニング拡張機能 (DMX) を使用してマイニングモデルを作成する場合は、モデルとモデル内の列を指定すると、必要なマイニング構造が DMX によって自動的に作成されます。詳細については、「 CREATE MINING MODEL (DMX)」を参照してください。

詳細については、「マイニング構造列」をご覧ください。

トレーニングセットとテストセットへのデータの分割

マイニング構造のデータを定義する際に、データの一部をトレーニング用に、一部をテスト用に指定することもできます。そのため、データマイニング構造を作成する前にデータを分割する必要はなくなりました。代わりに、モデルを作成する際にデータの一定の割合をテスト用、残りをトレーニング用として指定できます。また、テストデータセットとして使用するケースの数を指定することもできます。トレーニングデータセットとテストデータセットに関する情報は、マイニング構造と共にキャッシュも保存され、その結果、その構造に基づくすべてのモデルで同じテストセットを使用できます。

詳しくは、「 Training and Testing Data Sets」をご覧ください。

ドリルスルーの有効化

特定のマイニングモデルで使用する予定がない列でも、マイニング構造に追加することができます。これは、分析プロセスで電子メールアドレスを使用せずに、クラスターモデルで顧客の電子メールアドレスを検索する場合などに便利です。分析および予測のフェーズで列を無視するには、それを構造に追加しますが、使用法フラグを Ignore に設定するか、その列の使用を指定しません。マイニングモデルでドリルスルーが有効であり、ユーザーが適切な権限を持っている場合には、この方法でフラグを設定したデータをクエリで使用できます。たとえば、モデルの作成にそれらの列のデータが使用されなかった場合でも、すべての顧客の分析結果のクラスターを確認してから、ドリルスルークエリを使用して特定のクラスターの顧客の名前と電子メールを取得できます。

詳細については、「ドリルスルークエリ (データマイニング)」を参照してください。

マイニング構造の処理

マイニング構造は、処理されるまでは単なるメタデータコンテナーです。マイニング構造を処理すると、SQL Server Analysis Servicesは、データに関する統計、連続属性の分離方法に関する情報、および後でマイニングモデルで使用されるその他の情報を格納するキャッシュを作成します。マイニングモデル自体には、このサマリー情報は保存されませんが、代わりに、マイニング構造の処理時にキャッシュに保存された情報が参照されます。したがって、既存の構造に新しいモデルを追加するたびに構造を再処理する必要はなく、モデルのみを処理できます。

キャッシュが非常に大きい場合や詳細データを削除したい場合は、処理後にこのキャッシュを破棄することもできます。データをキャッシュしない場合は、マイニング構造の CacheMode プロパティを ClearAfterProcessingに変更できます。これにより、モデルを処理した後にキャッシュが破棄されます。 CacheMode プロパティを ClearAfterProcessing に設定すると、マイニングモデルからのドリルスルーが無効になります。

ただし、キャッシュを破棄した後は、マイニング構造に新しいモデルを追加することはできません。新しいマイニングモデルを追加したり、既存のモデルのプロパティを変更した場合は、マイニング構造を最初に再処理する必要があります。詳細については、「処理の要件と考慮事項 (データマイニング)」を参照してください。

マイニング構造の表示

ビューアーを使用して、マイニング構造内のデータを参照することはできません。ただし、SQL Server Data Toolsでは、データマイニング Designerの [マイニング構造] タブを使用して、構造列とその定義を表示できます。詳細については、「データマイニングデザイナー」を参照してください。

マイニング構造のデータを確認する場合、データマイニング拡張機能 (DMX) を使用してクエリを作成できます。たとえば、 SELECT * FROM <structure>.CASES というステートメントでは、マイニング構造のすべてのデータが返されます。この情報を取得するには、マイニング構造が既に処理されていて、処理結果がキャッシュされている必要があります。

SELECT * FROM <model>.CASES というステートメントでは同じ列が返されますが、特定のモデルのケースのみです。詳細については、「 SELECT FROM <構造体>」を参照してください。ケースと SELECT FROM <モデル>。CASES (DMX)。

データマイニングモデルとマイニング構造の使用

データマイニングモデルは、マイニング構造によって表されるデータにマイニングモデルアルゴリズムを適用します。マイニングモデルは特定のマイニング構造に属するオブジェクトで、マイニング構造によって定義されるプロパティのすべての値を継承します。マイニングモデルは、マイニング構造に含まれているすべての列またはその一部を使用することができます。構造列の複数のコピーを構造に追加できます。構造列の複数のコピーをモデルに追加し、モデルの各構造列に異なる名前、つまり別名を割り当てることもできます。構造列の別名定義の詳細については、「モデル列の別名の作成」および「マイニングモデルのプロパティ」を参照してください。

データマイニングモデルのアーキテクチャの詳細については、「マイニングモデル (Analysis Services - データマイニング)」を参照してください。

マイニング構造の定義、管理、使用の詳細については、次のリンクを使用してください。

タスク	リンク
リレーショナルマイニング構造の操作	新しいリレーショナルマイニング構造の作成マイニング構造への入れ子になったテーブルの追加
OLAP キューブに基づくマイニング構造の操作	新規の OLAP マイニング構造の作成
マイニング構造の列を操作する	マイニング構造への列の追加マイニング構造からの列の削除
マイニング構造のプロパティおよびデータの変更またはクエリ	マイニング構造のプロパティの変更
基になるデータソースの操作とソースデータの更新	マイニング構造に使用されるデータソースビューの編集マイニング構造の処理

参照

データベースオブジェクト (Analysis Services - 多次元データ)
マイニングモデル (Analysis Services - データマイニング)

マイニング構造 (Analysis Services - データマイニング)

マイニング構造の定義

マイニング構造のデータソース

マイニング構造列

トレーニングセットとテストセットへのデータの分割

ドリルスルーの有効化

マイニング構造の処理

マイニング構造の表示

データマイニングモデルとマイニング構造の使用

参照

フィードバック

フィードバック

その他のリソース

マイニング構造 (Analysis Services - データ マイニング)

マイニング構造の定義

マイニング構造のデータ ソース

マイニング構造列

トレーニング セットとテスト セットへのデータの分割

ドリルスルーの有効化

マイニング構造の処理

マイニング構造の表示

データ マイニング モデルとマイニング構造の使用

Related Tasks

参照

フィードバック

フィードバック

その他のリソース

マイニング構造 (Analysis Services - データマイニング)

マイニング構造のデータソース

トレーニングセットとテストセットへのデータの分割

データマイニングモデルとマイニング構造の使用