テストおよび検証 (データマイニング)

[アーティクル]
12/23/2023

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データマイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。非推奨および停止された機能については、ドキュメントの更新は行われません。詳細については、「Analysis Services 下位互換性」を参照してください。

検証とは、実際のデータに対するマイニングモデルの性能を評価するプロセスです。運用環境に配置する前に品質や特性を理解してマイニングモデルを検証しておくことが重要です。

このセクションでは、モデル品質に関連するいくつかの基本的な概念について説明し、Microsoft SQL Server Analysis Servicesで提供されるモデル検証の戦略について説明します。大規模なデータマイニングプロセス内でモデルの検証がどのように位置付けられているかの概要については、「データマイニングソリューション」を参照してください。

データマイニングモデルのテストと検証の方法

データマイニングモデルの品質や特性を評価する方法は多数あります。

統計的妥当性の各種メジャーを使用して、データまたはモデルに問題があるかどうかを判定します。
データをトレーニングセットとテストセットに分割して、予測の精度をテストします。
発見されたパターンが目標とするビジネスシナリオにおいて有意であるかどうか、ビジネスの専門家にデータマイニングモデルの結果を評価してもらいます。

これらの方法はすべてデータマイニング手法として有用であり、特定の問題に対応するためにモデルの作成、テスト、および調整を行うときに繰り返し使用されます。モデルが満足できるものであること、または十分なデータがあることを単独で示すことができる包括的な規則はありません。

データマイニングモデルを検証するための基準の定義

通常、データマイニングの評価基準は、精度、信頼性、および実用性に分類されます。

精度は、モデルの結果が提供されたデータ内の属性と密接な関係があるかどうかを示すメジャーです。精度のメジャーは各種ありますが、精度のメジャーはすべて、使用されるデータに依存します。実際には、値が不足していたり概算値であったり、複数のプロセスによってデータが変更されている場合があります。特に調査と開発のフェーズでは、データの特性がきわめて均一である場合は特に、データ内に一定量のエラーを認める必要があります。たとえば、過去の売上に基づいて特定の店舗の売上を予測するモデルは、その店舗で継続的に誤った会計手続きが行われていたとしても、密接な相関関係を持ち非常に正確なモデルになります。したがって、精度の測定は、信頼性の評価とのバランスを取る必要があります。

信頼性 は、異なるデータセットに対するデータマイニングモデルの性能を示します。提供されるテストデータに関係なく同じ種類の予測が生成される場合や同種の一般的パターンが発見される場合、データマイニングモデルは信頼性が高いと見なされます。たとえば、誤った会計手続きが行われていた店舗に対して生成されたモデルは、他の店舗用にはうまく一般化できず、信頼性がないことになります。

実用性 には、モデルによって有用な情報が提供されるかどうかを示す各種のメトリックが含まれます。たとえば、店舗の場所と売上の相関関係を求めるデータマイニングモデルの場合、高い精度と信頼性を持つと評価される一方で、同じ場所にさらに店舗を追加してその結果を一般化することができないという理由で実用的でない可能性があります。さらに、このデータマイニングモデルでは、特定の場所でなぜ売上が多いのかという基本的な業務上の疑問点に対する回答が示されません。また、モデルはデータ内の相互相関に基づいているので、モデルが成果を挙げているように見えても実際は無意味である場合もあります。

マイニングモデルのテストと検証のツール

SQL Server Analysis Servicesでは、データマイニングソリューションの検証に対する複数のアプローチがサポートされ、データマイニングテスト手法のすべてのフェーズがサポートされます。

テストセットとトレーニングセットへのデータのパーティション分割。
同じソースデータの異なる組み合わせでトレーニングおよびテストを行うためのモデルのフィルター処理。
リフト と ゲインの測定。 リフトチャート は、ランダムな推測と比較したときにデータマイニングモデルを使用したことによる改善を視覚化するための方法です。
データセットの 相互検証 の実行
分類マトリックスの生成。これらのチャートでは、良い推量と悪い推量をテーブルに並べ替えて、モデルによるターゲット値の予測精度を簡単に評価できるようにします。
回帰式の適合性を評価するための 散布図 の作成。
推奨設定の価値を評価するために財務的利益またはコストをマイニングモデルの使用に関連付ける 利益チャート の作成。

これらの基準は、データマイニングモデルが業務上の質問に答えるものであるかを判断するためのものではなく、予測分析でデータの信頼性を評価するため、および開発プロセスで特定の繰り返し処理を使用するかどうかの決定を導きだすために使用できる客観的な測定値を提供するものです。

このセクションのトピックでは、各方法の概要を説明すると共に、SQL Server のデータマイニングを使用して作成したモデルの精度を測定するプロセスの手順を説明します。

トピック	リンク
ウィザードまたは DMX コマンドを使用してテスト用データセットを設定する方法を学ぶ	トレーニングデータセットとテストデータセット
マイニング構造内のデータの分布と代表性をテストする方法を学ぶ	相互検証 (Analysis Services - データマイニング)
提供される精度グラフの種類について説明します。	リフトチャート (Analysis Services - データマイニング) 利益チャート (Analysis Services - データマイニング) 散布図 (Analysis Services - データマイニング)
真陽性、偽陽性、真陰性、および偽陰性の実際の数値を評価する分類マトリックス (混同マトリックスと呼ばれることもある) の作成方法について学びます。	分類マトリックス (Analysis Services - データマイニング)

参照

データマイニングツール
 データマイニングソリューション
 テスト、検証タスク、および操作方法 (データマイニング)

テストおよび検証 (データマイニング)

データマイニングモデルのテストと検証の方法

データマイニングモデルを検証するための基準の定義

マイニングモデルのテストと検証のツール

参照

フィードバック

フィードバック

その他のリソース

テストおよび検証 (データ マイニング)

データ マイニング モデルのテストと検証の方法

データ マイニング モデルを検証するための基準の定義

マイニング モデルのテストと検証のツール

関連トピック

参照

フィードバック

フィードバック

その他のリソース

テストおよび検証 (データマイニング)

データマイニングモデルのテストと検証の方法

データマイニングモデルを検証するための基準の定義

マイニングモデルのテストと検証のツール