Microsoft 線形回帰アルゴリズム

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。

Microsoft 線形回帰アルゴリズムは、依存変数と独立変数の間の線形リレーションシップを計算し、そのリレーションシップを予測に使用するのに役立つ Microsoft デシジョン ツリー アルゴリズムのバリエーションです。

この関係は、一連のデータを最もよく表す直線の式の形になります。 たとえば、次の図の直線は、データの最適な線形表現です。

データのセットをモデル化する行 一連のデータ

図の各データ ポイントには、回帰直線からの距離に関する誤差があります。 回帰式の係数 a および b により、回帰直線の角度と位置が調整されます。 すべてのデータ ポイントに関する誤差の合計が最小になるまで、a および b を調整して、回帰式を取得できます。

複数の変数を使用するその他の種類の回帰や、線形でない回帰の方法もあります。 線形回帰は、何らかの基になっている要因の変更に対する反応をモデル化するための、便利でよく知られた方法です。

線形回帰を使用して、2 つの連続した列の関係を調べることができます。 たとえば、線形回帰を使用して、製造データまたは売上データから傾向線を計算することができます。 また、線形回帰をより複雑なデータ マイニング モデルの開発の前段階として使用し、データ列間の関係を評価することもできます。

データ マイニング ツールを必要としない線形回帰を計算する方法は多数ありますが、このタスクに Microsoft 線形回帰アルゴリズムを使用する利点は、変数間で考えられるすべてのリレーションシップが自動的に計算され、テストされる点です。 最小二乗法の解決などの計算方法を選択する必要はありません。 ただし、線形回帰では、結果に影響を与える要因が複数存在するシナリオで、関係が過剰に簡素化される場合があります。

アルゴリズムの動作

Microsoft 線形回帰アルゴリズムは、Microsoft デシジョン ツリー アルゴリズムのバリエーションです。 Microsoft 線形回帰アルゴリズムを選択すると、アルゴリズムの動作を制約し、特定の入力データ型を必要とするパラメーターを使用して、Microsoft デシジョン ツリー アルゴリズムの特殊なケースが呼び出されます。 さらに、標準のデシジョン ツリー モデルではデータが小さなサブセットまたはツリーに反復的に分割されるのに対し、線形回帰モデルではデータセット全体が最初のパスでの関係の計算に使用されます。

線形回帰モデルに必要なデータ

線形回帰モデルで使用するデータを用意する際には、特定のアルゴリズムの要件を把握しておいてください。 これには、必要なデータ量やデータの使用方法が含まれます。 このモデルの種類の要件は次のとおりです。

  • 単一キー列 : それぞれのモデルには、各レコードを一意に識別する数値列またはテキスト列が 1 つ含まれている必要があります。 複合キーは使用できません。

  • 予測可能列 : 少なくとも 1 つの予測可能列が必要です。 1 つのモデルに対し、複数の予測可能属性を含めることができます。ただし、予測可能属性は連続する数値データ型である必要があります。 データのネイティブ ストレージが数値であっても、datetime データ型を予測可能属性として使用することはできません。

  • 入力列 入力列は連続する数値データを含み、適切なデータ型が割り当てられている必要があります。

詳細については、「 Microsoft 線形回帰アルゴリズム テクニカル リファレンス」の「必要条件」を参照してください。

線形回帰モデルの表示

モデルを参照するには、 Microsoft ツリー ビューアーを使用します。 線形回帰モデルのツリー構造は非常に単純であり、回帰式に関するすべての情報が単一のノードに含まれています。 詳細については、「 Microsoft ツリー ビューアーを使用したモデルの参照」を参照してください。

式の詳細を調べる場合は、 Microsoft 汎用コンテンツ ツリー ビューアーで係数およびその他の詳細を参照することもできます。

線形回帰モデルの場合、モデル コンテンツには、メタデータ、回帰式、および入力値の分布に関する統計が含まれます。 詳細については、「 線形回帰モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。

予測の作成

モデルの処理後、結果が統計のセットとして線形回帰式と共に保存されます。これを使用して、将来の傾向を計算することができます。 線形回帰モデルで使用するクエリの例については、「 線形回帰モデルのクエリ例」を参照してください。

マイニング モデルに対するクエリの作成方法については、「 データ マイニング クエリ」を参照してください。

Microsoft 線形回帰アルゴリズムを選択して線形回帰モデルを作成するだけでなく、予測可能な属性が連続数値データ型の場合は、回帰を含むデシジョン ツリー モデルを作成できます。 この場合、アルゴリズムが適切な分離ポイントを見つけたときにデータは分割されますが、データの一部の領域では、代わりに回帰式が作成されます。 デシジョン ツリー モデル内の回帰ツリーの詳細については、「 デシジョン ツリー モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。

注釈

  • Predictive Model Markup Language (PMML) を使用したマイニング モデルの作成はサポートされていません。

  • データ マイニング ディメンションの作成はサポートされていません。

  • ドリルスルーがサポートされています。

  • OLAP マイニング モデルの使用がサポートされています。

参照

データ マイニング アルゴリズム (Analysis Services - データ マイニング)
Microsoft 線形回帰アルゴリズム テクニカル リファレンス
線形回帰モデルのクエリ例
線形回帰モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)