Microsoft タイムシリーズアルゴリズム

[アーティクル]
12/15/2008

更新 : 2007 年 9 月 15 日

Microsoft タイムシリーズアルゴリズムは、Microsoft SQL Server 2005 Analysis Services (SSAS) で提供されている回帰アルゴリズムであり、予測シナリオで製品売上などの連続列を予測するデータマイニングモデルの作成に使用されます。他の Microsoft アルゴリズムで作成されるデシジョンツリーモデルなどのモデルは、予測可能列を予測するために指定された入力列に依存しているのに対して、タイムシリーズモデルの予測は、モデルの作成時に元のデータセットからアルゴリズムが取得した傾向にのみ基づいています。次の図は、ある期間にわたる製品売上を予測するための一般的なモデルを示しています。

タイムシリーズの例

図のモデルは、グラフの左側にある履歴情報とグラフの右側にある予測情報という 2 つの部分で構成されています。履歴データは、モデルを作成するためにアルゴリズムによって使用される情報を表し、予測データは、モデルによって行われる予測を表しています。履歴データと予測データの組み合わせによって形成される線は、シリーズと呼ばれます。各予測モデルには、ケースシリーズが含まれている必要があります。これは、シリーズ内のポイントを区別する列です。たとえば、図のデータは数か月間にわたる自転車の売上の履歴および予測のシリーズを示しているので、日付の列がケースシリーズとなります。

Microsoft タイムシリーズアルゴリズムには、クロス予測を実行できる重要な機能があります。これは、2 つの別個の関連するシリーズを持つアルゴリズムをトレーニングする場合、結果として得られるモデルを使用して、一方のシリーズの結果をもう一方のシリーズの動作に基づいて予測できるということを意味します。たとえば、ある製品の実際の売上が、別の製品の売上の予測に影響を与える場合があります。

例

Adventure Works Cycles 社の経営陣は、来年の自転車の売上を月ごとに予測する必要があります。特に、異なる自転車モデルの売上が互いに関連しているかどうか、つまり、ある自転車モデルの売上が別のモデルの売上を予測するのに使用できるかどうかということに関心があります。過去 3 年間の履歴データに対して Microsoft タイムシリーズアルゴリズムを使用すると、将来の自転車の売上を予測するデータマイニングモデルを生成できます。また、クロス予測を実行して、個々の自転車モデルの売上傾向が関連しているかどうかを確認することもできます。

アルゴリズムの動作

Microsoft デシジョンツリーアルゴリズムでは、自己回帰デシジョンツリーを使用してモデルがトレーニングされます。各モデルにはキー時刻列があり、モデルによって定義されるタイムスライスを定義します。アルゴリズムによって、過去のアイテムの変数番号が、予測する現在の各アイテムに関連付けられます。

Microsoft タイムシリーズアルゴリズムの機能方法の詳細については、「タイムシリーズ分析の自動回帰ツリーモデル」を参照してください。

Microsoft タイムシリーズモデルの入力データを定義するには、次の 2 つの方法があります。最初の方法を理解するには、次の表の入力ケースを検討してください。

TimeID	Product	Sales	Volume
1/2001	A	1000	600
2/2001	A	1100	500
1/2001	B	500	900
2/2001	B	300	890

表の TimeID 列には時刻識別子が入っており、1 日あたり 2 つのエントリがあります。Product 列では、データベース内の製品を定義します。Sales 列は 1 日の指定製品の総利益を示し、Volume 列は倉庫に残っている指定製品の数量を示します。この場合、モデルには Sales 列と Volume 列という 2 つの予測可能列が含まれています。

または、タイムシリーズモデルの入力データを次の表のように定義することもできます。

TimeID	A_Sales	A_Volume	B_Sales	B_Volume
1/2001	1000	600	500	900
2/2001	1100	500	300	890

この表では、Sales 列と Volume 列がそれぞれ 2 つの列に分かれており、Product 名が前に付いています。このため、TimeID 列の各日には 1 つのエントリしか存在しません。モデルには、A_Sales、A_Volume、B_Sales、および B_Volume という 4 つの予測可能列が含まれています。

入力データを定義するどちらの方法でも同じ情報がモデルに表示されますが、入力ケースの形式によってマイニングモデルの定義方法が変わります。

アルゴリズムの使用

タイムシリーズアルゴリズムでは、予測する列は連続している必要があります。各モデルには 1 つのケースシリーズしか使用できません。

次の表のように、Microsoft タイムシリーズアルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリングフラグがサポートされています。

入力列のコンテンツの種類	Continuous、Key、Key Time、Table
予測可能列のコンテンツの種類	Continuous、Table
モデリングフラグ	NOT NULL、REGRESSOR

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft タイムシリーズアルゴリズムでは、次の表のような追加の関数がサポートされています。

Lag	PredictTimeSeries
PredictNodeId	PredictVariance
PredictStdev

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データマイニングアルゴリズム」を参照してください。これらの関数の使用方法については、「データマイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft タイムシリーズアルゴリズムでは、Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成はサポートされていません。

Microsoft タイムシリーズアルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ	説明
MINIMUM_SUPPORT	各タイムシリーズツリーで分割を生成するために必要なタイムスライスの最小数を指定します。既定値は 10 です。
COMPLEXITY_PENALTY	デシジョンツリーの拡大を制御します。値を小さくすると、分割の可能性が増加します。値を大きくすると、分割の可能性が減少します。既定値は 0.1 です。
PERIODICITY_HINT	データの周期性に関して、アルゴリズムにヒントを提供します。たとえば、売上が年ごとに異なり、シリーズの単位が月である場合、周期性は 12 です。このパラメータの形式は {n [, n]} です。ここで、n には正の値を指定します。角かっこ ([]) 内の n は省略可能で、必要なだけ繰り返すことができます。既定値は {1} です。
MISSING_VALUE_SUBSTITUTION	履歴データのギャップを埋めるために使用する方法を指定します。既定では、データ内の不規則なギャップや不規則な枠は許可されていません。不規則なギャップや枠を埋めるには、Previous 値、Mean 値、または特定の数値定数を使用します。
AUTO_DETECT_PERIODICITY	周期性を検出するために使用する 0 から 1 までの数値を指定します。1 に近い値を設定すると、多くのほぼ周期的なパターンの検出と、周期性のヒントの自動生成が行われます。周期性のヒントを多数処理すると、モデルのトレーニングに非常に長い時間がかかりますが、精度の高いモデルになる可能性があります。より 0 に近い値を設定すると、非常に周期的なデータのみを対象にして周期性が検出されます。既定値は 0.6 です。
HISTORIC_MODEL_COUNT	作成する履歴モデルの数を指定します。既定値は 1 です。
HISTORICAL_MODEL_GAP	2 つの連続した履歴モデル間のタイムラグを指定します。たとえば、この値を g に設定すると、g、2g、3g などの間隔でタイムスライスによって切り捨てられるデータに対して履歴モデルが作成されます。既定値は 10 です。

メモ :
周期性のヒントはモデル品質に大きく影響します。指定したヒントが実際の周期性と異なると、結果が悪影響を受けることがあります。

変更履歴

リリース	履歴
2007 年 9 月 15 日	変更内容 : タイムシリーズチャートの説明を更新しました。

参照

Share via

Microsoft タイムシリーズアルゴリズム

例

アルゴリズムの動作

アルゴリズムの使用

変更履歴

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

Share via

Microsoft タイム シリーズ アルゴリズム

例

アルゴリズムの動作

アルゴリズムの使用

変更履歴

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

Microsoft タイムシリーズアルゴリズム