AutoML 中時間序列預測的延隔功能

本文著重於 AutoML 建立延隔及滾動視窗彙總功能的方法,以預測迴歸模型。 這類使用過去資訊的功能可藉由協助模型及時學習相互關聯模式,大幅提升精確度。 如需 AutoML 中關於預測方法的一般資訊,請參閱方法概觀一文。 如需在 AutoML 中定型預測模型的指示和範例,請參閱我們的設定 AutoML 以進行時間序列預測一文。

延隔功能範例

AutoML 會產生與預測範圍相關的延隔。 本節中的範例說明此概念。 在這裡,我們會使用三個預測範圍和一個目標延隔順序。 請考慮下列每月時間序列:

表 1:原始時間序列

Date $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

首先,我們只會產生範圍 $h=1$ 的延隔功能。 當您繼續閱讀時,就會明白我們為何在每個表格中使用個別的範圍。

表 2:$h=1$ 的延隔特徵化

Date $y_t$ 原始來源 $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

表 2 是從表 1 產生,方法是將 $y_t$ 資料行下移單一觀察。 我們已新增名為 Origin 的資料行,其中包含延隔功能的起始日期。 接下來,我們只會產生預測範圍 $h=2$ 的延隔功能。

表 3:$h=2$ 的延隔特徵化

Date $y_t$ 原始來源 $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

表 3 是從表 1 產生,方法是將 $y_t$ 資料行下移兩個觀察。 最後,我們只會產生預測範圍 $h=3$ 的延隔功能。

表 4:$h=3$ 的延隔特徵化

Date $y_t$ 原始來源 $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

接下來,我們會串連資料表 1、2 和 3,然後重新排列資料列。 結果如下表所示:

表 5:延隔特徵化完成

Date $y_t$ 原始來源 $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

在最後一個資料表中,我們已將延隔資料行的名稱變更為 $y_{t-1}^{(h)}$,以反映延隔是針對特定範圍所產生。 下表顯示我們針對範圍所產生的延隔可以對應到在上一個資料表中產生延隔的傳統方式。

表 5 是資料增強範例,AutoML 套用至定型資料,以便從迴歸模型直接進行預測。 當設定包含延隔功能時,AutoML 會建立範圍相依延隔,以及整數值範圍功能。 這可讓 AutoML 的預測迴歸模型在範圍 $h$ 進行預測,而不考慮 $h-1$ 的預測,這與以遞迴方式定義的 ARIMA 模型相反。

注意

產生範圍相依延隔功能會將新的資料列新增至資料集。 新資料列的數目會與預測範圍成正比。 這個資料集大小成長可能會導致較小的計算節點或資料集大小已經很大的情況下,發生記憶體不足的錯誤。 如需解決此問題的解決方案,請參閱常見問題集文章。

這種延隔策略的另一個後果,是延隔順序與預測範圍分離。 例如,如果您的預測範圍為 7,且您想要 AutoML 使用延隔功能,則不需要將延隔順序設定為 7,以確保預測超過完整預測範圍。 由於 AutoML 會產生範圍的延隔時間,因此您可以將延隔順序設定為一個,AutoML 會增強資料,讓任何順序的延隔時間都有效達預測範圍。

下一步