Share via


Fonctionnalités de décalage pour la prévision de séries chronologiques dans AutoML

Cet article se concentre sur les méthodes d’AutoML pour créer des fonctionnalités de décalage et d’agrégation de fenêtres propagées pour les modèles de régression de prévision. Des fonctionnalités comme celles-ci qui utilisent des informations passées peuvent augmenter considérablement la précision en aidant le modèle à apprendre des modèles de corrélation dans le temps. Consultez l’article sur la vue d’ensemble des méthodes pour obtenir des informations d’ordre général sur la méthodologie de prévision dans AutoML. Vous trouverez des instructions et des exemples pour l’apprentissage des modèles de prévision dans AutoML dans notre article Configurer AutoML pour effectuer l’apprentissage d’un modèle de prévision de série chronologique.

Exemple d’une fonctionnalité de décalage

AutoML génère des décalages en ce qui concerne l’horizon de prévision. L’exemple de cette section montre ce concept. Ici, nous utilisons un horizon de prévision de trois et un ordre de décalage cible d’un. Tenez compte des séries chronologiques mensuelles suivantes :

Table 1 : série chronologique d’origine

Date $y_t$
1/1/2001 0
1/2/2001 10
1/3/2001 20
1/4/2001 30
1/5/2001 40
1/6/2001 50

Nous générons tout d’abord la fonctionnalité de décalage pour l’horizon $h=1$ uniquement. À mesure que vous poursuivez votre lecture, vous comprendrez pourquoi nous utilisons des horizons individuels dans chaque table.

Table 2 : caractérisation du décalage pour $h=1$

Date $y_t$ Origine $y_{t-1}$ $h$
1/1/2001 0 1/12/2000 - 1
1/2/2001 10 1/1/2001 0 1
1/3/2001 20 1/2/2001 10 1
1/4/2001 30 1/3/2001 20 1
1/5/2001 40 1/4/2001 30 1
1/6/2001 50 1/5/2001 40 1

La table 2 est générée à partir de la table 1 en déplaçant la colonne $y_t$ d’une seule observation vers le bas. Nous avons ajouté une colonne appelée Origin qui contient les dates dont proviennent les fonctionnalités de décalage. Nous générons ensuite la fonctionnalité de décalage pour l’horizon de prévision $h=2$ uniquement.

Table 3 : caractérisation du décalage pour $h=2$

Date $y_t$ Origine $y_{t-2}$ $h$
1/1/2001 0 1/11/2000 - 2
1/2/2001 10 1/12/2000 - 2
1/3/2001 20 1/1/2001 0 2
1/4/2001 30 1/2/2001 10 2
1/5/2001 40 1/3/2001 20 2
1/6/2001 50 1/4/2001 30 2

La table 3 est générée à partir de la table 1 en déplaçant la colonne $y_t$ de deux observations vers le bas. Enfin, nous générons la fonctionnalité de décalage pour l’horizon de prévision $h=3$ uniquement.

Table 4 : caractérisation du décalage pour $h=3$

Date $y_t$ Origine $y_{t-3}$ $h$
1/1/2001 0 1/10/2000 - 3
1/2/2001 10 1/11/2000 - 3
1/3/2001 20 1/12/2000 - 3
1/4/2001 30 1/1/2001 0 3
1/5/2001 40 1/2/2001 10 3
1/6/2001 50 1/3/2001 20 3

Ensuite, nous concaténons les tables 1, 2 et 3, puis nous réorganisons les lignes. Le résultat se trouve dans la table suivante :

Table 5 : caractérisation du décalage terminée

Date $y_t$ Origine $y_{t-1}^{(h)}$ $h$
1/1/2001 0 1/12/2000 - 1
1/1/2001 0 1/11/2000 - 2
1/1/2001 0 1/10/2000 - 3
1/2/2001 10 1/1/2001 0 1
1/2/2001 10 1/12/2000 - 2
1/2/2001 10 1/11/2000 - 3
1/3/2001 20 1/2/2001 10 1
1/3/2001 20 1/1/2001 0 2
1/3/2001 20 1/12/2000 - 3
1/4/2001 30 1/3/2001 20 1
1/4/2001 30 1/2/2001 10 2
1/4/2001 30 1/1/2001 0 3
1/5/2001 40 1/4/2001 30 1
1/5/2001 40 1/3/2001 20 2
1/5/2001 40 1/2/2001 10 3
1/6/2001 50 1/4/2001 40 1
1/6/2001 50 1/4/2001 30 2
1/6/2001 50 1/3/2001 20 3

Dans la table finale, nous avons modifié le nom de la colonne de décalage en $y_{t-1}^{(h)}$ pour indiquer que le décalage est généré par rapport à un horizon spécifique. La table montre que les retards générés par rapport à l’horizon peuvent être mappés aux méthodes conventionnelles de génération de décalages des tables précédentes.

La table 5 est un exemple d’augmentation des données qu’AutoML applique aux données d’entraînement pour permettre la prévision directe à partir de modèles de régression. Lorsque la configuration inclut des fonctionnalités de décalage, AutoML crée des décalages dépendants de l’horizon avec une fonctionnalité d’horizon à nombres entiers. Cela permet aux modèles de régression de prévision d’AutoML d’effectuer une prédiction à l’horizon $h$ sans tenir compte de la prédiction de $h-1$, contrairement aux modèles définis de manière récursive tels que ARIMA.

Notes

La génération de fonctionnalités de décalage dépendantes de l’horizon ajoute de nouvelles lignes au jeu de données. Le nombre de nouvelles lignes est proportionnel à l’horizon de prévision. Cette croissance de la taille du jeu de données peut entraîner des erreurs de mémoire insuffisante sur des nœuds de calcul plus petits ou lorsque la taille du jeu de données est déjà volumineuse. Consultez l’article du forum aux questions pour trouver des solutions à ce problème.

Une autre conséquence de cette stratégie en retard est que l’ordre de décalage et l’horizon de prévision sont découplés. Si, par exemple, votre horizon de prévision est de sept et que vous souhaitez qu’AutoML utilise des fonctionnalités de décalage, vous n’avez pas besoin de définir l’ordre de décalage sur sept pour garantir la prédiction sur un horizon de prévision complet. Étant donné qu’AutoML génère des décalages en ce qui concerne l’horizon, vous pouvez définir l’ordre de décalage sur un et AutoML augmente les données afin que les décalages de n’importe quel ordre soient valides jusqu’à l’horizon de prévision.

Étapes suivantes