Componente regressione dell'albero delle decisioni incrementato

Articolo
06/01/2023

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un insieme di alberi di regressione usando l'aumento. L'aumento significa che ogni albero dipende dagli alberi precedenti. L'algoritmo impara adattando il residuo degli alberi che lo precedevano. Il boosting in un insieme di alberi delle decisioni tende quindi a migliorare la precisione, anche se con un rischio minimo di minore copertura.

Questo componente si basa sull'algoritmo LightGBM.

Questo metodo di regressione è un metodo di apprendimento con supervisione e quindi richiede un set di dati etichettato. La colonna etichetta deve contenere valori numerici.

Nota

Usare questo componente solo con set di dati che usano variabili numeriche.

Dopo aver definito il modello, eseguirne il training usando il modello di training.

Altre informazioni sugli alberi di regressione incrementati

Il boosting è uno dei metodi classici per la creazione di modelli d'insieme, insieme al bagging, alle foreste casuali e così via. In Azure Machine Learning, gli alberi delle decisioni incrementati usano un'implementazione efficiente dell'algoritmo di aumento della sfumatura MART. L'incremento dei gradienti è una tecnica di apprendimento automatico per i problemi di regressione. Permette di creare ogni albero di regressione eseguendo alcuni passaggi e usando una funzione di perdita predefinita per misurare l'errore in ogni passaggio, in modo da applicare una correzione nel passaggio successivo. Il modello di previsione è quindi effettivamente un insieme di modelli di previsione più deboli.

Nei problemi di regressione, aumentare la compilazione di una serie di alberi in modo graduale e quindi selezionare l'albero ottimale usando una funzione di perdita differenziabile arbitraria.

Per altre informazioni, vedere i seguenti articoli:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Questo articolo di Wikipedia sull'aumento della sfumatura fornisce alcuni background sugli alberi incrementati.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: da RankNet a LambdaRank a LambdaMART: panoramica. Da J.C. Burges.

Il metodo di boosting dei gradienti può essere usato anche per problemi di classificazione, tramite la riduzione a regressione con una funzione di perdita idonea. Per altre informazioni sull'implementazione degli alberi incrementati per le attività di classificazione, vedere Albero delle decisioni con aumento di due classi.

Come configurare la regressione dell'albero delle decisioni con aumento

Aggiungere il componente Boosted Decision Tree alla pipeline. È possibile trovare questo componente in Machine Learning, Inizializzare, nella categoria Regressione .
Specificare la modalità di training del modello impostando l'opzione Crea modalità di training .
- Singolo parametro: selezionare questa opzione se si sa come configurare il modello e specificare un set specifico di valori come argomenti.
- Intervallo di parametri: selezionare questa opzione se non si è sicuri dei parametri migliori e si vuole eseguire uno sweep di parametri. Selezionare un intervallo di valori per eseguire l'iterazione e l'iperparametri del modello di ottimizzazione esegue l'iterazione di tutte le possibili combinazioni delle impostazioni fornite per determinare gli iperparametri che producono i risultati ottimali.
Numero massimo di foglie per albero: indicare il numero massimo di nodi del terminale (foglie) che possono essere creati in qualsiasi albero.

Aumentando questo valore, potenzialmente si aumentano le dimensioni dell'albero e si ottiene una maggiore precisione. Possono tuttavia verificarsi casi di overfitting e tempi di training più lunghi.
Numero minimo di campioni per nodo foglia: indicare il numero minimo di casi necessari per creare qualsiasi nodo terminale (foglia) in un albero.

Aumentando questo valore, aumenta la soglia per la creazione di nuove regole. Ad esempio, con un valore predefinito di 1, anche un singolo caso può determinare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno 5 casi che soddisfano le stesse condizioni.
Frequenza di apprendimento: digitare un numero compreso tra 0 e 1 che definisce le dimensioni del passaggio durante l'apprendimento. La frequenza di apprendimento determina la velocità o la lentezza dell'apprendimento che il learner converge sulla soluzione ottimale. Se le dimensioni del passaggio sono eccessive, si rischia di oltrepassare la soluzione ottimale. Se le dimensioni del passaggio sono troppo piccole, il training richiede più tempo per convergere sulla soluzione migliore.
Numero di alberi costruiti: indicare il numero totale di alberi decisionali da creare nell'insieme. Creando più alberi decisionali, è possibile ottenere una copertura migliore, ma il tempo di training aumenta.

Se si imposta il valore su 1; tuttavia, viene generato un solo albero (l'albero con il set iniziale di parametri) e non vengono eseguite altre iterazioni.
Inizializzazione numero casuale: digitare un intero facoltativo non negativo da usare come valore di inizializzazione casuale. La specifica di un valore di inizializzazione garantisce la riproducibilità tra esecuzioni con gli stessi dati e parametri.

Per impostazione predefinita, il seed casuale è impostato su 0, il che significa che il valore di inizializzazione viene ottenuto dall'orologio di sistema.
Eseguire il training del modello:
- Se si imposta La modalità di training suSingolo parametro, connettere un set di dati con tag e il componente Train Model .
- Se si imposta La modalità di training suIntervallo di parametri, connettere un set di dati con tag e eseguire il training del modello usando Gli iperparametri del modello.
Nota

Se si passa un intervallo di parametri a Train Model, usa solo il valore predefinito nell'elenco dei parametri singoli.

Se si passa un singolo set di valori di parametro al componente Ottimizzare gli iperparametri del modello , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per il learner.

Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.
Inviare la pipeline.

Risultati

Al termine del training:

Per usare il modello per l'assegnazione dei punteggi, connettere Train Model to Score Model (Train Model to Score Model) per stimare i valori per i nuovi esempi di input.
Per salvare uno snapshot del modello sottoposto a training, selezionare Scheda Output nel pannello destro del modello sottoposto a training e fare clic sull'icona Registra set di dati . La copia del modello sottoposto a training verrà salvata come componente nell'albero dei componenti e non verrà aggiornata in esecuzioni successive della pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.

Componente regressione dell'albero delle decisioni incrementato

Altre informazioni sugli alberi di regressione incrementati

Come configurare la regressione dell'albero delle decisioni con aumento

Risultati

Passaggi successivi

Risorse aggiuntive