Two-Class componente albero delle decisioni incrementato

Articolo
06/01/2023

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un modello di Machine Learning basato sull'algoritmo degli alberi delle decisioni incrementato.

Un albero delle decisioni incrementato è un metodo di apprendimento completo in cui il secondo albero corregge gli errori del primo albero, il terzo albero corregge gli errori dei primi e dei secondi alberi e così via. Le stime si basano sull'intero insieme di alberi che rendono la stima.

In genere, se configurati correttamente, gli alberi delle decisioni incrementati sono i metodi più semplici con cui ottenere prestazioni ottimali in un'ampia gamma di attività di Machine Learning. Tuttavia, sono anche uno degli studenti più a elevato utilizzo di memoria e l'implementazione corrente contiene tutto in memoria. Pertanto, un modello di albero delle decisioni incrementato potrebbe non essere in grado di elaborare i set di dati di grandi dimensioni che alcuni studenti lineari possono gestire.

Questo componente si basa sull'algoritmo LightGBM.

Modalità di configurazione

Questo componente crea un modello di classificazione non sottoposto a training. Poiché la classificazione è un metodo di apprendimento con supervisione, per eseguire il training del modello, è necessario un set di dati con tag che include una colonna etichetta con un valore per tutte le righe.

È possibile eseguire il training di questo tipo di modello usando Train Model.

In Azure Machine Learning aggiungere il componente Boosted Decision Tree alla pipeline.
Specificare la modalità di training del modello impostando l'opzione Crea modalità di training .
- Singolo parametro: se si sa come configurare il modello, è possibile specificare un set specifico di valori come argomenti.
- Intervallo di parametri: se non si è certi dei parametri migliori, è possibile trovare i parametri ottimali usando il componente Tune Model Hyperparameters . È possibile fornire un intervallo di valori e l'iterazione del trainer su più combinazioni delle impostazioni per determinare la combinazione di valori che generano il risultato migliore.
Per Numero massimo di foglie per albero, indicare il numero massimo di nodi terminale (foglie) che possono essere creati in qualsiasi albero.

Aumentando questo valore, potenzialmente si aumentano le dimensioni dell'albero e si ottiene una maggiore precisione. Possono tuttavia verificarsi casi di overfitting e tempi di training più lunghi.
Per Numero minimo di campioni per nodo foglia, indicare il numero di casi necessari per creare qualsiasi nodo terminale (foglia) in un albero.

Aumentando questo valore, aumenta la soglia per la creazione di nuove regole. Ad esempio, con un valore predefinito di 1, anche un singolo caso può determinare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno cinque casi che soddisfano le stesse condizioni.
Per Frequenza di apprendimento digitare un numero compreso tra 0 e 1 che definisce le dimensioni del passaggio durante l'apprendimento.

La frequenza di apprendimento determina la velocità o la lentezza dell'apprendimento che il learner converge sulla soluzione ottimale. Se le dimensioni del passaggio sono troppo grandi, è possibile superare la soluzione ottimale. Se le dimensioni del passaggio sono troppo piccole, il training richiede più tempo per convergere sulla soluzione migliore.
Per Numero di alberi costruiti, indicare il numero totale di alberi decisionali da creare nell'insieme. Creando più alberi delle decisioni, è possibile ottenere una migliore copertura, ma saranno necessari tempi di training maggiori.

Se si imposta il valore su 1, viene generato un solo albero (l'albero con il set iniziale di parametri) e non vengono eseguite altre iterazioni.
Per inizializzazione numero casuale, digitare facoltativamente un intero non negativo da usare come valore di inizializzazione casuale. La specifica di un valore di inizializzazione garantisce la riproducibilità tra esecuzioni con gli stessi dati e parametri.

Il valore di inizializzazione casuale viene impostato per impostazione predefinita su 0, ovvero il valore di inizializzazione viene ottenuto dall'orologio di sistema. Le esecuzioni successive che usano un seed casuale possono avere risultati diversi.
Eseguire il training del modello:
- Se si imposta La modalità di training suSingolo parametro, connettere un set di dati con tag e il componente Train Model .
- Se si imposta La modalità di training suIntervallo di parametri, connettere un set di dati con tag e eseguire il training del modello usando Gli iperparametri del modello.
Nota

Se si passa un intervallo di parametri a Train Model, usa solo il valore predefinito nell'elenco dei parametri singoli.

Se si passa un singolo set di valori di parametro al componente Ottimizzare gli iperparametri del modello , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per il learner.

Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.

Risultati

Al termine del training:

Per salvare uno snapshot del modello sottoposto a training, selezionare la scheda Output nel pannello destro del componente Training modello . Selezionare l'icona Registra set di dati per salvare il modello come componente riutilizzabile.
Per usare il modello per l'assegnazione dei punteggi, aggiungere il componente Score Model a una pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.

Condividi tramite

Two-Class componente albero delle decisioni incrementato

Modalità di configurazione

Risultati

Passaggi successivi

Risorse aggiuntive