Condividi tramite


Componente Regressione foresta decisionale

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un modello di regressione basato su un insieme di alberi delle decisioni.

Dopo aver configurato il modello, è necessario eseguire il training del modello usando un set di dati con etichetta e il componente Train Model . Sarà quindi possibile usare il modello con training per ottenere stime.

Funzionamento

Gli alberi delle decisioni sono modelli non parametrici che eseguono una sequenza di semplici test per ogni istanza, attraversando una struttura dei dati ad albero binario fino a raggiungere un nodo foglia (decisione).

Gli alberi delle decisioni offrono i vantaggi seguenti:

  • Sono efficienti sia nel calcolo che nell'uso della memoria durante il training e la stima.

  • Possono rappresentare limiti di decisione non lineari.

  • Eseguono la selezione e la classificazione integrata delle funzioni e sono resilienti in caso di funzioni con rumore.

Questo modello di regressione è costituito da un insieme di alberi delle decisioni. Ogni albero in una foresta delle decisioni di regressione restituisce una distribuzione gaussiana come stima. Viene eseguita un'aggregazione sull'insieme di alberi per trovare una distribuzione gaussiana più vicina alla distribuzione combinata per tutti gli alberi del modello.

Per altre informazioni sul framework teorico per questo algoritmo e sulla relativa implementazione, vedere questo articolo : Foreste decisionali: Unified Framework for Classification, Regression, Density Estimation, Manifold Learning e Semi-Supervised Learning

Come configurare il modello di regressione della foresta decisionale

  1. Aggiungere il componente Decision Forest Regression alla pipeline. È possibile trovare il componente nella finestra di progettazione in Machine Learning, Inizializza modello e Regressione.

  2. Aprire le proprietà del componente e per il metodo Resampling scegliere il metodo usato per creare i singoli alberi. È possibile scegliere tra Bagging o Replica.

    • Bagging: il bagging è detto anche aggregazione bootstrap. Ogni albero in una foresta delle decisioni di regressione restituisce una distribuzione gaussiana tramite la stima. L'aggregazione consiste nel trovare un Gaussiano i cui primi due momenti corrispondono ai momenti della miscela di distribuzioni gaussian date combinando tutte le distribuzioni restituite da singoli alberi.

      Per altre informazioni, vedere la voce wikipedia per l'aggregazione bootstrap.

    • Replica: nella replica, ogni albero viene sottoposto a training esattamente sugli stessi dati di input. La determinazione del predicato diviso usato per ogni nodo dell'albero rimane casuale e gli alberi saranno diversi.

      Per altre informazioni sul processo di training con l'opzione Replica, vedere Decision Forests for Visione artificiale and Medical Image Analysis.For more information about the training process with the Replicate option, see Decision Forests for Visione artificiale and Medical Image Analysis. Criminisi e J. Shotton. Springer 2013..

  3. Specificare la modalità di training del modello impostando l'opzione Crea modalità di training .

    • Parametro singolo

      Se si conosce il modo in cui si desidera configurare il modello, è possibile definire come argomenti un set specifico di valori. Questi valori possono essere stati appresi dalle sperimentazioni o ricevuti come istruzioni.

    • Intervallo di parametri: selezionare questa opzione se non si è certi dei parametri migliori e si vuole eseguire uno sweep di parametri. Selezionare un intervallo di valori per scorrere e ottimizzare gli iperparametri del modello esegue l'iterazione su tutte le possibili combinazioni delle impostazioni fornite per determinare gli iperparametri che producono i risultati ottimali.

  4. Per Numero di alberi delle decisioni, indicare il numero totale di alberi delle decisioni da creare nell'insieme. Creando più alberi delle decisioni, è possibile ottenere una migliore copertura, ma saranno necessari tempi di training maggiori.

    Suggerimento

    Se si imposta il valore su 1; ciò significa tuttavia che verrà generato un solo albero (l'albero con il set iniziale di parametri) e non verranno eseguite altre iterazioni.

  5. Per Profondità massima degli alberi delle decisioni digitare un numero per limitare la profondità massima di qualsiasi albero delle decisioni. L'aumento della profondità dell'albero potrebbe aumentare la precisione, con il rischio però di overfitting e di aumento dei tempi di training.

  6. Per Numero di divisioni casuali per nodo, digitare il numero di divisioni da usare durante la compilazione di ogni nodo dell'albero. Una divisione indica che le funzionalità in ogni livello dell'albero (nodo) sono suddivise in modo casuale.

  7. Per Numero minimo di campioni per nodo foglia, indicare il numero minimo di case necessari per creare qualsiasi nodo terminale (foglia) in un albero.

    Aumentando questo valore, aumenta la soglia per la creazione di nuove regole. Ad esempio, con un valore predefinito di 1, anche un singolo caso può determinare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno cinque casi che soddisfano le stesse condizioni.

  8. Eseguire il training del modello:

    • Se si imposta Crea modalità di training su Parametro singolo, connettere un set di dati con tag e il componente Train Model .

    • Se si imposta Crea modalità di training su Intervallo di parametri, connettere un set di dati con tag ed eseguire il training del modello usando Tune Model Hyperparameters.

    Nota

    Se si passa un intervallo di parametri a Train Model, viene usato solo il valore predefinito nell'elenco dei singoli parametri.

    Se si passa un singolo set di valori di parametro al componente Tune Model Hyperparameters , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per lo strumento di apprendimento.

    Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.

  9. Inviare la pipeline.

Risultati

Al termine del training:

  • Per salvare uno snapshot del modello sottoposto a training, selezionare il componente di training, quindi passare alla scheda Output nel pannello destro. Fare clic sull'icona Registra modello. È possibile trovare il modello salvato come componente nell'albero dei componenti.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.