Filter Based Feature Selection

Questo articolo descrive come usare il componente Selezione funzionalità basata su filtro in Progettazione Azure Machine Learning. Questo componente consente di identificare le colonne nel set di dati di input con maggiore potenza predittiva.

In generale, la selezione delle funzionalità fa riferimento al processo di applicazione di test statistici agli input, in base a un output specificato. L'obiettivo è determinare quali colonne sono più predittive dell'output. Il componente Selezione funzionalità basata su filtro fornisce più algoritmi di selezione delle funzionalità da scegliere. Il componente include metodi di correlazione, ad esempio la correlazione di Pearson e i valori chi quadrato.

Quando si usa il componente Selezione funzionalità basata su filtro, specificare un set di dati e identificare la colonna contenente l'etichetta o la variabile dipendente. Specificare quindi un singolo metodo da usare per misurare l'importanza della funzionalità.

Il componente restituisce un set di dati contenente le colonne di funzionalità migliori, come classificato in base alla potenza predittiva. Restituisce anche i nomi delle funzionalità e i relativi punteggi dalla metrica selezionata.

Quale selezione di funzionalità basata su filtri è

Questo componente per la selezione delle funzionalità viene chiamato "basato su filtro" perché si usa la metrica selezionata per trovare attributi irrilevanti. È quindi possibile filtrare le colonne ridondanti dal modello. Si sceglie una singola misura statistica adatta ai dati e il componente calcola un punteggio per ogni colonna di funzionalità. Le colonne vengono restituite classificate dai punteggi delle funzionalità.

La scelta delle funzioni appropriate può permettere di migliorare la precisione e l'efficienza della classificazione.

In genere si usano solo le colonne con i punteggi migliori per compilare il modello predittivo. Le colonne con punteggi di selezione delle funzionalità scarse possono essere lasciate nel set di dati e ignorate quando si compila un modello.

Come scegliere una metrica di selezione delle funzionalità

Il componente selezione funzionalità Filter-Based offre un'ampia gamma di metriche per valutare il valore delle informazioni in ogni colonna. Questa sezione fornisce una descrizione generale di ogni metrica e come viene applicata. È possibile trovare requisiti aggiuntivi per l'uso di ogni metrica nelle note tecniche e nelle istruzioni per la configurazione di ogni componente.

  • Correlazione di Pearson

    La statistica di correlazione di Pearson, o il coefficiente di correlazione di Pearson, è noto anche nei modelli statistici come r valore. Per due variabili qualsiasi restituisce un valore che indica la forza della correlazione.

    Il coefficiente di correlazione di Pearson viene calcolato a partire dalla covarianza di due variabili e dalla divisione del prodotto delle rispettive deviazioni standard. Le modifiche della scala nelle due variabili non influiscono sul coefficiente.

  • Chi quadrato

    Il test del chi quadrato a due vie è un metodo statistico che consente di misurare la distanza tra i valori previsti e i risultati effettivi. Il metodo presuppone che le variabili siano casuali e derivate da un adeguato campione di variabili indipendenti. La risultante statistica del chi quadrato indica la distanza dei risultati ottenuti da quelli previsti (casuali).

Suggerimento

Se è necessaria un'opzione diversa per il metodo di selezione delle funzionalità personalizzate, usare il componente Execute R Script .

Come configurare Filter-Based Selezione funzionalità

Si sceglie una metrica statistica standard. Il componente calcola la correlazione tra una coppia di colonne: la colonna etichetta e una colonna di funzionalità.

  1. Aggiungere il componente selezione funzionalità Filter-Based alla pipeline. È possibile trovarlo nella categoria Selezione funzionalità nella finestra di progettazione.

  2. Connettere un set di dati di input contenente almeno due colonne che sono potenziali funzionalità.

    Per assicurarsi che una colonna venga analizzata e venga generato un punteggio di funzionalità, usare il componente Modifica metadati per impostare l'attributo IsFeature .

    Importante

    Assicurarsi che le colonne specificate come input siano funzionalità potenziali. Ad esempio, una colonna contenente un singolo valore non ha alcun valore informativo.

    Se si sa che alcune colonne renderebbero funzionalità non consigliate, è possibile rimuoverle dalla selezione della colonna. È anche possibile usare il componente Modifica metadati per contrassegnarli come Categorical.

  3. Per il metodo di assegnazione dei punteggi delle funzionalità, scegliere uno dei metodi statistici stabiliti seguenti da usare per calcolare i punteggi.

    Metodo Requisiti
    Correlazione di Pearson L'etichetta può essere di testo o numerica. Le funzionalità devono essere numeriche.
    Chi quadrato Le etichette e le funzionalità possono essere di testo o numerico. Usare questo metodo per l'importanza della funzionalità di calcolo per due colonne categoriche.

    Suggerimento

    Se si modifica la metrica selezionata, tutte le altre selezioni verranno reimpostate. Assicurarsi quindi di impostare prima questa opzione.

  4. Selezionare l'opzione Opera sulle colonne di funzionalità solo per generare un punteggio solo per le colonne contrassegnate in precedenza come funzionalità.

    Se si cancella questa opzione, il componente creerà un punteggio per qualsiasi colonna che soddisfi in caso contrario i criteri, fino al numero di colonne specificate in Numero di funzionalità desiderate.

  5. Per colonna Target selezionare Avvia selettore colonna per scegliere la colonna etichetta in base al nome o all'indice. (Gli indici sono basati su un'unica.
    È necessaria una colonna di etichetta per tutti i metodi che coinvolgono la correlazione statistica. Il componente restituisce un errore in fase di progettazione se non si sceglie alcuna colonna etichetta o più colonne di etichetta.

  6. Per Numero di funzionalità desiderate, immettere il numero di colonne di funzionalità che si desidera restituire di conseguenza:

    • Il numero minimo di funzionalità che è possibile specificare è uno, ma è consigliabile aumentare questo valore.

    • Se il numero specificato di funzioni desiderate è superiore al numero di colonne disponibili nel set di dati, verranno restituite tutte le funzioni. Vengono restituite anche le funzionalità con zero punteggi.

    • Se si specificano meno colonne dei risultati rispetto alle colonne di funzionalità, le funzionalità vengono classificate in base al punteggio decrescente. Vengono restituite solo le funzionalità principali.

  7. Inviare la pipeline.

Importante

Se si userà Selezione funzionalità basata su filtro nell'inferenza, è necessario usare Seleziona trasformazione colonne per archiviare il risultato selezionato e Applica trasformazione per applicare la trasformazione selezionata alla funzione selezionata al set di dati di assegnazione dei punteggi.

Fare riferimento allo screenshot seguente per compilare la pipeline, per assicurarsi che le selezioni di colonna siano uguali per il processo di assegnazione dei punteggi.

Pipeline di esempio

Risultati

Al termine dell'elaborazione:

  • Per visualizzare un elenco completo delle colonne di funzionalità analizzate e dei relativi punteggi, fare clic con il pulsante destro del mouse sul componente e selezionare Visualizza.

  • Per visualizzare il set di dati in base ai criteri di selezione delle funzionalità, fare clic con il pulsante destro del mouse sul componente e scegliere Visualizza.

Se il set di dati contiene meno colonne del previsto, controllare le impostazioni del componente. Controllare anche i tipi di dati delle colonne fornite come input. Ad esempio, se si imposta Numero di funzionalità desiderate su 1, il set di dati di output contiene solo due colonne: la colonna etichetta e la colonna di funzionalità con classificazione più elevata.

Note tecniche

Dettagli dell'implementazione

Se si usa la correlazione di Pearson su una funzionalità numerica e un'etichetta categorica, il punteggio di funzionalità viene calcolato come segue:

  1. Per ogni livello nella colonna categorica, calcolare la media condizionale della colonna numerica.

  2. Correlare la colonna di mezzi condizionali con la colonna numerica.

Requisiti

  • Non è possibile generare un punteggio di selezione delle funzionalità per qualsiasi colonna designata come colonna Etichetta o Punteggio .

  • Se si tenta di usare un metodo di assegnazione dei punteggi con una colonna di un tipo di dati che il metodo non supporta, il componente genererà un errore. In alternativa, verrà assegnato un punteggio zero alla colonna.

  • Se una colonna contiene valori logici (true/false), vengono elaborati come True = 1 e False = 0.

  • Una colonna non può essere una funzionalità se è stata designata come etichetta o un punteggio.

Come vengono gestiti i valori mancanti

  • Non è possibile specificare come colonna di destinazione (etichetta) qualsiasi colonna con tutti i valori mancanti.

  • Se una colonna contiene valori mancanti, il componente li ignora quando calcola il punteggio per la colonna.

  • Se una colonna designata come colonna di funzionalità contiene tutti i valori mancanti, il componente assegna un punteggio zero.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.