Glossario dell'apprendimento automatico

Articolo
04/08/2023

Di seguito sono riportati i principali termini relativi all'apprendimento automatico, utili per la creazione di modelli personalizzati in ML.NET.

Accuratezza

Nell'ambito della classificazione, l'accuratezza è il numero di elementi classificati correttamente diviso per il numero totale di elementi nel set di test. È compresa tra 0 (meno accurato) e 1 (più accurato). L'accuratezza è una delle metriche di valutazione delle prestazioni del modello. Deve essere considerata in combinazione con la precisione, il richiamo e il punteggio F.

Area sottesa alla curva (AUC)

Nella classificazione binaria, una metrica di valutazione costituita dal valore dell'area sotto la curva che traccia il tasso di veri positivi (sull'asse y) rispetto al tasso di falsi positivi (sull'asse x). È compresa tra 0,5 (peggiore) e 1 (migliore). È anche nota come area sottesa alla curva ROC (Receiver Operating Characteristic). Per altre informazioni, vedere l'articolo relativo alle curve ROC (Receiver Operating Characteristic) su Wikipedia.

Classificazione binaria

Un caso di classificazione in cui l'etichetta può essere solo una di due classi. Per altre informazioni, vedere la sezione Classificazione binaria dell'argomento Attività di apprendimento automatico.

Calibrazione

La calibrazione è il processo di mapping di un punteggio non elaborato a un'appartenenza di classe, per la classificazione binaria e multiclasse. Alcuni formatori ML.NET hanno un suffisso NonCalibrated. Questi algoritmi producono un punteggio non elaborato che deve quindi essere mappato a una probabilità di classe.

Catalogo

In ML.NET un catalogo è una raccolta di funzioni di estensione, raggruppate in base a uno scopo comune.

Ad esempio, ogni attività di apprendimento automatico (classificazione binaria, regressione, ranking e così via) include un catalogo di algoritmi di apprendimento automatico disponibili (formatori). Il catalogo per i formatori di classificazione binaria è: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificazione

Quando i dati vengono usati per stimare una categoria, l'attività di apprendimento automatico con supervisione viene denominata classificazione. Il termine classificazione binaria fa riferimento alla stima di due sole categorie (ad esempio, la classificazione di un'immagine come un'immagine di un "gatto" o un "cane"). Il termine classificazione multiclasse fa riferimento alla stima di più categorie (ad esempio, la classificazione di un'immagine come un'immagine di una specifica razza di cani).

Coefficiente di determinazione

Nell'ambito della regressione, una metrica di valutazione che indica il livello di adattamento dei dati a un modello. È compreso tra 0 e 1. Un valore pari a 0 indica che i dati sono casuali o non possono essere adattati al modello. Un valore pari a 1 indica che il modello corrisponde esattamente ai dati. È noto anche come r², R² o r al quadrato.

Dati

I dati sono fondamentali per qualsiasi applicazione di apprendimento automatico. In ML.NET i dati sono rappresentati da oggetti IDataView. Gli oggetti di visualizzazione dei dati:

sono costituiti da colonne e righe
vengono valutati in modalità lazy, ovvero caricano i dati solo quando li chiama un'operazione
contengono uno schema che definisce il tipo, il formato e la lunghezza di ogni colonna

Strumento di stima

Classe di ML.NET che implementa l'interfaccia IEstimator<TTransformer>.

Uno strumento di stima è una specifica di una trasformazione, sia la trasformazione di preparazione dei dati, sia la trasformazione del training del modello di apprendimento automatico. Gli strumenti di stima possono essere concatenati in una pipeline di trasformazioni. I parametri di uno strumento di stima o una pipeline di strumenti di stima vengono appresi quando si chiama Fit. Il risultato di Fit è un trasformatore.

Metodo di estensione

Metodo .NET che fa parte di una classe ma è definito all'esterno della classe. Il primo parametro di un metodo di estensione è un riferimento this statico alla classe a cui appartiene il metodo di estensione.

I metodi di estensione vengono usati spesso in ML.NET per costruire istanze di trasformatori.

Funzionalità

Una proprietà misurabile del fenomeno misurato, in genere un valore numerico (double). Più funzionalità sono denominate vettore di funzionalità, generalmente archiviato come double[]. Le funzionalità definiscono le caratteristiche importanti del fenomeno misurato. Per altre informazioni, vedere l'articolo relativo alle funzionalità su Wikipedia.

Progettazione delle caratteristiche

La progettazione di funzionalità è il processo che comprende la definizione di un set di funzionalità e lo sviluppo di software che produce vettori di funzionalità dai dati disponibili sul fenomeno, ovvero l'estrazione di funzionalità. Per altre informazioni, vedere l'articolo relativo alla progettazione di funzionalità su Wikipedia.

Punteggio F

Nell'ambito della classificazione, una metrica di valutazione che consente di bilanciare la precisione e il richiamo.

Iperparametro

Un parametro di un algoritmo di apprendimento automatico. Alcuni esempi sono il numero di alberi da apprendere in una foresta delle decisioni o la dimensione di incremento in un algoritmo di discesa del gradiente. I valori degli iperparametri sono impostati prima di eseguire il training del modello e gestiscono il processo di individuazione dei parametri della funzione di stima, ad esempio i punti di confronto in un albero delle decisioni o i pesi in un modello di regressione lineare. Per altre informazioni, vedere l'articolo relativo agli iperparametri su Wikipedia.

Etichetta

L'elemento da stimare con il modello di apprendimento automatico. Ad esempio, la razza di un cane o il prezzo di un'azione in futuro.

Perdita di log

Nell'ambito della classificazione, una metrica di valutazione che caratterizza l'accuratezza di un classificatore. Minore è perdita di log, più accurato è il classificatore.

Funzione di perdita

Una funzione di perdita è la differenza tra i valori delle etichette di training e la stima eseguita dal modello. I parametri del modello vengono stimati riducendo al minimo la funzione di perdita.

Formatori diversi possono essere configurati con funzioni di perdita diverse.

Errore assoluto medio (MAE)

Nell'ambito della regressione, una metrica di valutazione costituita dalla media di tutti gli errori del modello, dove un errore del modello è la distanza tra il valore di etichetta stimato e il valore di etichetta corretto.

Modellare

Tradizionalmente, i parametri per la funzione di stima. Ad esempio, i pesi in un modello di regressione lineare o i punti di divisione in un albero delle decisioni. In ML.NET, un modello contiene tutte le informazioni necessarie per stimare l'etichetta di un oggetto di dominio, ad esempio immagine o testo. Questo significa che i modelli ML.NET includono i passaggi necessari per l'estrazione delle funzionalità, nonché i parametri per la funzione di stima.

Classificazione multiclasse

Un caso di classificazione in cui l'etichetta può essere di tre o più classi. Per altre informazioni, vedere la sezione Classificazione multiclasse dell'argomento Attività di apprendimento automatico.

N-gramma

Uno schema di estrazione delle funzionalità per i dati di testo: qualsiasi sequenza di N parole viene trasformata in un valore di funzionalità.

Normalization

La normalizzazione è il processo di ridimensionamento dei dati a virgola mobile in valori compresi tra 0 e 1. Molti degli algoritmi di training usati in ML.NET richiedono la normalizzazione dei dati della funzionalità di input. ML.NET fornisce una serie di trasformazioni per la normalizzazione

Vettore di funzionalità numerico

Un vettore di funzionalità costituito solo da valori numerici. È simile a double[].

Pipeline

Tutte le operazioni necessarie per adattare un modello a un set di dati. Una pipeline è costituita dai passaggi di importazione dei dati, trasformazione, estrazione delle funzionalità e apprendimento. Una volta eseguito il training, una pipeline si trasforma in un modello.

Precisione

Nell'ambito della classificazione, la precisione di una classe è il numero di elementi stimati correttamente come appartenenti alla classe diviso per il numero totale di elementi previsti come appartenenti alla classe.

Richiamo

Nell'ambito della classificazione, il richiamo di una classe è il numero di elementi stimati correttamente come appartenenti alla classe diviso per il numero totale di elementi effettivamente appartenenti alla classe.

Regolarizzazione

La regolarizzazione penalizza un modello lineare per essere troppo complicato. Sono disponibili due tipi di regolarizzazione:

La regolarizzazione $L_1$ azzera i pesi per le funzionalità non significative. La dimensione del modello salvato può ridursi dopo questo tipo di regolarizzazione.
$L_2$ regolarizzazione riduce al minimo l'intervallo di peso per le caratteristiche insignificanti. Si tratta di un processo più generale ed è meno sensibile agli outlier.

Regressione

Un'attività di apprendimento automatico con supervisione in cui l'output è un valore reale, ad esempio double. Un esempio è la stima dei prezzi delle azioni. Per altre informazioni, vedere la sezione Regressione dell'argomento Attività di apprendimento automatico.

Errore assoluto relativo

Nell'ambito della regressione, una metrica di valutazione costituita dalla somma di tutti gli errori assoluti divisa per la somma delle distanze tra i valori di etichetta corretti e la media di tutti i valori di etichetta corretti.

Errore quadratico relativo

Nell'ambito della regressione, una metrica di valutazione costituita dalla somma di tutti gli errori assoluti al quadrato divisa per la somma delle distanze al quadrato tra i valori di etichetta corretti e la media di tutti i valori di etichetta corretti.

Radice dell'errore quadratico medio (RMSE)

Nell'ambito della regressione, una metrica di valutazione costituita dalla radice quadrata della media dei quadrati degli errori.

Assegnazione dei punteggi

L'assegnazione dei punteggi è il processo di applicazione di nuovi dati a un modello di apprendimento automatico sottoposto a training e la successiva generazione di stime. L'assegnazione dei punteggi è nota anche come inferenza. A seconda del tipo di modello, il punteggio può essere un valore non elaborato, una probabilità o una categoria.

Apprendimento automatico con supervisione

Una sottoclasse di apprendimento automatico in cui un modello desiderato stima l'etichetta per dati non ancora visibili. Alcuni esempi sono la classificazione, la regressione e la stima strutturata. Per altre informazioni, vedere l'articolo sull'apprendimento con supervisione su Wikipedia.

Formazione

Il processo di identificazione di un modello per un determinato training set. Per un modello lineare, rappresenta l'individuazione dei pesi. Per un albero, implica l'identificazione dei punti di divisione.

Trasformatore

Classe ML.NET che implementa l'interfaccia ITransformer.

Un trasformatore consente di trasformare un oggetto IDataView in un altro. Viene creato eseguendo il training di uno strumento di stima o di una pipeline di strumenti di stima.

Apprendimento automatico senza supervisione

Una sottoclasse dell'apprendimento automatico in cui un modello desiderato individua una struttura nascosta (o latente) nei dati. Alcuni esempi sono il clustering, la modellazione degli argomenti e la riduzione della dimensionalità. Per altre informazioni, vedere l'articolo relativo all'apprendimento senza supervisione su Wikipedia.