Analisi in componenti principali

Articolo
05/06/2019

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
Altre informazioni sulle Azure Machine Learning.

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Calcola un set di funzioni con dimensionalità ridotta per l'apprendimento più efficiente

Categoria: Trasformazione dati/Campione e Suddivisione

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Principal Component Analysis in Machine Learning Studio (versione classica) per ridurre la dimensionalità dei dati di training. Il modulo analizza i dati e crea un set di funzionalità ridotto che acquisisce tutte le informazioni contenute nel set di dati, ma in un numero minore di funzionalità.

Il modulo crea inoltre una trasformazione che è possibile applicare ai nuovi dati, per ottenere una simile riduzione della dimensionalità e una compressione delle funzioni analoga, senza richiedere ulteriore training.

Ulteriori informazioni su PCA

Principal Component Analysis (PCA) è una tecnica diffusa nell'apprendimento automatico. Si basa sul fatto che molti tipi di dati dello spazio vettoriale sono comprimibili e che la compressione può essere ottenuta in modo più efficiente tramite campionamento.

I vantaggi dell'analisi pcA sono la visualizzazione dei dati migliorata e l'ottimizzazione dell'uso delle risorse da parte dell'algoritmo di apprendimento.

Il modulo Principal Component Analysis in Machine Learning Studio (versione classica) accetta un set di colonne di caratteristiche nel set di dati specificato e crea una proiezione dello spazio delle funzionalità con dimensionalità inferiore. L'algoritmo usa tecniche di randomizzazione per identificare un sottospazio di funzionalità che acquisisce la maggior parte delle informazioni nella matrice completa delle caratteristiche. Di conseguenza, le matrici di dati trasformate acquisiscono la varianza nei dati originali riducendo al tempo stesso l'effetto del rumore e riducendo al minimo il rischio di overfitting.

Per informazioni generali sull'analisi dei componenti principali, vedere questo articolo di Wikipedia. Per informazioni sugli approcci PCA usati in questo modulo, vedere gli articoli seguenti:

Ricerca della struttura con casualità: algoritmi probabilistici per la costruzione di scomposizione di matrici approssimative. Halko, Martinsson e Tropp, 2010.
Combinazione della casualità strutturata e non strutturata nell'A PCA su larga scala Combinazione di casualità strutturata e non strutturata in PCA su larga scala. Kpimpatziakis e Mineiro, 2013.

Come configurare l'analisi dei componenti principali

Aggiungere il modulo Principal Component Analysis all'esperimento. È possibile trovarlo in Trasformazione dati nella categoria Scala e riduzione.
Connessione set di dati da trasformare e scegliere le colonne delle caratteristiche da analizzare.

Se non è già chiaro quali colonne sono caratteristiche e quali etichette, è consigliabile usare il modulo Modifica metadati per contrassegnare le colonne in anticipo.
Numero di dimensioni a cui ridurre: digitare il numero desiderato di colonne nell'output finale. Ogni colonna rappresenta una dimensione che acquisisce una parte delle informazioni nelle colonne di input.

Ad esempio, se il set 3di dati di origine contiene otto colonne e si digita , vengono restituite tre nuove colonne che acquisiscono le informazioni delle otto colonne selezionate. Le colonne sono denominate Col1, Col2e Col3. Queste colonne non vengono mappate direttamente alle colonne di origine. al contrario, le colonne contengono un'approssimazione dello spazio delle caratteristiche descritto dalle colonne originali da 1 a 8.

Suggerimento

L'algoritmo funziona in modo ottimale quando il numero di dimensioni ridotte è molto inferiore rispetto alle dimensioni originali.
Normalize dense dataset to zero mean (Normalizza set di dati denso a zero): selezionare questa opzione se il set di dati è denso, ovvero contiene pochi valori mancanti. Se selezionata, il modulo normalizza i valori nelle colonne con una media pari a zero prima di qualsiasi altra elaborazione.

Per i set di dati di tipo sparse, questa opzione non deve essere selezionata. Se viene rilevato un set di dati di tipo sparse, viene eseguito l'override del parametro .
Eseguire l'esperimento.

Risultati

Il modulo restituisce un set ridotto di colonne che è possibile usare nella creazione di un modello. È possibile salvare l'output come nuovo set di dati o usarlo nell'esperimento.

Facoltativamente, è possibile salvare il processo di analisi come trasformazione salvata da applicare a un altro set di dati usando Applica trasformazione.

Il set di dati a cui si applica la trasformazione deve avere lo stesso schema del set di dati originale.

Esempio

Per esempi di come viene usata l'analisi dei componenti principali in Machine Learning, vedere l'Azure AI Gallery:

Clustering: individuazione di aziende simili: usa l'analisi dei componenti principali per ridurre il numero di valori dal text mining a un numero gestibile di funzionalità.

Anche se in questo esempio pcA viene applicato usando uno script R personalizzato, viene illustrato come viene in genere usata l'A PCA.

Note tecniche

Il calcolo dei componenti di dimensioni inferiori è in due fasi.

Il primo è costruire un sottospazio non dimensionale che acquisisce l'azione della matrice.
Il secondo è limitare la matrice al sottospazio e quindi calcolare una fattorizzazione standard della matrice ridotta.

Input previsti

Nome	Tipo	Descrizione
Set di dati	Tabella dati	Set di dati di cui è necessario ridurre le dimensioni

Parametri del modulo

Nome	Tipo	Intervallo	Facoltativo	Descrizione	Predefinito
Colonne selezionate	ColumnSelection		Necessario		Colonne selezionate a cui applicare PCA
Number of dimensions to reduce to	Integer	>=1	Necessario		Numero di dimensioni desiderate nel set di dati ridotto
Normalize dense dataset to zero mean	Boolean		Necessario	true	Indica se le colonne di input avranno la media normalizzata per set di dati di tipo dense (ignorato per il parametro relativo ai dati di tipo sparse)

Output

Nome	Tipo	Descrizione
Set di dati di risultati	Tabella dati	Set di dati con dimensioni ridotte
PCA Transformation	Interfaccia ITransform	Trasformazione che, quando applicata a un set di dati, fornirà un nuovo set di dati con dimensioni ridotte

Eccezioni

Eccezione	Descrizione
Errore 0001	L'eccezione si verifica se non è possibile trovare una o più colonne specificate del set di dati.
Errore 0003	L'eccezione si verifica se uno o più input sono null o vuoti.
Errore 0004	L'eccezione si verifica se un parametro è inferiore o uguale a un valore specifico.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Sample and Split
Selezione delle funzionalità

Condividi tramite