Assign Data to Clusters

Articolo
05/06/2019

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
Altre informazioni sulle Azure Machine Learning.

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Assegna i dati ai cluster con un modello di clustering con training esistente

Categoria: Punteggio

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Assign Data to Clusters (Assegna dati a cluster) in Machine Learning Studio (versione classica) per generare stime usando un modello di clustering di cui è stato training l'algoritmo di clustering K-Means.

Il modulo restituisce un set di dati che contiene le probabili assegnazioni per ogni nuovo punto dati. Crea anche un grafo PCA (Principal Component Analysis) per visualizzare la dimensionalità dei cluster.

Avviso

Questo modulo sostituisce il modulo Assign to Clusters (deprecato), disponibile solo per il supporto di esperimenti precedenti.

Come usare l'assegnazione di dati ai cluster

In Machine Learning Studio (versione classica) individuare un modello di clustering con training precedente. È possibile creare ed eseguire il training di un modello di clustering usando uno dei metodi seguenti:
- Configurare l'algoritmo K-means usando il modulo K-Means Clustering e quindi eseguire il training del modello usando un set di dati e il modulo Train Clustering Model .
- Configurare una gamma di opzioni per l'algoritmo K-means usando K-Means Clustering e quindi eseguire il training del modello usando il modulo Sweep Clustering .
È anche possibile aggiungere un modello di clustering con training esistente dal gruppo Modelli salvati nell'area di lavoro.
Collegare il modello con training alla porta di input sinistra di Assegna dati ai cluster.
Collegare un nuovo set di dati come input. In questo set di dati le etichette sono facoltative. In genere, il clustering è un metodo di apprendimento non supervisionato, quindi non è previsto che si conoscono le categorie in anticipo.

Tuttavia, le colonne di input devono corrispondere alle colonne usate per il training del modello di clustering, in caso contrario si verifica un errore.

Suggerimento

Per ridurre il numero di colonne restituite dalle stime del cluster, usare Seleziona colonne nel set di datie selezionare un subset delle colonne.
Lasciare selezionata l'opzione Controlla accodamento o Deseleziona solo risultati se si vuole che i risultati contengano il set di dati di input completo, insieme a una colonna che indica i risultati (assegnazioni di cluster).

Se si deseleziona questa opzione, si ottengono solo i risultati. Ciò può essere utile quando si creano stime come parte di un servizio Web.
Eseguire l'esperimento.

Risultati

Il modulo Assign Data to Clusters ( Assegna dati a cluster) restituisce due tipi di risultati nell'output del set di dati Results :

Per visualizzare la separazione dei cluster nel modello, fare clic sull'output del modulo e selezionare Visualizza

Questo comando visualizza un grafico PCA (Principal Component Analysis) che esegue il mapping della raccolta di valori in ogni cluster a due assi dei componenti.
- Il primo asse dei componenti è il set combinato di funzioni che acquisisce la varianza maggiore nel modello. Viene tracciato sull'asse x (componente principale 1).
- L'asse dei componenti successivo rappresenta un set combinato di caratteristiche ortogonali al primo componente e che aggiunge al grafico la maggior parte delle informazioni. Viene tracciato sull'asse y (componente principale 2).
Dal grafico è possibile visualizzare la separazione tra i cluster e la modalità di distribuzione dei cluster lungo gli assi che rappresentano i componenti principali.

Per visualizzare la tabella dei risultati per ogni case nei dati di input, collegare il modulo Converti in set di dati e visualizzare i risultati in Studio (versione classica).

Questo set di dati contiene le assegnazioni del cluster per ogni caso e una metrica di distanza che fornisce indicazioni sulla distanza tra questo caso specifico e il centro del cluster.

Nome colonna di output	Descrizione
Assegnazioni	Indice in base 0 che indica a quale cluster è stato assegnato il punto dati.
DistancesToClusterCenter n. n	Per ogni punto dati, questo valore indica la distanza dal punto dati al centro del cluster assegnato e la distanza dagli altri cluster. La metrica usata per calcolare la distanza viene determinata quando si configura il modello di clustering K-means.

Input previsti

Nome	Tipo	Descrizione
Trained model	ICluster interface	Modello di clustering con training
Set di dati	Tabella dati	Origine dati di input

Parametri del modulo

Nome	Tipo	Intervallo	Facoltativo	Predefinito	Descrizione
Solo accodamento o risultato			Necessario	true	Indicare se il set di dati di output deve contenere il set di dati di input, nonché i risultati o solo i risultati
Specifica la modalità di sweep dei parametri	Metodi sweep	Elenco:Intera griglia\| Sweep casuale	Necessario	Sweep casuale	Esegue lo sweep dell'intera griglia nello spazio dei parametri oppure esegue lo sweep usando un numero limitato di esecuzioni di esempio

Output

Nome	Tipo	Descrizione
Set di dati di risultati	Tabella dati	Set di dati di input aggiunto dalla colonna di dati delle assegnazioni oppure solo la colonna delle assegnazioni

Eccezioni

Eccezione	Descrizione
Errore 0003	L'eccezione si verifica se uno o più input sono null o vuoti.

Vedi anche

Clustering K-Means
Punteggio

Share via