Algoritmo Microsoft ClusteringMicrosoft Clustering Algorithm

Si applica a: yesSQL Server Analysis Services alcunAzure Analysis ServicesAPPLIES TO: yesSQL Server Analysis Services noAzure Analysis Services

L'algoritmo MicrosoftMicrosoft Clustering è un algoritmo di segmentazione o clustering che esegue l'iterazione dei case in un set di dati per raggrupparli in cluster con caratteristiche simili.The MicrosoftMicrosoft Clustering algorithm is a segmentation or clustering algorithm that iterates over cases in a dataset to group them into clusters that contain similar characteristics. Tali raggruppamenti sono utili per l'esplorazione dei dati, l'identificazione delle relative anomalie e la creazione di stime.These groupings are useful for exploring data, identifying anomalies in the data, and creating predictions.

I modelli di clustering identificano in un set di dati le relazioni che non è possibile derivare mediante l'osservazione casuale.Clustering models identify relationships in a dataset that you might not logically derive through casual observation. Ad esempio, è possibile desumere per logica che le persone che si recano sul posto di lavoro in bicicletta in genere non abitano lontano.For example, you might easily guess that people who commute to their jobs by bicycle do not typically live a long distance from where they work. Tuttavia l'algoritmo può individuare altre caratteristiche non altrettanto ovvie sulle persone che si recano a lavoro in bicicletta.The algorithm, however, can find other characteristics about bicycle commuters that are not as obvious. Nel diagramma seguente, il cluster A rappresenta i dati relativi alla persone che tendono a usare l'automobile per recarsi a lavoro, mentre il cluster B rappresenta i dati relativi alle persone che tendono a recarsi a lavoro in bicicletta.In the following diagram, cluster A represents data about people who tend to drive to work, while cluster B represents data about people who tend to ride bicycles to work.

Modello di cluster delle tendenze dei pendolariCluster pattern of commuter tendencies

L'algoritmo di clustering si differenzia dagli altri algoritmi di data mining, ad esempio dall'algoritmo MicrosoftMicrosoft Decision Trees, per il fatto che non è necessario designare una colonna stimabile per compilare un modello di clustering.The clustering algorithm differs from other data mining algorithms, such as the MicrosoftMicrosoft Decision Trees algorithm, in that you do not have to designate a predictable column to be able to build a clustering model. L'algoritmo di clustering esegue il training del modello rigorosamente in base alle relazioni esistenti tra i dati e ai cluster identificati.The clustering algorithm trains the model strictly from the relationships that exist in the data and from the clusters that the algorithm identifies.

EsempioExample

Si consideri un gruppo di persone con informazioni demografiche simili che acquistano prodotti analoghi dall'azienda Adventure WorksAdventure Works .Consider a group of people who share similar demographic information and who buy similar products from the Adventure WorksAdventure Works company. Tale gruppo di persone rappresenta un cluster di dati.This group of people represents a cluster of data. Un database può contenere vari cluster di questo tipo.Several such clusters may exist in a database. Se si osservano le colonne che costituiscono un cluster, è possibile individuare più chiaramente le relazioni reciproche esistenti tra i record di un set di dati.By observing the columns that make up a cluster, you can more clearly see how records in a dataset are related to one another.

Funzionamento dell'algoritmoHow the Algorithm Works

L'algoritmo MicrosoftMicrosoft Clustering identifica innanzitutto le relazioni esistenti in un set di dati e genera una serie di cluster basati su tali relazioni.The MicrosoftMicrosoft Clustering algorithm first identifies relationships in a dataset and generates a series of clusters based on those relationships. Un grafico a dispersione costituisce un metodo utile per rappresentare visivamente il modo in cui l'algoritmo raggruppa i dati, come illustrato nel diagramma seguente.A scatter plot is a useful way to visually represent how the algorithm groups data, as shown in the following diagram. Tale grafico rappresenta tutti i case del set di dati e ogni case corrisponde a un punto del grafico.The scatter plot represents all the cases in the dataset, and each case is a point on the graph. I cluster corrispondono ai raggruppamenti dei punti nel grafico e illustrano le relazioni identificate dall'algoritmo.The clusters group points on the graph and illustrate the relationships that the algorithm identifies.

Grafico a dispersione dei case in un set di datiScatter plot of cases in a dataset

Dopo aver definito i cluster, l'algoritmo calcola l'accuratezza con cui i cluster rappresentano i raggruppamenti dei punti e quindi tenta di ridefinire tali raggruppamenti per creare cluster in grado di rappresentare i dati con maggiore accuratezza.After first defining the clusters, the algorithm calculates how well the clusters represent groupings of the points, and then tries to redefine the groupings to create clusters that better represent the data. L'algoritmo esegue l'iterazione di questo processo fino a quando non è più possibile migliorare ulteriormente i risultati mediante la ridefinizione dei cluster.The algorithm iterates through this process until it cannot improve the results more by redefining the clusters.

È possibile personalizzare il funzionamento dell'algoritmo specificando una tecnica di clustering, limitando il numero massimo di cluster o modificando la quantità di supporto necessaria per creare un cluster.You can customize the way the algorithm works by selecting a specifying a clustering technique, limiting the maximum number of clusters, or changing the amount of support required to create a cluster. Per altre informazioni, vedere Riferimento tecnico per l'algoritmo Microsoft Clustering.For more information, see Microsoft Clustering Algorithm Technical Reference. questo algoritmo include due metodi di clustering diffusi: clustering K-means ed Expectation Maximization.this algorithm includes two popular clustering methods: K-means clustering and the Expectation Maximization method.

Dati richiesti per i modelli di clusteringData Required for Clustering Models

Quando si preparano i dati da utilizzare nel training di un modello di clustering, verificare che siano chiari i requisiti per l'algoritmo specifico, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.When you prepare data for use in training a clustering model, you should understand the requirements for the particular algorithm, including how much data is needed, and how the data is used.

I requisiti per un modello di clustering sono i seguenti:The requirements for a clustering model are as follows:

  • Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record.A single key column Each model must contain one numeric or text column that uniquely identifies each record. Le chiavi composte non sono consentite.Compound keys are not allowed.

  • Colonne di input Ogni modello deve contenere almeno una colonna di input che contiene i valori usati per compilare i cluster.Input columns Each model must contain at least one input column that contains the values that are used to build the clusters. È possibile includere tutte le colonne di input desiderate, ma a seconda del numero di valori in ciascuna colonna, l'aggiunta di colonne supplementari può implicare un aumento del tempo necessario per il training del modello.You can have as many input columns as you want, but depending on the number of values in each column, the addition of extra columns can increase the time it takes to train the model.

  • Colonna stimabile facoltativa L'algoritmo non richiede una colonna stimabile per compilare il modello, ma è possibile aggiungere una colonna stimabile di qualsiasi tipo di dati.Optional predictable column The algorithm does not need a predictable column to build the model, but you can add a predictable column of almost any data type. I valori della colonna stimabile possono essere considerati come input per il modello di clustering oppure è possibile specificare che devono essere utilizzati solo per la stima.The values of the predictable column can be treated as input to the clustering model, or you can specify that it be used for prediction only. Se ad esempio si vuole stimare il reddito dei clienti creando cluster in base a dati demografici come l'area geografica o l'età, specificare il reddito come PredictOnly e aggiungere tutte le altre colonne, ad esempio area geografica o età, come input.For example, if you want to predict customer income by clustering on demographics such as region or age, you would specify income as PredictOnly and add all the other columns, such as region or age, as inputs.

    Per informazioni più dettagliate sui tipi di contenuto e i tipi di dati supportati per i modelli di clustering, vedere la sezione Requisiti di Riferimento tecnico per l'algoritmo Microsoft Clustering.For more detailed information about the content types and data types supported for clustering models, see the Requirements section of Microsoft Clustering Algorithm Technical Reference.

Visualizzazione di un modello di clusteringViewing a Clustering Model

Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Clustering.To explore the model, you can use the Microsoft Cluster Viewer. Quando si visualizza un modello di clustering, Analysis ServicesAnalysis Services mostra i cluster in un diagramma che indica le relazioni tra essi, oltre a fornire un profilo dettagliato di ogni cluster, un elenco degli attributi che distinguono ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training.When you view a clustering model, Analysis ServicesAnalysis Services shows you the clusters in a diagram that depicts the relationships among clusters, and also provides a detailed profile of each cluster, a list of the attributes that distinguish each cluster from the others, and the characteristics of the entire training data set. Per altre informazioni, vedere Visualizzare un modello usando il Visualizzatore Microsoft Clustering.For more information, see Browse a Model Using the Microsoft Cluster Viewer.

Per maggiori dettagli, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer.If you want to know more detail, you can browse the model in the Microsoft Generic Content Tree Viewer. Il contenuto archiviato per il modello include la distribuzione per tutti i valori in ogni nodo, la probabilità di ogni cluster e altre informazioni.The content stored for the model includes the distribution for all values in each node, the probability of each cluster, and other information. Per altre informazioni, vedere Mining Model Content for Clustering Models (Analysis Services - Data Mining).For more information, see Mining Model Content for Clustering Models (Analysis Services - Data Mining).

Creazione di stimeCreating Predictions

In seguito al training del modello, i risultati vengono archiviati come set di modelli, esplorabili o utilizzabili per eseguire stime.After the model has been trained, the results are stored as a set of patterns, which you can explore or use to make predictions.

È possibile creare query per restituire stime sulla probabilità che si ottenga il fit dei nuovi dati nei cluster individuati o per ottenere statistiche descrittive sui cluster.You can create queries to return predictions about whether new data fits into the clusters that were discovered, or to obtain descriptive statistics about the clusters.

Per informazioni sulla creazione di query in base a un modello di data mining, vedere Query di data mining.For information about how to create queries against a data mining model, see Data Mining Queries. Per alcuni esempi su come usare le query con un modello di clustering, vedere Esempi di query sul modello di clustering.For examples of how to use queries with a clustering model, see Clustering Model Query Examples.

OsservazioniRemarks

  • Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.Supports the use of Predictive Model Markup Language (PMML) to create mining models.

  • Supporta il drill-through.Supports drillthrough.

  • Supporta l'utilizzo di modelli di data mining OLAP e la creazione di dimensioni di data mining.Supports the use of OLAP mining models and the creation of data mining dimensions.

Vedere ancheSee Also

Algoritmi di Data Mining & #40; Analysis Services - Data Mining & #41; Data Mining Algorithms (Analysis Services - Data Mining)
Riferimento tecnico per Microsoft Clustering algoritmo Microsoft Clustering Algorithm Technical Reference
Contenuto del modello di data mining per il Clustering modelli & #40; Analysis Services - Data Mining & #41; Mining Model Content for Clustering Models (Analysis Services - Data Mining)
Esempi di Query sul modello di clusteringClustering Model Query Examples