ClusterDistance (DMX)ClusterDistance (DMX)

QUESTO ARGOMENTO SI APPLICA A:sìSQL Server (a partire dalla versione 2008)noDatabase SQL di AzurenoAzure SQL Data Warehouse noParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server (starting with 2008)noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

Il ClusterDistance funzione restituisce la distanza del case di input dal cluster specificato, o se viene specificato alcun cluster, la distanza del case di input dal cluster più probabile.The ClusterDistance function returns the distance of the input case from the specified cluster, or if no cluster is specified, the distance of the input case from the most likely cluster.

SintassiSyntax


ClusterDistance([<ClusterID expression>])  

Si applica aApplies To

È possibile utilizzare questa funzione solo se il modello di data mining sottostante supporta il clustering.This function can be used only if the underlying data mining model supports clustering. La funzione può essere utilizzata con qualsiasi tipo di modello di clustering (EM, K-medie, ecc.), ma i risultati variano in base all'algoritmo.The function can be used with any kind of clustering model (EM, K-Means, etc.), but the results differ depending on the algorithm.

Tipo restituitoReturn Type

Valore scalare.A scalar value.

OsservazioniRemarks

Il ClusterDistance funzione restituisce la distanza tra il case di input e il cluster con la probabilità più elevata per case di input.The ClusterDistance function returns the distance between the input case and the cluster that has the highest probability for that input case.

Poiché con il clustering K-medie un case può appartenere solo a un cluster, la distanza del cluster è sempre 0 con un peso di appartenenza di 1.0.In case of K-Means clustering, since any case can belong to only one cluster, with a membership weight of 1.0, the cluster distance is always 0. Tuttavia, in K-medie si presuppone che per ogni cluster sia presente un centro.However, in K-Means, each cluster is assumed to have a centroid. È possibile ottenere il valore del centro esplorando o eseguendo una query sulla tabella nidificata NODE_DISTRIBUTION nel contenuto del modello di data mining.You can obtain the value of the centroid by querying or browsing the NODE_DISTRIBUTION nested table in the mining model content. Per altre informazioni, vedere Mining Model Content for Clustering Models (Analysis Services - Data Mining).For more information, see Mining Model Content for Clustering Models (Analysis Services - Data Mining).

Con il metodo di clustering predefinito EM tutti i punti nel cluster presentano la stessa probabilità; pertanto, per motivi strutturali non è previsto un centro per il cluster.In the case of the default EM clustering method, all the points inside the cluster are considered equally likely; therefore, by design there is no centroid for the cluster. Il valore di ClusterDistance tra un case specifico e un determinato cluster N viene calcolata come segue:The value of ClusterDistance between a particular case and a particular cluster N is calculated as follows:

ClusterDistance(N) =1–(membershipWeight(N))ClusterDistance(N) =1–(membershipWeight(N))

Oppure:Or:

ClusterDistance(N) = 1 – ClusterProbability (N))ClusterDistance(N) =1–ClusterProbability (N))

In Analysis ServicesAnalysis Services sono disponibili le seguenti funzioni aggiuntive per l'esecuzione di query sui modelli di clustering: Analysis ServicesAnalysis Services provides the following additional functions for querying clustering models:

  • Utilizzare il DMX Cluster ( ) funzione per restituire il cluster più probabile.Use the Cluster (DMX) function to return the most likely cluster.

  • Utilizzare il ClusterProbability ( DMX ) funzione per ottenere la probabilità che un case appartenga a un cluster specifico.Use the ClusterProbability (DMX) function to get the probability that a case belongs to a particular cluster. Questo valore viene utilizzato come valore inverso della distanza del cluster.This value serves as the inverse of the cluster distance.

  • Utilizzare il PredictHistogram ( DMX ) funzione per restituire un istogramma della probabilità del case di input in ogni cluster del modello.Use the PredictHistogram (DMX) function to return a histogram of the likelihood of the input case existing in each of the model’s clusters.

  • Utilizzare il PredictCaseLikelihood ( DMX ) funzione per restituire una misura da 0 a 1 che indica la probabilità un case di input è presente prendendo in considerazione il modello appreso dall'algoritmo.Use the PredictCaseLikelihood (DMX) function to return a measure from 0 to 1 that indicates how likely an input case is to exist considering the model learned by the algorithm.

Esempio 1: Acquisizione della distanza del cluster rispetto al cluster più probabileExample1: Obtaining Cluster Distance to the Most Likely Cluster

Nell'esempio seguente viene restituita la distanza dal case specificato al cluster a cui appartiene il case più probabile.The following example returns the distance from the specified case to the cluster that the case most likely belongs to.

SELECT  
    ClusterDistance()  
FROM  
    [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Risultati dell'esempio:Example results:

EspressioneExpression
0.04773909307051450.0477390930705145

Per individuare il tipo di cluster, è possibile utilizzare Cluster al posto di ClusterDistance nell'esempio precedente.To find out which cluster this is, you can substitute Cluster for ClusterDistance in the preceding sample.

Risultati dell'esempio:Example results:

$CLUSTER$CLUSTER
Cluster 6Cluster 6

Esempio 2: Acquisizione della distanza rispetto a un cluster specificatoExample2: Obtaining Distance to a Specified Cluster

La sintassi seguente utilizza il set di righe dello schema relativo al contenuto del modello di data mining per restituire l'elenco degli ID dei nodi e le didascalie dei nodi per i cluster del modello di data mining.The following syntax uses the mining model content schema rowset to return the list of node IDs and node captions for the clusters in the mining model. È quindi possibile utilizzare la didascalia del nodo come argomento di identificatore di cluster nel ClusterDistance (funzione).You can then use the node caption as the cluster identifier argument in the ClusterDistance function.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION   
FROM <model>.CONTENT   
WHERE NODE_TYPE = 5  

Risultati dell'esempio:Example results:

NODE_UNIQUE_NAMENODE_UNIQUE_NAME NODE_CAPTIONNODE_CAPTION
001001 Cluster 1Cluster 1
002002 Cluster 2Cluster 2

Nell'esempio di sintassi seguente viene restituita la distanza del case specificato dal cluster con etichetta Cluster 2.The following syntax example returns the distance of the specified case from the cluster labeled Cluster 2.

SELECT  
    ClusterDistance('Cluster 2')  
AS [Cluster 2 Distance]  
FROM [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Risultati dell'esempio:Example results:

Cluster 2 DistanceCluster 2 Distance
0.970082092363940.97008209236394

Vedere ancheSee Also

DMX cluster ( ) Cluster (DMX)
Data Mining Extensions ( DMX ) Riferimento (funzione) Data Mining Extensions (DMX) Function Reference
DMX funzioni ( ) Functions (DMX)
Contenuto del modello di data mining per il Clustering modelli ( Analysis Services - Data Mining )Mining Model Content for Clustering Models (Analysis Services - Data Mining)