Esempi di query sul modello di clusteringClustering Model Query Examples

Si applica a: yesSQL Server Analysis Services alcunAzure Analysis ServicesAPPLIES TO: yesSQL Server Analysis Services noAzure Analysis Services

Quando si crea una query su un modello di data mining, è possibile recuperare i metadati sul modello oppure creare una query contenuto che fornisca dettagli sui modelli individuati nell'analisi.When you create a query against a data mining model, you can retrieve metadata about the model, or create a content query that provides details about the patterns discovered in analysis. In alternativa, è possibile creare una query di stima che utilizza i modelli nel modello per eseguire stime per i nuovi dati.Alternatively, you can create a prediction query, which uses the patterns in the model to make predictions for new data. Ogni tipo di query fornirà informazioni diverse.Each type of query will provide different information. Ad esempio, tramite una query contenuto potrebbero essere forniti dettagli aggiuntivi sui cluster trovati, mentre tramite una query di stima potrebbe venir indicato a quale cluster è più probabile che appartenga un nuovo punto dati.For example, a content query might provide additional details about the clusters that were found, whereas a prediction query might tell you in which cluster a new data point is most likely to belong.

Questa sezione illustra come creare query per i modelli basati sull'algoritmo MicrosoftMicrosoft Clustering.This section explains how to create queries for models that are based on the MicrosoftMicrosoft Clustering algorithm.

Content QueriesContent Queries

Recupero di metadati del modello tramite DMXGetting Model Metadata by Using DMX

Recupero di metadati del modello dal set di righe dello schemaRetrieving Model Metadata from the Schema Rowset

Restituzione di un cluster o di un elenco di clusterReturning a Cluster or a List of Clusters

Restituzione di attributi per un clusterReturning Attributes for a Cluster

Restituzione del profilo di un cluster tramite stored procedure di sistemaReturning a Cluster Profile Using System Stored Procedures

Individuazione dei fattori discriminanti per un clusterFinding Discriminating Factors for a Cluster

Restituzione di case appartenenti a un clusterReturning Cases that Belong to a Cluster

Query di stimaPrediction Queries

Stima dei risultati da un modello di clusteringPredicting Outcomes from a Clustering Model

Determinazione dell'appartenenza al clusterDetermining Cluster Membership

Restituzione di tutti i cluster possibili con probabilità e distanzaReturning All Possible Clusters with Probability and Distance

Ricerca di informazioni sul modelloFinding Information about the Model

In tutti i modelli di data mining viene esposto il contenuto appreso dall'algoritmo secondo uno schema standardizzato, definito set di righe dello schema del modello di data mining.All mining models expose the content learned by the algorithm according to a standardized schema, the mining model schema rowset. È possibile creare query sul set di righe dello schema del modello di data mining tramite istruzioni DMX (Data Mining Extension).You can create queries against the mining model schema rowset by using Data Mining Extension (DMX) statements. In SQL Server 2017SQL Server 2017è anche possibile eseguire una query direttamente sui set di righe dello schema come tabelle di sistema.In SQL Server 2017SQL Server 2017, you can also query the schema rowsets directly as system tables.

Torna all'inizioReturn to Top

Esempio di query 1: Recupero di metadati del modello tramite DMXSample Query 1: Getting Model Metadata by Using DMX

Con la query seguente vengono restituiti i metadati di base sul modello di clustering TM_Clusteringcreato nell'Esercitazione di base sul data mining.The following query returns basic metadata about the clustering model, TM_Clustering, that you created in the Basic Data Mining Tutorial. I metadati disponibili nel nodo padre di un modello di clustering includono il nome del modello, il database in cui è archiviato e il numero di nodi figlio del modello.The metadata available in the parent node of a clustering model includes the name of the model, the database where the model is stored, and the number of child nodes in the model. Questa query utilizza una query contenuto DMX per recuperare i metadati dal nodo padre del modello:This query uses a DMX content query to retrieve the metadata from the parent node of the model:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION,   
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION  
FROM TM_Clustering.CONTENT  
WHERE NODE_TYPE = 1  

Nota

È necessario includere il nome della colonna CHILDREN_CARDINALITY tra parentesi quadre per distinguerlo dalla parola chiave riservata MDX con lo stesso nome.You must enclose the name of the column, CHILDREN_CARDINALITY, in brackets to distinguish it from the Multidimensional Expressions (MDX) reserved keyword of the same name.

Risultati dell'esempio:Example results:

MODEL_CATALOGMODEL_CATALOG TM_ClusteringTM_Clustering
MODEL_NAMEMODEL_NAME Adventure Works DWAdventure Works DW
NODE_CAPTIONNODE_CAPTION Modello di clusterCluster Model
NODE_SUPPORTNODE_SUPPORT 1293912939
CHILDREN_CARDINALITYCHILDREN_CARDINALITY 1010
NODE_DESCRIPTIONNODE_DESCRIPTION TuttoAll

Per una definizione del significato di queste colonne in un modello di clustering, vedere Contenuto dei modelli di data mining per i modelli di clustering (Analysis Services - Data mining).For a definition of what these columns mean in a clustering model, see Mining Model Content for Clustering Models (Analysis Services - Data Mining).

Torna all'inizioReturn to Top

Esempio di query 2: Recupero di metadati del modello dal set di righe dello schemaSample Query 2: Retrieving Model Metadata from the Schema Rowset

Se si esegue una query sul set di righe dello schema di data mining, è possibile trovare le stesse informazioni restituite in una query contenuto DMX.By querying the data mining schema rowset, you can find the same information that is returned in a DMX content query. Tuttavia, il set di righe dello schema contiene alcune colonne aggiuntive,However, the schema rowset provides some additional columns. tra cui i parametri utilizzati durante la creazione del modello, la data e l'ora dell'ultima elaborazione del modello e il proprietario del modello.These include the parameters that were used when the model was created, the date and time that the model was last processed, and the owner of the model.

Nell'esempio seguente vengono restituite le date di creazione, modifica e ultima elaborazione del modello. Vengono inoltre restituiti i parametri di clustering utilizzati per la compilazione del modello e la dimensione del set di training.The following example returns the date the model was created, modified, and last processed, together with the clustering parameters that were used to build the model, and the size of the training set. Queste informazioni possono essere utili per documentare il modello o per determinare quali opzioni di clustering sono state utilizzate per creare un modello esistente.This information can be useful for documenting the model, or for determining which of the clustering options were used to create an existing model.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS   
from $system.DMSCHEMA_MINING_MODELS  
WHERE MODEL_NAME = 'TM_Clustering'  

Risultati dell'esempio:Example results:

MODEL_NAMEMODEL_NAME TM_ClusteringTM_Clustering
DATE_CREATEDDATE_CREATED 10/12/2007 7:42:51 PM10/12/2007 7:42:51 PM
LAST_PROCESSEDLAST_PROCESSED 10/12/2007 8:09:54 PM10/12/2007 8:09:54 PM
PREDICTION_ENTITYPREDICTION_ENTITY Bike BuyerBike Buyer
MINING_PARAMETERSMINING_PARAMETERS CLUSTER_COUNT=10,CLUSTER_COUNT=10,

CLUSTER_SEED=0,CLUSTER_SEED=0,

CLUSTERING_METHOD=1,CLUSTERING_METHOD=1,

MAXIMUM_INPUT_ATTRIBUTES=255,MAXIMUM_INPUT_ATTRIBUTES=255,

MAXIMUM_STATES=100,MAXIMUM_STATES=100,

MINIMUM_SUPPORT=1,MINIMUM_SUPPORT=1,

MODELLING_CARDINALITY=10,MODELLING_CARDINALITY=10,

SAMPLE_SIZE=50000,SAMPLE_SIZE=50000,

STOPPING_TOLERANCE=10STOPPING_TOLERANCE=10

Torna all'inizioReturn to Top

Ricerca di informazioni sui clusterFinding Information about Clusters

Tramite le query contenuto più utili sui modelli di clustering generalmente viene restituito lo stesso tipo di informazioni che è possibile esplorare usando il Visualizzatore cluster.The most useful content queries on clustering models generally return the same type of information that you can browse by using the Cluster Viewer. ovvero i profili e le caratteristiche del cluster e l'analisi discriminante tra cluster.This includes cluster profiles, cluster characteristics, and cluster discrimination. In questa sezione vengono forniti esempi di query che recuperano queste informazioni.This section provides examples of queries that retrieve this information.

Esempio di query 3: Restituzione di un cluster o di un elenco di clusterSample Query 3: Returning a Cluster or List of Clusters

Poiché tutti i cluster includono un nodo di tipo 5, è possibile recuperare facilmente un elenco dei cluster eseguendo una query sul contenuto del modello per individuare solo i nodi di tale tipo.Because all clusters have a node type of 5, you can easily retrieve a list of the clusters by querying the model content for only the nodes of that type. È inoltre possibile filtrare i nodi restituiti per probabilità o per supporto, come illustrato in questo esempio.You can also filter the nodes that are returned by probability or by support, as shown in this example.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION  
FROM TM_Clustering.CONTENT  
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000  

Risultati dell'esempio:Example results:

NODE_NAMENODE_NAME 002002
NODE_CAPTIONNODE_CAPTION Cluster 2Cluster 2
NODE_SUPPORTNODE_SUPPORT 16491649
NODE_DESCRIPTIONNODE_DESCRIPTION English Education=Graduate Degree , 32 <=Age <=48 , Number Cars Owned=0 , 35964.0771121808 <=Yearly Income <=97407.7163393957 , English Occupation=Professional , Commute Distance=2-5 Miles , Region=North America , Bike Buyer=1 , Number Children At Home=0 , Number Cars Owned=1 , Commute Distance=0-1 Miles , English Education=Bachelors , Total Children=1 , Number Children At Home=2 , English Occupation=Skilled Manual , Marital Status=S , Total Children=0 , House Owner Flag=0 , Gender=F , Total Children=2 , Region=PacificEnglish Education=Graduate Degree , 32 <=Age <=48 , Number Cars Owned=0 , 35964.0771121808 <=Yearly Income <=97407.7163393957 , English Occupation=Professional , Commute Distance=2-5 Miles , Region=North America , Bike Buyer=1 , Number Children At Home=0 , Number Cars Owned=1 , Commute Distance=0-1 Miles , English Education=Bachelors , Total Children=1 , Number Children At Home=2 , English Occupation=Skilled Manual , Marital Status=S , Total Children=0 , House Owner Flag=0 , Gender=F , Total Children=2 , Region=Pacific

Gli attributi che definiscono il cluster sono disponibili in due colonne del set di righe dello schema di data mining.The attributes that define the cluster can be found in two columns in the data mining schema rowset.

  • La colonna NODE_DESCRIPTION contiene un elenco delimitato da virgole di attributi.The NODE_DESCRIPTION column contains a comma-separated list of attributes. Si noti che l'elenco di attributi potrebbe essere abbreviato ai fini della visualizzazione.Note that the list of attributes might be abbreviated for display purposes.

  • La tabella nidificata nella colonna NODE_DISTRIBUTION contiene l'elenco completo di attributi per il cluster.The nested table in the NODE_DISTRIBUTION column contains the full list of attributes for the cluster. Se il client non supporta set di righe gerarchici, è possibile restituire la tabella nidificata aggiungendo la parola chiave FLATTENED prima dell'elenco di colonne SELECT.If your client does not support hierarchical rowsets, you can return the nested table by adding the FLATTENED keyword before the SELECT column list. Per altre informazioni sull'uso della parola chiave FLATTENED, vedere SELECT FROM <model>.CONTENT (DMX).For more information about the use of the FLATTENED keyword, see SELECT FROM <model>.CONTENT (DMX).

Torna all'inizioReturn to Top

Esempio di query 4: Restituzione di attributi per un clusterSample Query 4: Returning Attributes for a Cluster

Nel Visualizzatore cluster viene visualizzato un profilo con l'elenco degli attributi e dei valori per ogni cluster.For every cluster, the Cluster Viewer displays a profile that lists the attributes and their values. Viene inoltre visualizzato un istogramma che indica la distribuzione dei valori per l'intero popolamento dei case nel modello.The viewer also displays a histogram that shows the distribution of values for the whole population of cases in the model. Se si esplora il modello nel visualizzatore, è possibile copiare facilmente l'istogramma dalla Legenda data mining e quindi incollarlo in Excel o in un documento di Word.If you are browsing the model in the viewer, you can easily copy the histogram from the Mining Legend and then paste it to Excel or a Word document. È inoltre possibile utilizzare il riquadro Caratteristiche cluster del visualizzatore per confrontare graficamente gli attributi di cluster diversi.You can also use the Cluster Characteristics pane of the viewer to graphically compare the attributes of different clusters.

Se tuttavia è necessario ottenere valori per più di un cluster alla volta, risulta più semplice eseguire una query sul modello.However, if you must obtain values for more than one cluster at a time, it is easier to query the model. Ad esempio, quando si esplora il modello, si potrebbe notare che i primi due cluster differiscono tra loro in relazione a un attributo, ovvero Number Cars Owned.For example, when you browse the model, you might notice that the top two clusters differ with regard to one attribute, Number Cars Owned. Pertanto, si desidera estrarre i valori per ogni cluster.Therefore, you want to extract the values for each cluster.

SELECT TOP 2 NODE_NAME,   
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')  
AS t  
FROM [TM_Clustering].CONTENT  
WHERE NODE_TYPE = 5  

La prima riga del codice specifica che si desiderano solo i primi due cluster.The first line of the code specifies that you want only the top two clusters.

Nota

Per impostazione predefinita, i cluster sono ordinati per supporto.By default, the clusters are ordered by support. Pertanto, la colonna NODE_SUPPORT può essere omessa.Therefore, the NODE_SUPPORT column can be omitted.

La seconda riga del codice aggiunge un'istruzione sub-SELECT che restituisce solo determinate colonne della colonna della tabella nidificata.The second line of the code adds a sub-select statement that returns only certain columns from the nested table column. Limita inoltre le righe della tabella nidificata a quelle correlate all'attributo di destinazione, Number Cars Owned.Furthermore, it restricts the rows from the nested table to those related to the target attribute, Number Cars Owned. Per semplificare la visualizzazione, la tabella è associata a un alias.To simplify the display, the nested table is aliased.

Nota

La colonna della tabella nidificata, PROBABILITY, deve essere racchiusa tra parentesi quadre perché corrisponde anche al nome di una parola chiave riservata MDX.The nested table column, PROBABILITY, must be enclosed in brackets because it is also the name of a reserved MDX keyword.

Risultati dell'esempio:Example results:

NODE_NAMENODE_NAME T.ATTRIBUTE_VALUET.ATTRIBUTE_VALUE T.PROBABILITYT.PROBABILITY
001001 22 0.8292077540.829207754
001001 11 0.1093541560.109354156
001001 33 0.0344815520.034481552
001001 44 0.0135033020.013503302
001001 00 0.0134532360.013453236
001001 MissingMissing 00
002002 00 0.5769800230.576980023
002002 11 0.4066239390.406623939
002002 22 0.0163800820.016380082
002002 33 1,60E-051.60E-05
002002 44 00
002002 MissingMissing 00

Torna all'inizioReturn to Top

Esempio di query 5: Restituzione del profilo di un cluster tramite stored procedure di sistemaSample Query 5: Return a Cluster Profile Using System Stored Procedures

Come alternativa rapida, anziché scrivere query usando DMX, è anche possibile chiamare le stored procedure di sistema usate da Analysis ServicesAnalysis Services per gestire i cluster.As a shortcut, rather than writing your own queries by using DMX, you can also call the system stored procedures that Analysis ServicesAnalysis Services uses to work with clusters. Nell'esempio seguente viene illustrato come utilizzare le stored procedure interne per restituire il profilo per un cluster con ID 002.The following example illustrates how to use the internal stored procedures to return the profile for a cluster with the ID of 002.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005  

Analogamente, è possibile utilizzare una stored procedure di sistema per restituire le caratteristiche di un cluster specifico, come illustrato nell'esempio seguente:Similarly, you can use a system stored procedure to return the characteristics of a specific cluster, as shown in the following example:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005  

Risultati dell'esempio:Example results:

AttributiAttributes ValoriValues FrequenzaFrequency SupportoSupport
Number Children at HomeNumber Children at Home 00 0.9999998290767980.999999829076798 899899
RegionRegion North AmericaNorth America 0.9998528752415080.999852875241508 899899
Total ChildrenTotal Children 00 0.9938609585723230.993860958572323 893893

Nota

Le stored procedure di sistema per il data mining sono per uso interno e MicrosoftMicrosoft si riserva il diritto di modificarle, se necessario.The data mining system stored procedures are for internal use and MicrosoftMicrosoft reserves the right to change them as needed. Per l'utilizzo in un ambiente di produzione, si consiglia di creare query utilizzando DMX, AMO o XMLA.For production use, we recommend that you create queries by using DMX, AMO, or XMLA.

Torna all'inizioReturn to Top

Esempio di query 6: Individuazione dei fattori discriminanti per un clusterSample Query 6: Find Discriminating Factors for a Cluster

La scheda Analisi discriminante tra cluster del Visualizzatore cluster consente di confrontare facilmente un cluster con un altro cluster o con tutti i case rimanenti (il complemento del cluster).The Cluster Discrimination tab of the Cluster Viewer enables you to easily compare a cluster with another cluster, or compare a cluster with all remaining cases (the complement of the cluster).

La creazione di query per restituire queste informazioni può tuttavia essere complessa e potrebbe essere necessario eseguire un'elaborazione aggiuntiva sul client per archiviare i risultati temporanei e confrontare i risultati di due o più query.However, creating queries to return this information can be complex, and you might need some additional processing on the client to store the temporary results and compare the results of two or more queries. Come alternativa rapida, è possibile utilizzare le stored procedure di sistema.As a shortcut, you can use the system stored procedures.

Con la query seguente viene restituita una singola tabella che indica i principali fattori discriminanti tra i due cluster con ID nodo 009 e 007.The following query returns a single table that indicates the primary discriminating factors between the two clusters that have the node IDs of 009 and 007. Gli attributi con valori positivi prediligono il cluster 009, mentre quelli con valori negativi il cluster 007.Attributes with positive values favor cluster 009, whereas attributes with negative values favor cluster 007.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)  

Risultati dell'esempio:Example results:

AttributiAttributes ValoriValues PunteggioScore
RegionRegion North AmericaNorth America 100100
English OccupationEnglish Occupation Skilled ManualSkilled Manual 94.900380389865494.9003803898654
RegionRegion EuropeEurope -72.5041051379789-72.5041051379789
English OccupationEnglish Occupation ManualManual -69.6503163202722-69.6503163202722

Queste informazioni sono identiche a quelle presentate nel grafico del visualizzatore Analisi discriminante tra cluster se si seleziona Cluster 9 dal primo elenco a discesa e Cluster 7 dal secondo elenco a discesa.This is the same information that is presented in the chart of the Cluster Discrimination viewer if you select Cluster 9 from the first drop-down list and Cluster 7 from the second drop-down list. Per confrontare il cluster 9 con il relativo complemento, utilizzare la stringa vuota nel secondo parametro, come illustrato nell'esempio seguente:To compare cluster 9 with its complement, you use the empty string in the second parameter, as shown in the following example:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)  

Nota

Le stored procedure di sistema per il data mining sono per uso interno e MicrosoftMicrosoft si riserva il diritto di modificarle, se necessario.The data mining system stored procedures are for internal use and MicrosoftMicrosoft reserves the right to change them as needed. Per l'utilizzo in un ambiente di produzione, si consiglia di creare query utilizzando DMX, AMO o XMLA.For production use, we recommend that you create queries by using DMX, AMO, or XMLA.

Torna all'inizioReturn to Top

Esempio d query 7: Restituzione di case appartenenti a un clusterSample Query 7: Returning Cases that Belong to a Cluster

Se per il modello di data mining è stato abilitato il drill-through, è possibile creare query tramite cui vengono restituite informazioni dettagliate sui case utilizzati nel modello.If drillthrough has been enabled on the mining model, you can create queries that return detailed information about the cases used in the model. Inoltre, se il drill-through è stato abilitato per la struttura di data mining, è possibile includere le colonne della struttura sottostante usando la funzione StructureColumn (DMX).Moreover, if drillthrough has been enabled on the mining structure, you can include columns from the underlying structure by using the StructureColumn (DMX) function.

Nell'esempio seguente vengono restituite due colonne utilizzate nel modello, Age e Region, e un'altra colonna, First Name, che non è stata utilizzata nel modello.The following example returns two columns that were used in the model, Age and Region, and one more column, First Name, that was not used in the model. La query restituisce solo i case classificati in Cluster 1.The query returns only cases that were classified into Cluster 1.

SELECT [Age], [Region], StructureColumn('First Name')  
FROM [TM_Clustering].CASES  
WHERE IsInNode('001')  

Per restituire i case che appartengono a un cluster, è necessario conoscere l'ID del cluster.To return the cases that belong to a cluster, you must know the ID of the cluster. È possibile ottenere questo valore esplorando il modello in uno dei visualizzatori.You can obtain the ID of the cluster by browsing the model in one of the viewers. In alternativa, è possibile rinominare un cluster per farvi riferimento in modo più semplice e in seguito utilizzare il nome al posto di un numero ID.Or, you can rename a cluster for easier reference, after which you could use the name in place of an ID number. Tenere presente, tuttavia, che i nomi assegnati a un cluster andranno persi se il modello viene rielaborato.However, know that the names that you assign to a cluster will be lost if the model is reprocessed.

Torna all'inizioReturn to Top

Esecuzione di stime tramite il modelloMaking Predictions using the Model

Anche se il clustering viene solitamente usato per descrivere e comprendere i dati, l'implementazione MicrosoftMicrosoft consente anche di eseguire una stima sull'appartenenza al cluster e di restituire le probabilità associate alla stima.Although clustering is typically used for describing and understanding data, the MicrosoftMicrosoft implementation also lets you make prediction about cluster membership, and return probabilities associated with the prediction. In questa sezione vengono forniti alcuni esempi su come creare query di stima sui modelli di clustering.This section provides examples of how to create prediction queries on clustering models. È possibile eseguire stime per più case, specificando un'origine dati tabulare, oppure fornire nuovi valori contemporaneamente creando una query singleton.You can make predictions for multiple cases, by specifying a tabular data source, or you can provide new values on at a time by creating a singleton query. Per maggiore chiarezza, negli esempi di questa sezione vengono usate tutte query singleton.For clarity the examples in this section are all singleton queries.

Per altre informazioni sulla creazione di query di stima tramite DMX, vedere Strumenti query di data mining.For more information about how to create prediction queries using DMX, see Data Mining Query Tools.

Torna all'inizioReturn to Top

Esempio di query 8: Stima dei risultati da un modello di clusteringSample Query 8: Predicting Outcomes from a Clustering Model

Se il modello di clustering creato contiene un attributo stimabile, è possibile utilizzarlo per eseguire stime sui risultati.If the clustering model you create contains a predictable attribute, you can use the model to make predictions about outcomes. Tuttavia, il modello gestisce l'attributo stimabile in modo diverso a seconda che la colonna stimabile venga impostata su Predict o PredictOnly.However, the model handles the predictable attribute differently depending on whether you set the predictable column to Predict or PredictOnly. Se si imposta l'uso della colonna su Predict, i valori relativi a tale attributo vengono aggiunti al modello di clustering e vengono visualizzati come attributi nel modello finito.If you set the usage of the column to Predict, the values for that attribute are added to the clustering model and appear as attributes in the finished model. Se invece si imposta l'uso della colonna su PredictOnly, i valori non vengono usati per creare cluster.However, if you set the usage of the column to PredictOnly, the values are not used to create clusters. Al contrario, al termine della modalità, l'algoritmo di clustering crea nuovi valori per l'attributo PredictOnly in base ai cluster a cui appartiene ogni case.Instead, after the mode is completed, the clustering algorithm creates new values for the PredictOnly attribute based on the clusters to which each case belongs.

Con la query seguente viene fornito un nuovo case singolo al modello, in cui le uniche informazioni sul case sono l'età e il sesso.The following query provides a single new case to the model, where the only information about the case is the age and gender. L'istruzione SELECT specifica la coppia attributo/valore stimabile di interesse, mentre la funzione PredictProbability (DMX) indica la probabilità che un case con tali attributi genererà il risultato di destinazione.The SELECT statement specifies the predictable attribute/value pair that you are interested in, and the PredictProbability (DMX) function tells you the probability that a case with those attributes will have the targeted outcome.

SELECT  
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)  
FROM  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender]) AS t  

Esempio dei risultati quando l'uso è impostato su Predict:Example of results when usage is set to Predict:

Bike BuyerBike Buyer EspressioneExpression
11 0.5929247357403380.592924735740338

Esempio dei risultati quando l'uso è impostato su PredictOnly e il modello viene rielaborato:Example of results when the usage is set to PredictOnly and the model is reprocessed:

Bike BuyerBike Buyer EspressioneExpression
11 0.558435440031020.55843544003102

In questo esempio la differenza nel modello non è significativa.In this example, the difference in the model is not significant. Tuttavia, talvolta può essere importante individuare le differenze tra la distribuzione effettiva dei valori e le stime del modello.However, sometimes it can be important to detect differences between the actual distribution of values and what the model predicts. La scheda PredictCaseLikelihood (DMX) è utile in questo scenario, perché indica il livello di probabilità di un case, dato il modello.The PredictCaseLikelihood (DMX) function is useful in this scenario, because it tells you how likely a case is, given the model.

Il numero restituito dalla funzione PredictCaseLikelihood è una probabilità e pertanto è sempre compreso tra 0 e 1, con il valore 0,5 che rappresenta il risultato casuale.The number that is returned by the PredictCaseLikelihood function is a probability, and therefore is always between 0 and 1, with a value of .5 representing random outcome. Pertanto, un punteggio minore di 0,5 significa che il case stimato è improbabile, dato il modello, mentre un punteggio maggiore di 0,5 indica che è molto probabile ottenere un fit tra il case stimato e il modello.Therefore, a score less than .5 means that the predicted case is unlikely, given the model, and a score over.5 indicates that the predicted case is more likely than not to fit the model.

Ad esempio, con la query seguente vengono restituiti due valori che caratterizzano il livello di probabilità di un nuovo case di esempio.For example, the following query returns two values that characterize the likelihood of a new sample case. Il valore non normalizzato rappresenta la probabilità dato il modello corrente.The non-normalized value represents the probability given the current model. Quando si utilizza la parola chiave NORMALIZED, il punteggio di probabilità restituito dalla funzione viene adattato dividendo la "probabilità con il modello" per la "probabilità senza il modello".When you use the NORMALIZED keyword, the likelihood score that is returned by the function is adjusted by dividing "probability with the model" by "probability without the model".

SELECT  
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]  
FROM  
  [TM_Clustering_PredictOnly]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender]) AS t  

Risultati dell'esempio:Example results:

NormalizedValueNormalizedValue NonNormalizedValueNonNormalizedValue
5.56438372679893E-115.56438372679893E-11 8,65459953145182E-688.65459953145182E-68

Si noti che i numeri di questi risultati sono espressi in formato di notazione scientifica.Note that the numbers in these results are expressed in scientific notation.

Torna all'inizioReturn to Top

Esempio di query 9: Determinazione dell'appartenenza al clusterSample Query 9: Determining Cluster Membership

In questo esempio vengono usate la funzione Cluster (DMX) per restituire il cluster a cui è più probabile che appartenga il nuovo case e la funzione ClusterProbability (DMX) per restituire la probabilità di appartenenza a tale cluster.This example uses the Cluster (DMX) function to return the cluster to which the new case is most likely to belong, and uses the ClusterProbability (DMX) function to return the probability for membership in that cluster.

SELECT Cluster(), ClusterProbability()  
FROM  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender],  
  'S' AS [Marital Status]) AS t  

Risultati dell'esempio:Example results:

$CLUSTER$CLUSTER EspressioneExpression
Cluster 2Cluster 2 0.3979185969516170.397918596951617

Note Per impostazione predefinita, la funzione ClusterProbability restituisce la probabilità del cluster più probabile.Note By default, the ClusterProbability function returns the probability of the most likely cluster. Tuttavia, è possibile specificare un cluster diverso usando la sintassi ClusterProbability('cluster name').However, you can specify a different cluster by using the syntax ClusterProbability('cluster name'). In questo caso, tenere presente che i risultati di ogni funzione di stima sono indipendenti dagli altri risultati.If you do this, be aware that the results from each prediction function are independent of the other results. Pertanto, il punteggio di probabilità nella seconda colonna può fare riferimento a un cluster diverso rispetto a quello specificato nella prima colonna.Therefore, the probability score in the second column could refer to a different cluster than the cluster named in the first column.

Torna all'inizioReturn to Top

Esempio di query 10: Restituzione di tutti i cluster possibili con probabilità e distanzaSample Query 10: Returning All Possible Clusters with Probability and Distance

Nell'esempio precedente il punteggio di probabilità non è molto alto.In the previous example, the probability score was not very high. Per determinare se è disponibile un cluster migliore, è possibile usare la funzione PredictHistogram (DMX) insieme alla funzione Cluster (DMX) per restituire una tabella annidata che includa tutti i cluster possibili, oltre alla probabilità che il nuovo case appartenga a ogni cluster.To determine if there is a better cluster, you can use the PredictHistogram (DMX) function together with the Cluster (DMX) function to return a nested table that includes all possible clusters, together with the probability that the new case that belongs to each cluster. La parola chiave FLATTENED viene utilizzata per modificare il set di righe gerarchico in una tabella flat per semplificare la visualizzazione.The FLATTENED keyword is used to change the hierarchical rowset into a flat table for easier viewing.

SELECT FLATTENED PredictHistogram(Cluster())  
From  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender],  
  'S' AS [Marital Status])  
Expression.$CLUSTERExpression.$CLUSTER Expression.$DISTANCEExpression.$DISTANCE Expression.$PROBABILITYExpression.$PROBABILITY
Cluster 2Cluster 2 0.6020814030483830.602081403048383 0.3979185969516170.397918596951617
Cluster 10Cluster 10 0.7196916867856750.719691686785675 0.2803083132143250.280308313214325
Cluster 4Cluster 4 0.8677725903787910.867772590378791 0.1322274096212090.132227409621209
Cluster 5Cluster 5 0.9310398722009850.931039872200985 0.06896012779901490.0689601277990149
Cluster 3Cluster 3 0.9423592300721670.942359230072167 0.05764076992783280.0576407699278328
Cluster 6Cluster 6 0.9589736689727560.958973668972756 0.04102633102724370.0410263310272437
Cluster 7Cluster 7 0.9790812759267240.979081275926724 0.02091872407327630.0209187240732763
Cluster 1Cluster 1 0.9991690448186240.999169044818624 0.0008309551813763640.000830955181376364
Cluster 9Cluster 9 0.9998312277958940.999831227795894 0.0001687722041057540.000168772204105754
Cluster 8Cluster 8 11 00

Per impostazione predefinita, i risultati sono classificati per probabilità.By default, the results are ranked by probability. I risultati indicano che, anche se la probabilità per Cluster 2 è relativamente bassa, Cluster 2 rappresenta comunque il miglior fit per il nuovo punto dati.The results tell you that, even though the probability for Cluster 2 is fairly low, Cluster 2 is still the best fit for the new data point.

Nota La colonna aggiuntiva, $DISTANCE, rappresenta la distanza tra il punto dati e il cluster.Note The additional column, $DISTANCE, represents the distance from the data point to the cluster. Per impostazione predefinita, l'algoritmo MicrosoftMicrosoft Clustering usa il clustering EM scalabile, che usa più cluster a ogni punto dati e classifica i cluster possibili.By default, the MicrosoftMicrosoft Clustering Algorithm uses scalable EM clustering, which assigns multiple clusters to each data point and ranks the possible clusters. Tuttavia, se si crea il modello di clustering utilizzando l'algoritmo K-medie, è possibile assegnare un unico cluster a ogni punto dati e questa query restituisce solo una riga.However, if you create your clustering model using the K-means algorithm, only one cluster can be assigned to each data point, and this query would return only one row. Per interpretare i risultati della funzione PredictCaseLikelihood (DMX) .Understanding these differences is necessary to interpret the results of the PredictCaseLikelihood (DMX) function. Per altre informazioni sulle differenze tra i clustering EM e K-medie, vedere Riferimento tecnico per l'algoritmo Microsoft Clustering.For more information about the differences between EM and K-means clustering, see Microsoft Clustering Algorithm Technical Reference.

Torna all'inizioReturn to Top

Elenco di funzioniFunction List

Tutti gli algoritmi MicrosoftMicrosoft supportano un set comune di funzioni.All MicrosoftMicrosoft algorithms support a common set of functions. Tuttavia, i modelli compilati usando l'algoritmo MicrosoftMicrosoft Clustering supportano le funzioni aggiuntive elencate nella tabella seguente.However, models that are built by using the MicrosoftMicrosoft Clustering algorithm support the additional functions that are listed in the following table.

Funzione di stimaPrediction Function UtilizzoUsage
Cluster (DMX)Cluster (DMX) Restituisce il cluster che con maggiore probabilità contiene il case di input.Returns the cluster that is most likely to contain the input case.
ClusterDistance (DMX)ClusterDistance (DMX) Viene restituita la distanza del case di input dal cluster specificato o la distanza del case di input dal cluster più probabile, se non viene specificato alcun cluster.Returns the distance of the input case from the specified cluster, or if no cluster is specified, the distance of the input case from the most likely cluster.

Restituisce la probabilità che il case di input appartenga al cluster specificato.Returns the probability that the input case belongs to the specified cluster.
ClusterProbability (DMX)ClusterProbability (DMX) Restituisce la probabilità che il case di input appartenga al cluster specificato.Returns the probability that the input case belongs to the specified cluster.
DMX IsDescendant & #40; & #41;IsDescendant (DMX) Viene determinato se un nodo è figlio di un altro nodo nel modello.Determines whether one node is a child of another node in the model.
DMX IsInNode & #40; & #41;IsInNode (DMX) Indica se il nodo specificato contiene o meno il case corrente.Indicates whether the specified node contains the current case.
PredictAdjustedProbability & #40; DMX & #41;PredictAdjustedProbability (DMX) Viene restituita la probabilità ponderata.Returns the weighted probability.
DMX PredictAssociation & #40; & #41;PredictAssociation (DMX) Viene stimata l'appartenenza a un set di dati associativo.Predicts membership in an associative dataset.
PredictCaseLikelihood (DMX)PredictCaseLikelihood (DMX) Viene restituita la probabilità che un case di input risulti adatto al modello esistente.Returns the likelihood that an input case will fit in the existing model.
PredictHistogram (DMX)PredictHistogram (DMX) Viene restituita una tabella di valori correlati ai valori stimati correnti.Returns a table of values related to the current predicted value.
DMX PredictNodeId & #40; & #41;PredictNodeId (DMX) Viene restituito l'oggetto Node_ID per ogni case.Returns the Node_ID for each case.
DMX PredictProbability & #40; & #41;PredictProbability (DMX) Viene restituita la probabilità per il valore stimato.Returns probability for the predicted value.
PredictStdev & #40; DMX & #41;PredictStdev (DMX) Restituisce la deviazione standard stimata per la colonna specificata.Returns the predicted standard deviation for the specified column.
PredictSupport & #40; DMX & #41;PredictSupport (DMX) Viene restituito il valore di supporto per uno stato specificato.Returns the support value for a specified state.
PredictVariance & #40; DMX & #41;PredictVariance (DMX) Restituisce la varianza di una colonna specificata.Returns the variance of a specified column.

Per la sintassi di funzioni specifiche, vedere Guida di riferimento alle funzioni DMX (Data Mining Extensions).For the syntax of specific functions, see Data Mining Extensions (DMX) Function Reference.

Vedere ancheSee Also

Query di Data Mining Data Mining Queries
Riferimento tecnico per Microsoft Clustering algoritmo Microsoft Clustering Algorithm Technical Reference
Algoritmo Microsoft ClusteringMicrosoft Clustering Algorithm