Algoritmo Microsoft Sequence ClusteringMicrosoft Sequence Clustering Algorithm

Si applica a: yesSQL Server Analysis Services alcunAzure Analysis ServicesAPPLIES TO: yesSQL Server Analysis Services noAzure Analysis Services

MicrosoftMicrosoft Sequence Clustering è un algoritmo di tipo unico che combina l'analisi delle sequenze con il clustering.The MicrosoftMicrosoft Sequence Clustering algorithm is a unique algorithm that combines sequence analysis with clustering. È possibile usare questo algoritmo per esplorare i dati contenenti eventi da collegare in una sequenza.You can use this algorithm to explore data that contains events that can be linked in a sequence. L'algoritmo consente di individuare le sequenze più comuni ed esegue il clustering per individuare le sequenze simili.The algorithm finds the most common sequences, and performs clustering to find sequences that are similar. Gli esempi seguenti illustrano i tipi di sequenze che possono essere acquisite come dati per il Machine Learning, al fine di ottenere informazioni su problemi o scenari aziendali comuni:The following examples illustrate the types of sequences that you might capture as data for machine learning, to provide insight about common problems or business scenarios:

  • Clickstream or percorsi di navigazione generati dagli utenti durante l'uso di un sito Web.Clickstreams or click paths generated when users navigate or browse a Web site

  • Log in cui vengono elencati eventi che precedono un incidente, ad esempio errori del disco rigido o deadlock del server.Logs that list events preceding an incident, such as a hard disk failure or server deadlock

  • Record di transazioni in cui viene descritto l'ordine in base al quale un cliente aggiunge articoli al carrello durante gli acquisti online.Transaction records that describe the order in which a customer adds items to a online shopping cart

  • Record in cui si seguono le interazioni del cliente (o paziente) nel tempo, per stimare annullamenti del servizio o altri risultati insufficienti.Records that follow customer or patient interactions over time, to predict service cancellations or other poor outcomes

    Questo algoritmo è simile per molti versi all'algoritmo MicrosoftMicrosoft Clustering.This algorithm is similar in many ways to the MicrosoftMicrosoft Clustering algorithm. ma, anziché rilevare cluster di case contenenti attributi simili, l'algoritmo MicrosoftMicrosoft Sequence Clustering individua i cluster di case contenenti percorsi simili in una sequenza.However, instead of finding clusters of cases that contain similar attributes, the MicrosoftMicrosoft Sequence Clustering algorithm finds clusters of cases that contain similar paths in a sequence.

EsempioExample

Nel sito Web di Adventure Works CyclesAdventure Works Cycles vengono raccolte informazioni sulle pagine visitate dagli utenti del sito e sul relativo ordine di esplorazione.The Adventure Works CyclesAdventure Works Cycles web site collects information about what pages site users visit, and about the order in which the pages are visited. Poiché l'azienda accetta solo ordini online, i clienti devono accedere al sito.Because the company provides online ordering, customers must log in to the site. In questo modo, l'azienda ottiene informazioni di esplorazione per il profilo di ogni cliente.This provides the company with click information for each customer profile. Tramite l'applicazione dell'algoritmo MicrosoftMicrosoft Sequence Clustering a tali dati, l'azienda può individuare gruppi o cluster di clienti con schemi di acquisto o sequenze di selezioni simili.By using the MicrosoftMicrosoft Sequence Clustering algorithm on this data, the company can find groups, or clusters, of customers who have similar patterns or sequences of clicks. In seguito, l'azienda può utilizzare tali cluster per analizzare gli spostamenti degli utenti nel sito Web, identificare le pagine più strettamente correlate alla vendita di un prodotto specifico ed eseguire la stima delle pagine che con maggiore probabilità verranno visitate successivamente.The company can then use these clusters to analyze how users move through the Web site, to identify which pages are most closely related to the sale of a particular product, and to predict which pages are most likely to be visited next.

Funzionamento dell'algoritmoHow the Algorithm Works

MicrosoftMicrosoft Sequence Clustering è un algoritmo ibrido che combina tecniche di clustering e l'analisi delle catene di Markov per identificare i cluster e le relative sequenze.The MicrosoftMicrosoft Sequence Clustering algorithm is a hybrid algorithm that combines clustering techniques with Markov chain analysis to identify clusters and their sequences. Una delle caratteristiche distintive dell'algoritmo MicrosoftMicrosoft Sequence Clustering è l'utilizzo dei dati in sequenza.One of the hallmarks of the MicrosoftMicrosoft Sequence Clustering algorithm is that it uses sequence data. Questi dati rappresentano in genere una serie di eventi o transizioni tra stati in un set di dati, ad esempio una serie di acquisti di prodotti o di clic sul Web per un determinato utente.This data typically represents a series of events or transitions between states in a dataset, such as a series of product purchases or Web clicks for a particular user. Per determinare le sequenze migliori da usare come input per il clustering, l'algoritmo esamina tutte le probabilità di transizione e misura le differenze, o distanze, tra tutte le sequenze possibili del set di dati.The algorithm examines all transition probabilities and measures the differences, or distances, between all the possible sequences in the dataset to determine which sequences are the best to use as inputs for clustering. Dopo la creazione dell'elenco di sequenze candidate, l'algoritmo usa le informazioni sulla sequenza come input per il clustering tramite EM (Expectation Maximization).After the algorithm has created the list of candidate sequences, it uses the sequence information as an input for clustering using Expectation maximization (EM).

Per una descrizione dettagliata dell'implementazione, vedere Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering.For a detailed description of the implementation, see Microsoft Sequence Clustering Algorithm Technical Reference.

Dati necessari per i modelli Sequence ClusteringData Required for Sequence Clustering Models

Quando si preparano dati da utilizzare nel training di un modello Sequence Clustering, è importante comprendere i requisiti per l'algoritmo specifico, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.When you prepare data for use in training a sequence clustering model, you should understand the requirements for the particular algorithm, including how much data is needed, and how the data is used.

I requisiti per un modello Sequence Clustering sono i seguenti:The requirements for a sequence clustering model are as follows:

  • Una colonna a chiave singola Un modello Sequence Clustering richiede una chiave che identifica i record.A single key column A sequence clustering model requires a key that identifies records.

  • Una colonna della sequenza Per i dati in sequenza, il modello deve disporre di una tabella annidata contenente una colonna di ID sequenza.A sequence column For sequence data, the model must have a nested table that contains a sequence ID column. L'ID sequenza può essere qualsiasi tipo di dato ordinabile.The sequence ID can be any sortable data type. Ad esempio, è possibile utilizzare un identificatore di pagina Web, un numero intero o una stringa di testo, purché la colonna identifichi gli eventi in una sequenza.For example, you can use a Web page identifier, an integer, or a text string, as long as the column identifies the events in a sequence. Per ogni sequenza è consentito un unico identificatore di sequenza e per ogni modello è consentito un unico tipo di sequenza.Only one sequence identifier is allowed for each sequence, and only one type of sequence is allowed in each model.

  • Attributi fuori sequenza facoltativi L'algoritmo supporta l'aggiunta di altri attributi non correlati alle sequenze.Optional non sequence attributes The algorithm supports the addition of other attributes that are not related to sequencing. Questi attributi possono includere le colonne nidificate.These attributes can include nested columns.

    Nell'esempio del sito Web di Adventure Works CyclesAdventure Works Cycles riportato in precedenza, un modello Sequence Clustering potrebbe includere informazioni sull'ordine come tabella del case, dati demografici sul cliente specifico per ogni ordine come attributi fuori sequenza e una tabella nidificata contenente la sequenza in cui il cliente ha esplorato il sito o ha inserito gli articoli nel carrello acquisti come informazioni sulla sequenza.For example, in the example cited earlier of the Adventure Works CyclesAdventure Works Cycles Web site, a sequence clustering model might include order information as the case table, demographics about the specific customer for each order as non-sequence attributes, and a nested table containing the sequence in which the customer browsed the site or put items into a shopping cart as the sequence information.

    Per informazioni più dettagliate sui tipi di contenuto e i tipi di dati supportati per i modelli Sequence Clustering, vedere la sezione Requisiti di Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering.For more detailed information about the content types and data types supported for sequence clustering models, see the Requirements section of Microsoft Sequence Clustering Algorithm Technical Reference.

Visualizzazione di un modello Sequence ClusteringViewing a Sequence Clustering Model

Il modello di data mining creato da questo algoritmo contiene le descrizioni delle sequenze più comuni incluse nei dati.The mining model that this algorithm creates contains descriptions of the most common sequences in the data. Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Sequence Clustering.To explore the model, you can use the Microsoft Sequence Cluster Viewer. Quando si visualizza un modello Sequence Clustering, in Analysis ServicesAnalysis Services vengono visualizzati i cluster che contengono più transizioni.When you view a sequence clustering model, Analysis ServicesAnalysis Services shows you clusters that contain multiple transitions. È inoltre possibile visualizzare statistiche pertinenti.You can also view pertinent statistics. Per altre informazioni, vedere Visualizzare un modello usando il Visualizzatore Microsoft Sequence Clustering.For more information, see Browse a Model Using the Microsoft Sequence Cluster Viewer.

Per maggiori dettagli, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer.If you want to know more detail, you can browse the model in the Microsoft Generic Content Tree Viewer. Il contenuto archiviato per il modello include la distribuzione per tutti i valori in ogni nodo, la probabilità di ogni cluster e altre informazioni sulle transizioni.The content stored for the model includes the distribution for all values in each node, the probability of each cluster, and details about the transitions. Per altre informazioni, vedere Contenuto dei modelli di data mining per i modelli Sequence Clustering (Analysis Services - Data mining).For more information, see Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

Creazione di stimeCreating Predictions

Dopo il training del modello, i risultati vengono archiviati come set di modelli.After the model has been trained, the results are stored as a set of patterns. È possibile utilizzare le descrizioni delle sequenze più comuni nei dati per la stima del probabile passaggio successivo di una nuova sequenza.You can use the descriptions of the most common sequences in the data to predict the next likely step of a new sequence. Poiché tuttavia l'algoritmo include altre colonne, è possibile utilizzare il modello risultante per individuare le relazioni tra i dati in sequenza e gli input non sequenziali.However, because the algorithm includes other columns, you can use the resulting model to identify relationships between sequenced data and inputs that are not sequential. Ad esempio, se si aggiungono dati demografici al modello, è possibile eseguire stime per gruppi specifici di clienti.For example, if you add demographic data to the model, you can make predictions for specific groups of customers. È possibile personalizzare le query di stima per restituire un numero variabile di stime o statistiche descrittive.Prediction queries can be customized to return a variable number of predictions, or to return descriptive statistics.

Per informazioni sulla creazione di query in base a un modello di data mining, vedere Query di data mining.For information about how to create queries against a data mining model, see Data Mining Queries. Per alcuni esempi su come usare le query con un modello Sequence Clustering, vedere Esempi di query sul modello di cluster di sequenza.For examples of how to use queries with a sequence clustering model, see Sequence Clustering Model Query Examples.

OsservazioniRemarks

  • Non supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.Does not support the use of Predictive Model Markup Language (PMML) to create mining models.

  • Supporta il drill-through.Supports drillthrough.

  • Supporta l'utilizzo di modelli di data mining OLAP e la creazione di dimensioni di data mining.Supports the use of OLAP mining models and the creation of data mining dimensions.

Vedere ancheSee Also

Algoritmi di Data Mining & #40; Analysis Services - Data Mining & #41; Data Mining Algorithms (Analysis Services - Data Mining)
Riferimento tecnico algoritmo Microsoft Sequence Clustering Microsoft Sequence Clustering Algorithm Technical Reference
Sequence Clustering Model Query Examples Sequence Clustering Model Query Examples
Visualizzare un modello utilizzando il visualizzatore Microsoft Sequence ClusteringBrowse a Model Using the Microsoft Sequence Cluster Viewer