Microsoft 시퀀스 클러스터링 알고리즘Microsoft Sequence Clustering Algorithm

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services MicrosoftMicrosoft 시퀀스 클러스터링 알고리즘은 클러스터링과 함께 시퀀스 분석을 결합 하는 고유한 알고리즘입니다. The MicrosoftMicrosoft Sequence Clustering algorithm is a unique algorithm that combines sequence analysis with clustering. 이 알고리즘을 사용하여 시퀀스로 연결할 수 있는 이벤트가 들어 있는 데이터를 탐색할 수 있습니다.You can use this algorithm to explore data that contains events that can be linked in a sequence. 이 알고리즘은 가장 일반적인 시퀀스를 찾고 클러스터링을 수행하여 유사한 시퀀스를 찾습니다.The algorithm finds the most common sequences, and performs clustering to find sequences that are similar. 다음 예제에서는 일반적인 문제나 비즈니스 시나리오에 대한 통찰력을 제공하기 위해 기계 학습에 대한 데이터로 캡처할 수 있는 시퀀스의 종류를 보여 줍니다.The following examples illustrate the types of sequences that you might capture as data for machine learning, to provide insight about common problems or business scenarios:

  • 사용자가 웹 사이트를 탐색하거나 이동할 때 생성된 클릭스트림 또는 클릭 경로Clickstreams or click paths generated when users navigate or browse a Web site

  • 하드 디스크 오류 또는 서버 교착 상태와 같은 사건 앞의 이벤트를 나열하는 로그Logs that list events preceding an incident, such as a hard disk failure or server deadlock

  • 고객이 온라인 쇼핑 카트에 품목을 추가하는 순서를 설명하는 트랜잭션 레코드Transaction records that describe the order in which a customer adds items to a online shopping cart

  • 서비스 취소나 다른 좋지 않은 결과를 예측하기 위해 일정 기간 동안 고객 또는 환자 상호 작용을 추적하는 레코드Records that follow customer or patient interactions over time, to predict service cancellations or other poor outcomes

    이 알고리즘은 MicrosoftMicrosoft 클러스터링 알고리즘과 많은 측면에서 비슷합니다.This algorithm is similar in many ways to the MicrosoftMicrosoft Clustering algorithm. 그러나 MicrosoftMicrosoft 시퀀스 클러스터링 알고리즘은 유사한 특성이 포함된 사례 클러스터를 찾는 대신 시퀀스에 유사한 경로가 포함된 사례 클러스터를 찾습니다.However, instead of finding clusters of cases that contain similar attributes, the MicrosoftMicrosoft Sequence Clustering algorithm finds clusters of cases that contain similar paths in a sequence.

예제Example

Adventure Works CyclesAdventure Works Cycles 웹 사이트에서는 사이트 사용자가 방문하는 페이지 및 페이지 방문 순서에 대한 정보를 수집합니다.The Adventure Works CyclesAdventure Works Cycles web site collects information about what pages site users visit, and about the order in which the pages are visited. 회사에서 온라인 주문 시스템을 제공하므로 고객은 사이트에 로그인해야 합니다.Because the company provides online ordering, customers must log in to the site. 고객이 사이트에 로그인하면 각 고객 프로필의 클릭 정보가 회사에 제공됩니다.This provides the company with click information for each customer profile. 이 데이터에 대한 MicrosoftMicrosoft 시퀀스 클러스터링 알고리즘을 사용하면 클릭 패턴 또는 시퀀스가 유사한 고객 그룹 또는 클러스터를 찾을 수 있습니다.By using the MicrosoftMicrosoft Sequence Clustering algorithm on this data, the company can find groups, or clusters, of customers who have similar patterns or sequences of clicks. 회사는 이러한 클러스터를 사용하여 사용자가 웹 사이트에서 어떻게 이동하는지 분석하고, 특정 제품의 판매와 가장 밀접한 관련이 있는 페이지를 식별하고, 다음에 방문할 가능성이 가장 높은 페이지를 예측할 수 있습니다.The company can then use these clusters to analyze how users move through the Web site, to identify which pages are most closely related to the sale of a particular product, and to predict which pages are most likely to be visited next.

알고리즘 작동 방법How the Algorithm Works

MicrosoftMicrosoft 시퀀스 클러스터링 알고리즘은 클러스터링 기술에 Markov 체인 분석을 결합하여 클러스터와 해당 시퀀스를 식별하는 하이브리드 알고리즘입니다.The MicrosoftMicrosoft Sequence Clustering algorithm is a hybrid algorithm that combines clustering techniques with Markov chain analysis to identify clusters and their sequences. MicrosoftMicrosoft 시퀀스 클러스터링 알고리즘의 특징 중 하나는 시퀀스 데이터를 사용한다는 점입니다.One of the hallmarks of the MicrosoftMicrosoft Sequence Clustering algorithm is that it uses sequence data. 이 데이터는 일반적으로 특정 사용자에 대한 일련의 제품 구입 또는 웹 클릭과 같은 데이터 집합의 상태 간 일련의 이벤트 또는 전환을 나타냅니다.This data typically represents a series of events or transitions between states in a dataset, such as a series of product purchases or Web clicks for a particular user. 알고리즘은 모든 전환 가능성을 점검하고 데이터 집합에서 가능한 모든 시퀀스 간의 차이점 또는 거리를 측정하여 클러스터링에서 입력으로 사용하기에 가장 적합한 시퀀스를 확인합니다.The algorithm examines all transition probabilities and measures the differences, or distances, between all the possible sequences in the dataset to determine which sequences are the best to use as inputs for clustering. 알고리즘은 후보 시퀀스 목록을 만든 후 EM(Expectation Maximization) 메서드를 사용하는 클러스터링에 대한 입력으로 시퀀스 정보를 사용합니다.After the algorithm has created the list of candidate sequences, it uses the sequence information as an input for clustering using Expectation maximization (EM).

구현에 대한 자세한 설명은 Microsoft Sequence Clustering Algorithm Technical Reference를 참조하십시오.For a detailed description of the implementation, see Microsoft Sequence Clustering Algorithm Technical Reference.

시퀀스 클러스터링 모델에 필요한 데이터Data Required for Sequence Clustering Models

시퀀스 클러스터링 모델을 학습하는 데 사용할 데이터를 준비할 때는 필요한 데이터의 양과 사용법을 비롯하여 특정 알고리즘의 요구 사항을 알고 있어야 합니다.When you prepare data for use in training a sequence clustering model, you should understand the requirements for the particular algorithm, including how much data is needed, and how the data is used.

시퀀스 클러스터링 모델의 요구 사항은 다음과 같습니다.The requirements for a sequence clustering model are as follows:

  • 단일 키 열 시퀀스 클러스터링 모델에는 레코드를 식별하는 키가 필요합니다.A single key column A sequence clustering model requires a key that identifies records.

  • 시퀀스 열 시퀀스 데이터의 경우 모델에는 시퀀스 ID 열을 포함하는 중첩 테이블이 있어야 합니다.A sequence column For sequence data, the model must have a nested table that contains a sequence ID column. 시퀀스 ID는 정렬 가능한 모든 데이터 형식이 될 수 있습니다.The sequence ID can be any sortable data type. 예를 들어 열이 시퀀스의 이벤트를 식별한다면 웹 페이지 식별자, 정수 또는 텍스트 문자열을 사용할 수 있습니다.For example, you can use a Web page identifier, an integer, or a text string, as long as the column identifies the events in a sequence. 각 시퀀스마다 시퀀스 식별자가 하나만 허용되고, 각 모델마다 시퀀스 유형이 하나만 허용됩니다.Only one sequence identifier is allowed for each sequence, and only one type of sequence is allowed in each model.

  • 비시퀀스 특성(선택 사항) 알고리즘은 시퀀스와 관계가 없는 다른 특성의 추가를 지원합니다.Optional non sequence attributes The algorithm supports the addition of other attributes that are not related to sequencing. 이러한 특성은 중첩 열을 포함할 수 있습니다.These attributes can include nested columns.

    예를 들어 Adventure Works CyclesAdventure Works Cycles 웹 사이트의 앞서 언급한 예에서 시퀀스 클러스터링 모델은 주문 정보를 사례 테이블로, 각 주문의 특정 고객에 대한 인구 통계를 비시퀀스 특성으로, 그리고 고객이 사이트를 탐색하거나 장바구니에 품목을 넣은 시퀀스가 포함된 중첩 테이블을 시퀀스 정보로 포함할 수 있습니다.For example, in the example cited earlier of the Adventure Works CyclesAdventure Works Cycles Web site, a sequence clustering model might include order information as the case table, demographics about the specific customer for each order as non-sequence attributes, and a nested table containing the sequence in which the customer browsed the site or put items into a shopping cart as the sequence information.

    시퀀스 클러스터링 모델에 대해 지원되는 콘텐츠 형식 및 데이터 형식에 대한 자세한 내용은 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조의 요구 사항 섹션을 참조하세요.For more detailed information about the content types and data types supported for sequence clustering models, see the Requirements section of Microsoft Sequence Clustering Algorithm Technical Reference.

시퀀스 클러스터링 모델 보기Viewing a Sequence Clustering Model

이 알고리즘이 만든 마이닝 모델에는 데이터에서 가장 일반적인 시퀀스에 대한 설명이 들어 있습니다.The mining model that this algorithm creates contains descriptions of the most common sequences in the data. Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델을 탐색할 수 있습니다.To explore the model, you can use the Microsoft Sequence Cluster Viewer. 시퀀스 클러스터링 모델을 볼 때 Analysis ServicesAnalysis Services 에 여러 전환을 포함하는 클러스터가 표시됩니다.When you view a sequence clustering model, Analysis ServicesAnalysis Services shows you clusters that contain multiple transitions. 또한 관련 통계도 볼 수 있습니다.You can also view pertinent statistics. 자세한 내용은 Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델 찾아보기를 참조하세요.For more information, see Browse a Model Using the Microsoft Sequence Cluster Viewer.

보다 자세한 내용을 보려면 Microsoft 일반 콘텐츠 트리 뷰어에서 모델을 살펴보십시오.If you want to know more detail, you can browse the model in the Microsoft Generic Content Tree Viewer. 모델에 대해 저장되는 콘텐츠에는 각 노드의 모든 값 분포, 각 클러스터에 대한 확률 및 전환의 세부 정보 등이 포함됩니다.The content stored for the model includes the distribution for all values in each node, the probability of each cluster, and details about the transitions. 자세한 내용은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For more information, see Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

예측 만들기Creating Predictions

모델을 학습한 후에는 그 결과가 일련의 패턴으로 저장됩니다.After the model has been trained, the results are stored as a set of patterns. 데이터의 가장 일반적인 시퀀스에 대한 설명을 사용하여 새 시퀀스의 다음 단계를 예측할 수 있습니다.You can use the descriptions of the most common sequences in the data to predict the next likely step of a new sequence. 그러나 알고리즘에는 다른 열이 포함되므로 결과 모델을 사용하여 시퀀스에 포함되는 데이터와 순차적이지 않은 입력 간의 관계를 식별할 수 있습니다.However, because the algorithm includes other columns, you can use the resulting model to identify relationships between sequenced data and inputs that are not sequential. 예를 들어 모델에 인구 통계 데이터를 추가하는 경우 특정 고객 그룹에 대한 예측을 만들 수 있습니다.For example, if you add demographic data to the model, you can make predictions for specific groups of customers. 예측 쿼리는 여러 개의 예측을 반환하거나 기술 통계를 반환하도록 사용자 지정할 수 있습니다.Prediction queries can be customized to return a variable number of predictions, or to return descriptive statistics.

데이터 마이닝 모델에 대한 쿼리를 만드는 방법에 대한 자세한 내용은 데이터 마이닝 쿼리를 참조하세요.For information about how to create queries against a data mining model, see Data Mining Queries. 시퀀스 클러스터링 모델에서 쿼리를 사용하는 방법에 대한 예제는 시퀀스 클러스터링 모델 쿼리 예제를 참조하세요.For examples of how to use queries with a sequence clustering model, see Sequence Clustering Model Query Examples.

주의Remarks

  • PMML(Predictive Model Markup Language)을 사용한 마이닝 모델 생성은 지원하지 않습니다.Does not support the use of Predictive Model Markup Language (PMML) to create mining models.

  • 드릴스루를 지원합니다.Supports drillthrough.

  • OLAP 마이닝 모델의 사용과 마이닝 모델 차원의 생성을 지원합니다.Supports the use of OLAP mining models and the creation of data mining dimensions.

관련 항목:See Also

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝) Data Mining Algorithms (Analysis Services - Data Mining)
Microsoft 시퀀스 클러스터링 알고리즘 기술 참조 Microsoft Sequence Clustering Algorithm Technical Reference
시퀀스 클러스터링 모델 쿼리 예제 Sequence Clustering Model Query Examples
Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델 찾아보기Browse a Model Using the Microsoft Sequence Cluster Viewer