시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠Mining Model Content for Sequence Clustering Models

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services이 항목에서는 Microsoft 시퀀스 클러스터링 알고리즘을 사용 하는 모델에만 적용 되는 마이닝 모델 콘텐츠를 설명 합니다. This topic describes mining model content that is specific to models that use the Microsoft Sequence Clustering algorithm. 모든 모델 유형에 적용되는 마이닝 모델 콘텐츠와 관련된 일반 용어 및 통계 용어에 대한 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For an explanation of general and statistical terminology related to mining model content that applies to all model types, see Mining Model Content (Analysis Services - Data Mining).

시퀀스 클러스터링 모델 구조에 대한 이해Understanding the Structure of a Sequence Clustering Model

시퀀스 클러스터링 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드(NODE_TYPE = 1)가 있습니다.A sequence clustering model has a single parent node (NODE_TYPE = 1) that represents the model and its metadata. (All)이라는 레이블이 지정된 부모 노드에는 학습 데이터에서 검색된 모든 전환이 나열되는 관련 시퀀스 노드(NODE_TYPE = 13)가 있습니다.The parent node, which is labeled (All), has a related sequence node (NODE_TYPE = 13) that lists all the transitions that were detected in the training data.

시퀀스 클러스터링 모델의 구조Structure of sequence clustering model

또한 이 알고리즘은 데이터에서 찾은 전환과 모델을 만들 때 포함된 고객 인구 통계 등의 기타 입력 특성을 기반으로 여러 개의 클러스터를 만듭니다.The algorithm also creates a number of clusters, based on the transitions that were found in the data and any other input attributes included when creating the model, such as customer demographics and so forth. 각 클러스터(NODE_TYPE = 5)에는 해당 클러스터를 생성하는 데 사용된 전환만 나열되는 고유한 시퀀스 노드(NODE_TYPE = 13)가 있습니다.Each cluster (NODE_TYPE = 5) contains its own sequence node (NODE_TYPE = 13) that lists only the transitions that were used in generating that specific cluster. 시퀀스 노드에서 드릴다운하여 개별 상태 전환(NODE_TYPE = 14)에 대한 정보를 볼 수 있습니다.From the sequence node, you can drill down to view the details of individual state transitions (NODE_TYPE = 14).

시퀀스 및 상태 전환에 대한 설명과 예는 Microsoft Sequence Clustering Algorithm을 참조하십시오.For an explanation of sequence and state transitions, with examples, see Microsoft Sequence Clustering Algorithm.

시퀀스 클러스터링 모델에 대한 모델 콘텐츠Model Content for a Sequence Clustering Model

이 섹션에서는 시퀀스 클러스터링과 특별히 관련된 마이닝 모델 콘텐츠의 열에 대한 추가 정보를 제공합니다.This section provides additional information about columns in the mining model content that have particular relevance for sequence clustering.

MODEL_CATALOGMODEL_CATALOG
모델이 저장되는 데이터베이스의 이름입니다.Name of the database where the model is stored.

MODEL_NAMEMODEL_NAME
모델의 이름입니다.Name of the model.

ATTRIBUTE_NAMEATTRIBUTE_NAME
항상 비어 있습니다.Always blank.

NODE_NAMENODE_NAME
노드 이름입니다.The name of the node. 현재는 NODE_UNIQUE_NAME과 동일한 값입니다.Currently the same value as NODE_UNIQUE_NAME.

NODE_UNIQUE_NAMENODE_UNIQUE_NAME
노드의 고유한 이름입니다.The unique name of the node.

NODE_TYPENODE_TYPE
시퀀스 클러스터링 모델이 출력하는 노드 유형은 다음과 같습니다.A sequence clustering model outputs the following node types:

노드 유형 IDNode Type ID DescriptionDescription
1(모델)1 (Model) 모델의 루트 노드입니다.Root node for model
5(클러스터)5 (Cluster) 클러스터 내의 전환 수, 특성 목록 및 클러스터의 값을 설명하는 통계를 포함합니다.Contains a count of transitions in the cluster, a list of the attributes, and statistics that describe the values in the cluster.
13(시퀀스)13 (Sequence) 클러스터에 포함된 전환 목록을 포함합니다.Contains a list of transitions included in the cluster.
14(전환)14 (Transition) 첫째 행에 시작 상태가 포함되고 다른 모든 행에는 연속적인 상태가 지지도 및 확률 통계와 함께 포함되는 테이블로 이벤트 시퀀스를 설명합니다.Describes a sequence of events as a table in which the first row contains the starting state, and all other rows contain successive states, together with support and probability statistics.

NODE_GUIDNODE_GUID
비어 있습니다.Blank.

NODE_CAPTIONNODE_CAPTION
표시용으로 노드에 연결된 레이블 또는 캡션입니다.A label or a caption associated with the node for display purposes.

모델을 사용하는 중에 클러스터 캡션의 이름을 바꿀 수 있지만 모델을 닫을 경우 새 이름은 유지되지 않습니다.You can rename the cluster captions while you are using the model; however, the new name is not persisted if you close the model.

CHILDREN_CARDINALITYCHILDREN_CARDINALITY
노드에 있는 예상 자식 수입니다.An estimate of the number of children that the node has.

모델 루트 카디널리티 값은 클러스터 수에 1을 더한 값과 같습니다.Model root Cardinality value equals the number of clusters plus one. 자세한 내용은 카디널리티를 참조하십시오.For more information, see Cardinality.

클러스터 노드 각 클러스터 노드에는 해당 클러스터의 시퀀스 목록이 포함되는 단일 자식 노드가 있으므로 카디널리티는 항상 1입니다.Cluster nodes Cardinality is always 1, because each cluster has a single child node, which contains the list of sequences in the cluster.

시퀀스 노드 카디널리티는 해당 클러스터에 포함된 전환 수를 나타냅니다.Sequence nodes Cardinality indicates the number of transitions that are included in that cluster. 예를 들어 모델 루트에 대한 시퀀스 노드의 카디널리티는 모델 전체에서 발견된 전환 수를 알려 줍니다.For example, the cardinality of the sequence node for the model root tells you how many transitions were found in the entire model.

PARENT_UNIQUE_NAMEPARENT_UNIQUE_NAME
노드 부모의 고유한 이름입니다.The unique name of the node's parent.

루트 수준의 모든 노드에 대해서 NULL이 반환됩니다.NULL is returned for any nodes at the root level.

NODE_DESCRIPTIONNODE_DESCRIPTION
노드 캡션과 같습니다.Same as node caption.

NODE_RULENODE_RULE
항상 비어 있습니다.Always blank.

MARGINAL_RULEMARGINAL_RULE
항상 비어 있습니다.Always blank.

NODE_PROBABILITYNODE_PROBABILITY
모델 루트 항상 0입니다.Model root Always 0.

클러스터 노드 모델의 클러스터에 대한 조정된 확률입니다.Cluster nodes The adjusted probability of the cluster in the model. 시퀀스 클러스터링에 사용되는 클러스터링 메서드는 여러 클러스터의 부분 멤버 자격을 허용하므로 조정된 확률의 합계는 1이 아닙니다.The adjusted probabilities do not sum to 1, because the clustering method used in sequence clustering permits partial membership in multiple clusters.

시퀀스 노드 항상 0입니다.Sequence nodes Always 0.

전환 노드 항상 0입니다.Transition nodes Always 0.

MARGINAL_PROBABILITYMARGINAL_PROBABILITY
모델 루트 항상 0입니다.Model root Always 0.

클러스터 노드 NODE_PROBABILITY와 동일한 값입니다.Cluster nodes The same value as NODE_PROBABILITY.

시퀀스 노드 항상 0입니다.Sequence nodes Always 0.

전환 노드 항상 0입니다.Transition nodes Always 0.

NODE_DISTRIBUTIONNODE_DISTRIBUTION
확률 및 기타 정보를 포함하는 테이블입니다.A table that contains probabilities and other information. 자세한 내용은 NODE_DISTRIBUTION 테이블을 참조하세요.For more information, see NODE_DISTRIBUTION Table.

NODE_SUPPORTNODE_SUPPORT
이 노드를 지원하는 전환의 수입니다.The number of transitions that support this node. 따라서 학습 데이터에 "제품 A 다음에 제품 B"와 같은 시퀀스의 예가 30개 있는 경우 총 지지도는 30입니다.Therefore, if there are 30 examples of sequence "Product A followed by Product B" in the training data, the total support is 30.

모델 루트 모델에 있는 총 전환 수입니다.Model root Total number of transitions in the model.

클러스터 노드 클러스터에 대한 원시 지지도로서, 이 클러스터에 사례를 제공하는 학습 사례의 수를 의미합니다.Cluster nodes Raw support for the cluster, meaning the number of training cases that contribute cases to this cluster.

시퀀스 노드 항상 0입니다.Sequence nodes Always 0.

전환 노드 클러스터에서 특정 전환을 나타내는 사례의 백분율로서,Transition nodes Percentage of cases in the cluster that represent a specific transition. 0이나 양수 값일 수 있습니다.Can be 0, or can have a positive value. 이 값은 클러스터 노드에 대한 원시 지지도에 클러스터의 확률을 곱하여 계산됩니다.Calculated by taking the raw support for the cluster node, and multiplying by the probability of the cluster.

이 값을 통해 전환에 제공되는 학습 사례 수를 알 수 있습니다.From this value, you can tell how many training cases contributed to the transition.

MSOLAP_MODEL_COLUMNMSOLAP_MODEL_COLUMN
이 오류에는 이 작업을 적용할 수 없습니다.Not applicable.

MSOLAP_NODE_SCOREMSOLAP_NODE_SCORE
이 오류에는 이 작업을 적용할 수 없습니다.Not applicable.

MSOLAP_NODE_SHORT_CAPTIONMSOLAP_NODE_SHORT_CAPTION
NODE_DESCRIPTION과 같습니다.Same as NODE_DESCRIPTION.

시퀀스, 상태 및 전환 이해Understanding Sequences, States and Transitions

시퀀스 클러스터링 모델에는 클러스터 및 상태 전환이라는 매우 다른 두 종류의 정보가 있는 두 가지 개체를 결합하는 고유한 구조가 있습니다.A sequence clustering model has a unique structure that combines two kinds of objects with very different types of information: the first are clusters, and the second are state transitions.

시퀀스 클러스터링을 통해 만들어진 클러스터는 Microsoft 클러스터링 알고리즘으로 만들어진 클러스터와 비슷합니다.The clusters created by sequence clustering are like the clusters created by the Microsoft Clustering algorithm. 각 클러스터에는 프로필과 특성이 있습니다.Each cluster has a profile and characteristics. 그러나 시퀀스 클러스터링에서 각 클러스터에는 해당 클러스터의 시퀀스가 나열되는 단일 자식 노드가 추가로 포함됩니다.However, in sequence clustering, each cluster additionally contains a single child node that lists the sequences in that cluster. 각 시퀀스 노드에는 상태 전환을 확률과 함께 자세히 설명하는 여러 개의 자식 노드가 포함됩니다.Each sequence node contains multiple child nodes that describe the state transitions in detail, with probabilities.

시퀀스는 서로 연결될 수 있으므로 이 모델에는 거의 항상 단일 사례에서 찾을 수 있는 것보다 많은 시퀀스가 있습니다.There are almost always more sequences in the model than you can find in any single case, because the sequences can be chained together. Microsoft Analysis Services에서는 사용자가 각 전환이 발생한 횟수를 계산할 수 있도록 한 상태에서 다른 상태로의 포인터를 저장합니다.Microsoft Analysis Services stores pointers from one state to the other so that you can count the number of times each transition happens. 시퀀스가 발생한 횟수에 대한 정보를 찾고 관찰된 상태 집합 전체와 비교하여 발생 확률을 측정할 수도 있습니다.You can also find information about how many times the sequence occurred, and measure its probability of occurring as compared to the entire set of observed states.

다음 표에는 정보가 모델에 저장되는 방식과 노드 간의 관계가 요약되어 있습니다.The following table summarizes how information is stored in the model, and how the nodes are related.

노드Node 자식 노드Has child node NODE_DISTRIBUTION 테이블NODE_DISTRIBUTION table
모델 루트Model root 여러 개의 클러스터 노드Multiple cluster nodes

전체 모델의 시퀀스가 있는 노드Node with sequences for entire model
모델의 모든 제품을 지지도 및 확률과 함께 나열합니다.Lists all products in the model, with support and probability.

클러스터링 메서드는 여러 클러스터의 부분 멤버 자격을 허용하므로 지지도 및 확률에 소수 값이 있을 수 있습니다.Because the clustering method permits partial membership in multiple clusters, support and probability can have fractional values. 즉, 단일 사례를 한 번 계산하는 대신 각 사례가 여러 개의 클러스터에 속할 수 있습니다.That is, instead of counting a single case once, each case can potentially belong to multiple clusters. 따라서 최종 클러스터 멤버가 결정되면 값은 해당 클러스터의 확률에 의해 조정됩니다.Therefore, when the final cluster membership is determined, the value is adjusted by the probability of that cluster.
모델의 시퀀스 노드Sequence node for model 여러 개의 전환 노드Multiple transition nodes 모델의 모든 제품을 지지도 및 확률과 함께 나열합니다.Lists all products in the model, with support and probability.

모델에 대한 시퀀스 수는 알려져 있으므로 이 수준에서 지지도 및 확률에 대한 계산은 아주 간단합니다.Because the number of sequences is known for the model, at this level, calculations for support and probability are straightforward:



지지도 = 사례 수Support = count of cases

확률 = 모델의 각 시퀀스에 대한 원시 확률.Probability = raw probability of each sequence in model. 모든 확률의 합계는 1입니다.All probabilities should sum to 1.
개별 클러스터 노드Individual cluster nodes 해당 클러스터의 시퀀스만 있는 노드Node with sequences for that cluster only 클러스터의 모든 제품을 나열하지만 클러스터의 특성인 제품에 대한 지지도 및 확률 값만 제공합니다.Lists all products in a cluster, but provides support and probability values only for products that are characteristic of the cluster.

지지도는 이 클러스터의 각 사례에 대해 조정된 지지도 값을 나타냅니다.Support represents the adjusted support value for each case in this cluster. 확률 값은 조정된 확률입니다.Probability values are adjusted probability.
개별 클러스터의 시퀀스 노드Sequence nodes for individual clusters 해당 클러스터의 시퀀스에 대한 전환만 있는 여러 개의 노드Multiple nodes with transitions for sequences in that cluster only 개별 클러스터 노드에서와 정확히 동일한 정보입니다.Exactly the same information as in individual cluster nodes.
전환Transitions 자식 없음No children 첫 번째 관련 상태의 전환을 나열합니다.Lists transitions for the related first state.

지지도는 각 전환에 관여하는 사례를 나타내는 조정된 지지도 값입니다.Support is an adjusted support value, indicating the cases that take part in each transition. 확률은 조정된 확률로서, 백분율로 표시됩니다.Probability is the adjusted probability, represented as a percentage.

NODE_DISTRIBUTION 테이블NODE_DISTRIBUTION Table

NODE_DISTRIBUTION 테이블은 특정 클러스터의 전환 및 시퀀스에 대한 자세한 확률 및 지지도 정보를 제공합니다.The NODE_DISTRIBUTION table provides detailed probability and support information for the transitions and sequences for a specific cluster.

행은 항상 전환 테이블에 추가되어 가능한 Missing 값을 나타냅니다.A row is always added to the transition table to represent possible Missing values. Missing 값의 의미와 이 값이 계산에 미치는 영향에 대한 자세한 내용은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요.For information about what the Missing value means, and how it affects calculations, see Missing Values (Analysis Services - Data Mining).

지지도 및 확률에 대한 계산은 해당 계산이 학습 사례에 적용되는지 완성된 모델에 적용되는지에 따라 달라집니다.The calculations for support and probability differ depending on whether the calculation applies to the training cases or to the finished model. 이는 기본 클러스터링 메서드인 EM(Expectation Maximization)이 모든 사례가 둘 이상의 클러스터에 속할 수 있다고 가정하기 때문입니다.This is because the default clustering method, Expectation Maximization (EM), assumes that any case can belong to more than one cluster. 모델의 사례에 대한 지지도를 계산할 때 원시 개수와 원시 확률을 사용할 수 있습니다.When calculating support for the cases in the model, it is possible to use raw counts and raw probabilities. 그러나 클러스터의 특정 시퀀스에 대한 확률은 가능한 모든 시퀀스 및 클러스터 조합에 의해 가중됩니다.However, the probabilities for any particular sequence in a cluster must be weighted by the sum of all possible sequence and cluster combinations.

카디널리티Cardinality

클러스터링 모델에서 부모 노드의 카디널리티는 일반적으로 해당 모델에 있는 클러스터의 수를 알려 줍니다.In a clustering model, the cardinality of the parent node generally tells you how many clusters are in the model. 그러나 시퀀스 클러스터링 모델의 클러스터 수준에는 두 종류의 노드가 있습니다. 한 종류의 노드에는 클러스터가 포함되고 다른 종류의 노드에는 모델의 전체 시퀀스 목록이 포함됩니다.However, a sequence clustering model has two kinds of nodes at the cluster level: one kind of node contains clusters, and the other kind of node contains a list of sequences for the model as a whole.

따라서 모델의 클러스터 수를 확인하려면 (All) 노드의 NODE_CARDINALITY 값에서 1을 빼면 됩니다.Therefore, to learn the number of clusters in the model, you can take the value of NODE_CARDINALITY for the (All) node and subtract one. 예를 들어 모델에서 9개의 클러스터를 만든 경우 모델 루트의 카디널리티는 10입니다.For example, if the model created 9 clusters, the cardinality of the model root is 10. 이는 모델에 자체 시퀀스 노드를 각기 포함하는 9개의 클러스터 노드와 모델의 시퀀스를 나타내며 클러스터 10이라는 레이블이 지정된 1개의 추가 시퀀스 노드가 들어 있기 때문입니다.This is because the model contains 9 cluster nodes, each with its own sequence node, plus one additional sequence node labeled cluster 10, which represents the sequences for the model.

구조 연습Walkthrough of Structure

예를 통해 정보가 저장되는 방식과 이를 해석하는 방법을 분명하게 이해할 수 있습니다.An example might help clarify how the information is stored, and how you can interpret it. 예를 들어 다음 쿼리를 사용하면 기본 AdventureWorksDW2012AdventureWorksDW2012 데이터에서 최대 주문, 즉 가장 오래 관찰된 체인을 찾을 수 있습니다.For example, you can find the largest order, meaning the longest observed chain in the underlying AdventureWorksDW2012AdventureWorksDW2012 data, by using the following query:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

이 결과에서 주문 번호 'SO72656', 'SO58845' 및 'SO70714'에는 각각 8개의 항목이 있는 최대 시퀀스가 포함되어 있습니다.From these results, you find that the order numbers 'SO72656', 'SO58845', and 'SO70714' contain the largest sequences, with eight items each. 주문 ID를 사용하면 특정 주문의 세부 정보를 표시하여 어떤 주문에서 어떤 항목이 구매되었는지를 확인할 수 있습니다.By using the order IDs, you can view the details of a particular order to see which items were purchased, and in what order.

OrderNumberOrderNumber LineNumberLineNumber ModelModel
SO58845SO58845 11 Mountain-500Mountain-500
SO58845SO58845 22 LL Mountain TireLL Mountain Tire
SO58845SO58845 33 Mountain Tire TubeMountain Tire Tube
SO58845SO58845 44 Fender Set - MountainFender Set - Mountain
SO58845SO58845 55 Mountain Bottle CageMountain Bottle Cage
SO58845SO58845 66 Water BottleWater Bottle
SO58845SO58845 77 Sport-100Sport-100
SO58845SO58845 88 Long-Sleeve Logo JerseyLong-Sleeve Logo Jersey

그러나 Mountain-500을 구매하는 일부 고객이 다른 제품을 구매할 수도 있습니다.However, some customers who purchase the Mountain-500 might purchase different products. 모델의 시퀀스 목록을 보면 Mountain-500 다음의 모든 제품을 볼 수 있습니다.You can view all the products that follow the Mountain-500 by viewing the list of sequences in the model. 다음 절차에서는 Analysis ServicesAnalysis Services에서 제공되는 두 가지 뷰어를 사용하여 이러한 시퀀스를 보는 방법을 설명합니다.The following procedures walk you through viewing these sequences by using the two viewers provided in Analysis ServicesAnalysis Services:

  1. 개체 탐색기에서 [시퀀스 클러스터링] 모델을 마우스 오른쪽 단추로 클릭하고 찾아보기를 선택합니다.In Object Explorer, right-click the [Sequence Clustering] model, and select Browse.

  2. 시퀀스 클러스터링 뷰어에서 상태 전환 탭을 클릭합니다.In the Sequence Clustering viewer, click the State Transitions tab.

  3. 클러스터 드롭다운 목록에서 채우기(모두) 가 선택되어 있는지 확인합니다.In the Cluster dropdown list, ensure that Population (All) is selected.

  4. 창 왼쪽의 슬라이더 막대를 맨 위로 이동하여 모든 링크를 표시합니다.Move the slider bar at the left of the pane all the way to the top, to show all links.

  5. 다이어그램에서 Mountain-500을 찾고 다이어그램의 해당 노드를 클릭합니다.In the diagram, locate Mountain-500, and click the node in the diagram.

  6. 강조 표시된 선은 다음 상태(Mountain-500 다음에 구매한 제품)를 가리키고 숫자는 확률을 나타냅니다.The highlighted lines point to the next states (the products that were purchased after the Mountain-500) and the numbers indicate the probability. 이 결과를 일반 모델 콘텐츠 뷰어에서의 결과와 비교해 보십시오.Compare these to the results in the generic model content viewer.

  1. 개체 탐색기에서 [시퀀스 클러스터링] 모델을 마우스 오른쪽 단추로 클릭하고 찾아보기를 선택합니다.In Object Explorer, right-click the [Sequence Clustering] model, and select Browse.

  2. 뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.In the viewer dropdown list, select the Microsoft Generic Content Tree Viewer.

  3. 노드 캡션 창에서 클러스터에 대한 시퀀스 수준 16노드를 클릭합니다.In the Node caption pane, click the node named Sequence level for cluster 16.

  4. 노드 자세히 보기 창에서 NODE_DISTRIBUTION 행을 찾아 중첩 테이블의 아무 곳이나 클릭합니다.In the Node details pane, find the NODE_DISTRIBUTION row, and click anywhere in the nested table.

    첫 행은 항상 누락된 값에 대한 행입니다.The top row is always for the Missing value. 이 행은 시퀀스 상태 0입니다.This row is sequence state 0.

  5. Mountain-500 행이 표시될 때까지 아래쪽 화살표 키를 누르거나 스크롤 막대를 사용하여 중첩 테이블의 아래로 이동합니다.Press the down arrow key, or use the scroll bars, to move down through the nested table until you see the row, Mountain-500.

    이 행은 시퀀스 상태 20입니다.This row is sequence state 20.

    참고

    프로그래밍 방식으로 특정 시퀀스 상태의 행 번호를 가져올 수 있지만 단지 찾아보기만 하려는 경우에는 중첩 테이블을 Excel 통합 문서에 복사하는 방법이 더 쉽습니다.You can obtain the row number for a particular sequence state programmatically, but if you are just browsing, it might be easier to simply copy the nested table into an Excel workbook.

  6. 노드 캡션 창으로 돌아가고 클러스터에 대한 시퀀스 수준 16노드가 아직 확장되어 있지 않으면 확장합니다.Return to the Node caption pane, and expand the node, Sequence level for cluster 16, if it is not already expanded.

  7. 자식 노드 중에서 시퀀스 상태에 대한 전환 행 20을 찾고,Look among its child nodes for Transition row for sequence state 20. 이 전환 노드를 클릭합니다.Click the transition node.

  8. NODE_DISTRIBUTION 중첩 테이블에는 다음 제품 및 확률이 들어 있습니다.The nested NODE_DISTRIBUTION table contains the following products and probabilities. 이 결과를 시퀀스 클러스터링 뷰어의 상태 전환 탭에 표시되는 결과와 비교해 보십시오.Compare these to the results in the State Transition tab of the Sequence Clustering viewer.

    다음 표에서는 NODE_DISTRIBUTION 테이블에서 얻은 결과와 그래픽 뷰어에 표시되는 반올림된 확률 값을 보여 줍니다.The following table shows the results from the NODE_DISTRIBUTION table, together with the rounded probability values that are displayed in the graphical viewer.

ProductProduct 지지도(NODE_DISTRIBUTION 테이블)Support (NODE_DISTRIBUTION table) 확률(NODE_DISTRIBUTION 테이블)Probability (NODE_DISTRIBUTION) table) 확률(그래프)Probability (from graph)
MissingMissing 48.44788748.447887 0.1380281690.138028169 (표시되지 않음)(not shown)
Cycling CapCycling Cap 10.87605610.876056 0.0309859150.030985915 0.030.03
Fender Set - MountainFender Set - Mountain 80.08732480.087324 0.2281690140.228169014 0.230.23
Half-Finger GlovesHalf-Finger Gloves 0.98873240.9887324 0.0028169010.002816901 0.000.00
Hydration PackHydration Pack 0.98873240.9887324 0.0028169010.002816901 0.000.00
LL Mountain TireLL Mountain Tire 51.41408551.414085 0.1464788730.146478873 0.150.15
Long-Sleeve Logo JerseyLong-Sleeve Logo Jersey 2.96619722.9661972 0.0084507040.008450704 0.010.01
Mountain Bottle CageMountain Bottle Cage 87.99718387.997183 0.2507042250.250704225 0.250.25
Mountain Tire TubeMountain Tire Tube 16.80845116.808451 0.0478873240.047887324 0.050.05
Short-Sleeve Classic JerseyShort-Sleeve Classic Jersey 10.87605610.876056 0.0309859150.030985915 0.030.03
Sport-100Sport-100 20.7633820.76338 0.059154930.05915493 0.060.06
Water BottleWater Bottle 18.78591518.785915 0.0535211270.053521127 0.250.25

학습 데이터에서 처음에 선택한 사례에는 'Mountain-500' 제품과 'LL Mountain Tire' 제품이 차례로 포함되어 있지만 가능한 다른 시퀀스가 여러 개 있다는 것을 알 수 있습니다.Although the case that we initially selected from the training data contained the product 'Mountain-500' followed by 'LL Mountain Tire', you can see that there are many other possible sequences. 특정 클러스터에 대한 세부 정보를 찾으려면 클러스터의 시퀀스 목록에서 각 상태 또는 제품의 실제 전환으로 드릴다운하는 과정을 반복해야 합니다.To find detailed information for any particular cluster, you must repeat the process of drilling down from the list of sequences in the cluster to the actual transitions for each state, or product.

하나의 특정 클러스터에 나열된 시퀀스에서 전환 행으로 이동할 수 있습니다.You can jump from the sequence listed in one particular cluster, to the transition row. 그런 다음 해당 전환 행에서 다음 제품을 확인하고 다시 시퀀스 목록의 해당 제품으로 다시 이동할 수 있습니다.From that transition row, you can determine which product is next, and jump back to that product in the list of sequences. 각각의 첫째 및 둘째 상태에 대해 이 과정을 반복하여 긴 상태 체인을 확인할 수 있습니다.By repeating this process for each first and second state you can work through long chains of states.

시퀀스 정보 사용Using Sequence Information

시퀀스 클러스터링의 일반적인 시나리오는 웹 사이트에서의 사용자 클릭을 추적하는 것입니다.A common scenario for sequence clustering is to track user clicks on a Web site. 예를 들어 Adventure Works 전자 상거래 웹 사이트의 고객 구매 레코드에서 데이터를 가져온 경우 결과 시퀀스 클러스터링 모델을 사용하여 사용자 동작을 유추하거나, 탐색 문제를 해결하기 위해 전자 상거래 사이트를 다시 디자인하거나, 판매를 촉진할 수 있습니다.For example, if the data were from records of customer purchases on the Adventure Works e-commerce Web site, the resulting sequence clustering model could be used to infer user behavior, to redesign the e-commerce site to solve navigation problems, or to promote sales.

예를 들어 분석을 통해 사용자가 인구 통계에 관계없이 항상 특정 제품 체인을 따른다는 것을 확인할 수 있습니다.For example, analysis might show that users always follow a particular chain of products, regardless of demographics. 또한 사용자가 특정 제품을 클릭한 후 해당 사이트를 나가는 경우가 많다는 것을 확인할 수도 있습니다.Also, you might find that users frequently exit the site after clicking on a particular product. 이 결과를 통해 사용자가 해당 웹 사이트에 머물도록 하려면 사용자에게 어떤 추가 경로를 제공하면 좋을지를 확인할 수 있습니다.Given that finding, you might ask what additional paths you could provide to users that would induce users to stay on the Web site.

사용자를 분류하는 데 사용할 추가 정보가 없는 경우에는 시퀀스 정보를 사용하여 전반적인 동작을 보다 잘 이해할 수 있도록 탐색에 대한 데이터를 수집하면 됩니다.If you do not have additional information to use in classifying your users, then you can simply use the sequence information to collect data about navigation to better understand overall behavior. 그러나 고객에 대한 정보를 수집하고 해당 정보를 고객 데이터베이스와 일치시킬 수 있으면 클러스터링 기능과 시퀀스에 대한 예측을 함께 사용하여 현재 페이지에 대한 탐색 경로를 기반으로 사용자에게 맞게 조정된 권장 사항을 제공할 수 있습니다.However, if you can collect information about customers and match that information with your customer database, you can combine the power of clustering with prediction on sequences to provide recommendations that are tailored to the user, or perhaps based on the path of navigation to the current page.

시퀀스 클러스터링 모델에서 컴파일하는 광범위한 상태 및 전환 정보를 사용하여 전혀 사용되지 않는 경로를 확인할 수도 있습니다.Another use of the extensive state and transition information compiled by a sequence clustering model is to determine which possible paths are never used. 예를 들어 여러 방문자가 1-4페이지만 방문하고 계속해서 5페이지를 방문하지는 않는 경우 5페이지를 탐색할 수 없는 문제가 있는지 조사할 수 있습니다.For example, if you have many visitors going to pages 1-4, but visitors never continue on to page 5, you might investigate whether there are problems that prevent navigation to page 5. 모델 콘텐츠를 쿼리하고 해당 결과를 가능한 경로 목록과 비교하여 이 작업을 수행할 수 있습니다.You can do this by querying the model content, and comparing it against a list of possible paths. 웹 사이트의 모든 탐색 경로를 보여 주는 그래프는 프로그래밍 방식으로 만들거나 다양한 사이트 분석 도구를 사용하여 만들 수 있습니다.Graphs that tell you all the navigation paths in a Web site can be created programmatically, or by using a variety of site analysis tools.

모델 콘텐츠를 쿼리하여 관찰된 경로 목록을 가져오는 방법이나 시퀀스 클러스터링 모델에 대한 다른 쿼리 예를 보려면 시퀀스 클러스터링 모델 쿼리 예제를 참조하세요.To find out how to obtain the list of observed paths by querying the model content, and to see other examples of queries on a sequence clustering model, see Sequence Clustering Model Query Examples.

관련 항목:See Also

마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) Mining Model Content (Analysis Services - Data Mining)
Microsoft Sequence Clustering Algorithm Microsoft Sequence Clustering Algorithm
시퀀스 클러스터링 모델 쿼리 예제Sequence Clustering Model Query Examples