Microsoft Clustering-Algorithmus

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Der Microsoft Clustering-Algorithmus ist ein Segmentierungs- oder Clusteringalgorithmus, der Fälle in einem Dataset durchläuft, um diese in Clustern zu gruppieren, die ähnliche Merkmale enthalten. Diese Gruppierungen eignen sich zum Durchsuchen von Daten, Identifizieren von Datenanomalien und Erstellen von Vorhersagen.

Clustermodelle identifizieren Beziehungen in einem Dataset, die bei einer einfachen Betrachtung der Daten nicht unbedingt zu erkennen sind. Sie können z.B. einfach davon ausgehen, dass Personen, die mit dem Fahrrad zur Arbeit fahren, für gewöhnlich nicht weit von ihren Arbeitsplätzen entfernt wohnen. Der Algorithmus kann jedoch nach anderen Merkmalen von Fahrradpendlern suchen, die nicht so klar auf der Hand liegen. In dem folgenden Diagramm zeigt Cluster A Daten zu Personen, die dazu tendieren, mit dem Auto zur Arbeit fahren, während Cluster B Daten zu Personen zeigt, die dazu tendieren, mit dem Fahrrad zur Arbeit zu fahren.

Clustermuster von Pendlertendenzen

Der Clusteringalgorithmus unterscheidet sich von anderen Data Mining-Algorithmen wie dem Microsoft Decision Trees-Algorithmus dadurch, dass Sie keine vorhersagbare Spalte angeben müssen, um ein Clusteringmodell erstellen zu können. Der Clustering-Algorithmus trainiert das Modell systematisch anhand der Beziehungen, die in den Daten bestehen, und anhand der Cluster, die der Algorithmus identifiziert.

Beispiel

Betrachten Sie eine Gruppe von Personen, die ähnliche demografische Informationen teilen und ähnliche Produkte vom Unternehmen Adventure Works kaufen. Diese Gruppe entspricht einem Datencluster. In einer Datenbank gibt es u. U. viele von diesen Clustern. Durch genaues Betrachten der Spalten, die einen Cluster darstellen, lässt sich klarer erkennen, wie die Datensätze eines Datasets miteinander verknüpft sind.

Funktionsweise des Algorithmus

Der Microsoft Clustering-Algorithmus identifiziert zunächst Beziehungen in einem Dataset und generiert basierend auf diesen Beziehungen eine Reihe von Clustern. Wie das folgende Diagramm verdeutlicht, ist ein Punktdiagramm eine nützliche Methode, um darzustellen, wie der Algorithmus Daten gruppiert. Das Punktdiagramm stellt alle Fälle im Dataset dar, und jeder Fall entspricht einem Punkt auf dem Diagramm. Die Cluster gruppieren Punkte auf dem Diagramm und verdeutlichen die Beziehungen, die der Algorithmus identifiziert.

Punktdiagramm von Fällen in einem Dataset

Nachdem Sie zuerst die Cluster definiert haben, berechnet der Algorithmus, wie gut die Cluster Punktegruppierungen darstellen. Anschließend versucht der Algorithmus, die Gruppierungen neu zu definieren, um Cluster zu erstellen, die den Daten besser entsprechen. Der Algorithmus wiederholt diesen Prozess so lange, bis sich die Ergebnisse durch Neudefinieren der Cluster nicht mehr verbessern lassen.

Sie können die Arbeitsweise des Algorithmus anpassen, indem Sie eine Clusteringtechnik auswählen, die maximale Anzahl von Clustern beschränken oder die Menge der zur Erstellung eines Clusters erforderlichen Unterstützungswerte ändern. Weitere Informationen finden Sie unter Technische Referenz für den Microsoft Clustering-Algorithmus. Dieser Algorithmus umfasst zwei gängige Clustermethoden: K-Means-Clustering und die Expectation Maximization-Methode.

Anforderungen für Clusteringmodelle

Wenn Sie Daten für das Training von Clusteringmodellen aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für Clusteringmodelle gelten folgende Anforderungen:

Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.
Eingabespalten Jedes Modell muss mindestens eine Eingabespalte enthalten, welche die zur Bildung der Cluster verwendeten Werte enthält. Sie können beliebig viele Eingabespalten verwenden. Abhängig von der Anzahl von Werten in jeder Spalte, kann sich der zum Trainieren des Modells erforderliche Zeitaufwand durch das Hinzufügen zusätzlicher Spalten jedoch erhöhen.
Optionale vorhersagbare Spalte Der Algorithmus benötigt keine vorhersagbare Spalte zur Erstellung des Modells. Sie können aber eine vorhersagbare Spalte fast jeden Datentyps hinzufügen. Die Werte der vorhersagbaren Spalte können als Eingabe für das Clusteringmodell behandelt werden. Sie können auch angeben, dass diese Werte nur für Vorhersagen verwendet werden sollen. Wenn Sie beispielsweise das Einkommen der Kunden vorhersagen möchten, indem Sie Cluster auf der Grundlage demografischer Daten wie Region oder Alter bilden, würden Sie die Einkommensspalte als PredictOnly festlegen und alle übrigen Spalten, wie z. B. Region oder Alter, als Eingabespalten hinzufügen.

Ausführliche Informationen zu den in Clustermodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt „Anforderungen“ unter Technische Referenz für den Microsoft Clustering-Algorithmus.

Anzeigen eines Clusteringmodells

Zum Durchsuchen des Modells können Sie den Microsoft Cluster-Viewerverwenden. Wenn Sie ein Clusteringmodell anzeigen, zeigt SQL Server Analysis Services Ihnen die Cluster in einem Diagramm an, das die Beziehungen zwischen Clustern darstellt, und bietet außerdem ein detailliertes Profil jedes Clusters, eine Liste der Attribute, die jeden Cluster von den anderen unterscheiden, und die Merkmale des gesamten Trainingsdatensatzes. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Cluster-Viewer.

Wenn Sie detailliertere Informationen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewerdurchsuchen. Der für das Modell gespeicherte Inhalt umfasst die Verteilung der Werte an jedem Knoten, die Wahrscheinlichkeit jedes Clusters und andere Informationen. Weitere Informationen finden Sie unter Miningmodellinhalt für Clusteringmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert, den Sie durchsuchen oder zum Erstellen von Vorhersagen verwenden können.

Sie können Abfragen erstellen, um Vorhersagen darüber auszugeben, ob neue Daten in die erkannten Cluster passen, oder um aussagekräftige Statistiken über die Cluster zu erhalten.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele zur Verwendung von Abfragen in Verbindung mit einem Clustermodell finden Sie unter Beispiele für Clustermodellabfragen.

Hinweise

Unterstützt die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Technische Referenz für den Microsoft Clustering-Algorithmus
Mingingmodellinhalt von Clustermodellen (Analysis Services - Data Mining)
Beispiele für Clustermodellabfragen