Microsoft Naive Bayes Algorithm

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Der Microsoft Naive Bayes-Algorithmus ist ein Klassifizierungsalgorithmus, der auf Bayes-Theoremen basiert und sowohl für die explorative als auch für die Vorhersagemodellierung verwendet werden kann. Die Angabe "naiv" im Namen "Naïve Bayes" rührt daher, dass der Algorithmus Bayes Techniken verwendet, aber keine Abhängigkeiten berücksichtigt, die möglicherweise vorhanden sind.

Dieser Algorithmus ist weniger rechenintensiv als andere Microsoft-Algorithmen und daher nützlich, um schnell Miningmodelle zu generieren, um Beziehungen zwischen Eingabespalten und vorhersagbaren Spalten zu ermitteln. Sie können diesen Algorithmus für eine erste Untersuchung der Daten verwenden. Später können Sie dann die Ergebnisse anwenden, um zusätzliche Miningmodelle mit anderen Algorithmen zu erstellen, deren Rechenaufwand größer ist und die präziser sind.

Beispiel

Als fortlaufende Werbestrategie hat die Marketingabteilung der Firma Adventure Works Cycle beschlossen, potenzielle Kunden durch den E-Mail-Versand von Flyern anzuwerben. Zur Reduzierung von Kosten sollen die Flyer nur an jene Kunden gesendet werden, die mit höherer Wahrscheinlichkeit auf diese Flyer reagieren. Das Unternehmen speichert die Informationen in einer Datenbank mit demographischen Daten und Reaktionen auf vorherige Mailingaktionen. Anhand dieser demographischen Daten, wie z. B. über das Alter und den Standort, möchten sie die Reaktion auf eine Werbekampagne vorhersagen, indem sie potenzielle Kunden mit Kunden vergleichen, die ähnliche Merkmale aufweisen und die bereits in der Vergangenheit Produkte des Unternehmens gekauft haben. Insbesondere sollen die Unterschiede zwischen jenen Kunden gezeigt werden, die ein Fahrrad gekauft haben, und jenen, die keins gekauft haben.

Mithilfe des Microsoft Naive Bayes-Algorithmus kann die Marketingabteilung schnell ein Ergebnis für ein bestimmtes Kundenprofil vorhersagen und somit bestimmen, welche Kunden am wahrscheinlichsten auf die Flyer reagieren. Mithilfe des Microsoft Naive Bayes Viewers in SQL Server Data Tools können sie auch visuell untersuchen, welche Eingabespalten zu positiven Antworten auf Flyer beitragen.

Funktionsweise des Algorithmus

Der Microsoft Naive Bayes-Algorithmus berechnet die Wahrscheinlichkeit jedes Zustands der einzelnen Eingabespalten unter Berücksichtigung jedes möglichen Zustands der vorhersagbaren Spalte.

Um zu verstehen, wie dies funktioniert, verwenden Sie den Microsoft Naive Bayes Viewer in SQL Server Data Tools (wie in der folgenden Grafik gezeigt), um visuell zu untersuchen, wie der Algorithmus Zustände verteilt.

Naive Bayes Verteilung von Staaten

Hier listet der Microsoft Naive Bayes Viewer jede Eingabespalte im Dataset auf und zeigt, wie die Zustände der einzelnen Spalten verteilt sind, je nach Zustand der vorhersagbaren Spalte.

Sie können diese Anzeige des Modells zur Identifizierung der Eingabespalten verwenden, die zur Unterscheidung zwischen den verschiedenen Status der vorhersagbaren Spalte wichtig sind.

Zum Beispiel sind hier, in der Verteilung der Eingabewerte in der Zeile für Commute Distance, eindeutig Unterschiede bei Käufern und Nichtkäufern zu sehen. Daraus wird ersichtlich, dass die Eingabe "Commute Distance = 0-1 miles" ein potenzieller Vorhersagefaktor ist.

Der Viewer stellt auch Werte für die Verteilungen bereit. Diese zeigen an, dass bei Kunden mit einem Arbeitsweg zwischen 1 und 2 Meilen die Wahrscheinlichkeit für einen Fahrradkauf bei 0,387 liegt. Die Wahrscheinlichkeit, dass Sie kein Fahrrad kaufen, liegt bei 0,287. In diesem Beispiel verwendet der Algorithmus numerische Informationen, die von den Kundenmerkmalen (wie z. B. der Pendelstrecke) abgeleitet werden, um vorherzusagen, ob ein Kunde ein Fahrrad kauft.

Weitere Informationen zur Verwendung von Microsoft Naive Bayes Viewer finden Sie unter Durchsuchen eines Modells mithilfe des Microsoft Naive Bayes Viewers.

Erforderliche Daten für Naive Bayes-Modelle

Wenn Sie Daten für die Verwendung beim Training eines Naive Bayes-Modells aufbereiten, müssen Sie sich mit den Anforderungen des Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für ein Naive Bayes-Modell gelten die folgenden Anforderungen:

Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.
Eingabespalten In einem Naive Bayes-Modell müssen entweder alle Spalten diskret oder die Werte diskretisiert sein. Informationen zum Diskretisieren (Bin)-Spalten finden Sie unter Discretization Methods (Data Mining).
Variablen müssen unabhängig sein. Bei einem Naive Bayes-Modell ist es außerdem wichtig sicherzustellen, dass die Eingabeattribute unabhängig voneinander sind. Dies ist besonders wichtig, wenn Sie das Modell für Vorhersagen verwenden. Wenn Sie dies nicht beachten und zwei Datenspalten verwenden, die bereits in einer engen Beziehung zueinander stehen, würde der Einfluss dieser beiden Spalten multipliziert, sodass unter Umständen andere Faktoren, die das Ergebnis beeinflussen, nicht mehr erkennbar sind.

Wenn Sie im umgekehrten Verwendungsfall ein Modell oder Dataset untersuchen, ist die Fähigkeit des Algorithmus, Korrelationen zwischen Variablen zu identifizieren, hingegen hilfreich, da hierdurch Beziehungen zwischen den Eingaben identifiziert werden können.
Mindestens eine vorhersagbare Spalte: Das vorhersagbare Attribut muss diskrete oder diskretisierte Werte enthalten.

Die Werte der vorhersagbaren Spalte können als Eingaben behandelt werden. Wenn Sie ein neues Dataset untersuchen, um Beziehungen zwischen den Spalten zu ermitteln, kann dieses Vorgehen nützlich sein.

Anzeigen des Modells

Zum Durchsuchen des Modells können Sie den Microsoft-Viewer für naives Bayes-Verfahrenverwenden. Der Viewer zeigt an, wie die Eingabeattribute mit dem vorhersagbaren Attribut in Beziehung stehen. Der Viewer stellt ein detailliertes Profil für jedes Cluster, eine Liste der Attribute, um die sich die einzelnen Cluster von anderen Clustern unterscheiden, und die Eigenschaften des gesamten Trainingsdatasets bereit. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Naive Bayes-Viewer.

Wenn Sie weitere Details erfahren möchten, können Sie das Modell im Microsoft Generic Content Tree Viewer (Data Mining) durchsuchen. Weitere Informationen zum Typ der im Modell gespeicherten Informationen finden Sie unter Miningmodellinhalt für Naive Bayes-Modelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert, den Sie durchsuchen oder zum Erstellen von Vorhersagen verwenden können.

Sie können Abfragen erstellen, um Vorhersagen dazu zurückzugeben, wie neue Daten mit dem vorhersagbaren Attribut in Beziehung stehen, oder Sie können Statistiken abrufen, die die vom Modell gefundenen Korrelationen beschreiben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele zur Verwendung von Abfragen in Verbindung mit einem Naive Bayes-Modell finden Sie unter Beispiele für Naive Bayes-Modellabfrage.

Hinweise

Unterstützt die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt nicht die Erstellung von Data Mining-Dimensionen.
Unterstützt die Verwendung von OLAP-Miningmodellen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Funktionsauswahl (Data Mining)
Beispiele für Naive Bayes-Modellabfrage
Miningmodellinhalt von Naive Bayes-Modellen (Analysis Services - Data Mining)
Technische Referenz für den Microsoft Naive Bayes-Algorithmus