Latent Dirichlet Allocation

Verwenden der vowpal wabbit-Bibliothek zum Ausführen von VW LDA

Kategorie: Textanalyse

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul für die latrichlet-Zuordnung in Azure Machine Learning Studio (klassisch) verwenden, um ansonsten nicht klassifizierten Text in eine Reihe von Kategorien zu gruppieren. Die latente Dirichlet-Zuordnung (LDA) wird häufig bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet, um ähnliche Texte zu finden. Ein anderer häufig verwendeter Begriff ist Themenmodellierung.

Dieses Modul nimmt eine Text Spalte an und generiert diese Ausgaben:

  • Den Quelltext mit einem Score für jede Kategorie

  • Eine Featurematrix, die extrahierte Begriffe und Koeffizienten für jede Kategorie enthält.

  • Eine Transformation, die Sie speichern und erneut auf neuen Eingabetext anwenden können

Da dieses Modul die vowpal wabbit-Bibliothek verwendet, ist es sehr schnell. Weitere Informationen zu vowpal wabbit finden Sie im GitHub-Repository , das Tutorials und eine Erläuterung des Algorithmus enthält.

Weitere Informationen zu latenten Dirichlet-Zuordnungen (LDA)

Im Allgemeinen ist LDA keine Methode für die Klassifizierung pro SE, sondern verwendet einen generarisieren Ansatz. Dies bedeutet, dass Sie keine bekannten Klassen Bezeichnungen bereitstellen müssen und dann die Muster ableiten müssen. Stattdessen generiert der Algorithmus ein probabilistisches Modell, das verwendet wird, um Gruppen von Themen zu identifizieren. Sie können das probabilistische Modell zum Klassifizieren vorhandener Trainings Fälle oder neuer Fälle verwenden, die Sie als Eingabe für das Modell bereitstellen.

Ein generatives Modell kann bevorzugt werden, da dadurch keine starken Annahmen über die Beziehung zwischen dem Text und den Kategorien gemacht werden und nur die Verteilung von Wörtern zum mathematisch Modellieren von Themen verwendet wird.

Weitere Informationen finden Sie im Abschnitt mit den technischen Hinweisen.

Konfigurieren der Latent Dirichlet Allocation

Dieses Modul erfordert ein Dataset mit einer Textspalte, die unformatiert oder vorverarbeitet sein kann.

  1. Fügen Sie dem Experiment das latente Dirichlet-Zuordnungs Modul hinzu.

  2. Stellen Sie als Eingabe für das Modul ein Dataset mit einer oder mehreren Textspalten bereit.

  3. Wählen Sie für Ziel Spalten mindestens eine Spalte aus, die den zu analysierenden Text enthält.

    Sie können mehrere Spalten auswählen, müssen jedoch den Datentyp "String" aufweisen.

    Im allgemeinen analysieren Sie in der Regel eine einzelne Text Spalte, da LDA eine große Merkmals Matrix aus dem Text erstellt.

  4. Geben Sie für die Anzahl der zu modellenden Themen eine ganze Zahl zwischen 1 und 1000 ein, die angibt, wie viele Kategorien oder Themen Sie aus dem Eingabetext ableiten möchten.

    Standardmäßig werden fünf Themen erstellt.

  5. Geben Sie für N-grams die maximale Länge von N-Grammen an, die während der Hasherstellung generiert werden sollen.

    Der Standardwert beträgt 2, sodass sowohl Bigramme als auch Unigramme generiert werden.

  6. Wählen Sie die Option normalize aus, um Ausgabewerte in Wahrscheinlichkeiten zu übernehmen. Anstatt die transformierten Werte als ganze Zahlen darzustellen, werden die Werte im Ausgabe-und featuredataset daher wie folgt transformiert:

    • Werte im Dataset werden als Wahrscheinlichkeit dargestellt durch P(topic|document).

    • Werte in der Feature-Themen-Matrix werden als Wahrscheinlichkeit dargestellt durch P(word|topic).

  7. Wählen Sie die Option alle Optionen anzeigen aus, und legen Sie Sie auf true fest, wenn Sie zusätzliche erweiterte Parameter anzeigen und festlegen möchten.

    Diese Parameter sind spezifisch für die vowpal wabbit-Implementierung von Lda. Es gibt einige gute Tutorials zu LDA in vowpal wabbit Online und das offizielle vowpal wabbit-wiki.

    In diesem Beispiel finden Sie Beispiele in Version 8 und die Verwendung von VW in Azure ml.

    • Parameter „Rho“ . Geben Sie eine vorherige Wahrscheinlichkeit für eine geringe Datendichte von Themenverteilungen an. Entspricht dem-Parameter von VW lda_rho . Verwenden Sie den Wert 1, wenn Sie davon ausgehen, dass die Verteilung von Wörtern flach ist. Dies bedeutet, dass alle Wörter als gleich wahrscheinlich angesehen werden. Wenn Sie der Ansicht sind, dass die meisten Wörter nur spärlich vorkommen, können Sie einen wesentlich niedrigeren Wert festlegen.

    • Parameter „Alpha“ . Geben Sie eine vorherige Wahrscheinlichkeit für eine geringe Datendichte von Themengewichtungen pro Dokument an. Entspricht dem-Parameter von VW lda_alpha .

    • Geschätzte Anzahl von Dokumenten. Geben Sie eine Zahl ein, die die beste Schätzung der Anzahl der Dokumente (Zeilen) darstellt, die verarbeitet werden. Dadurch kann das Modul eine beliebige Hash Tabelle mit ausreichender Größe zuordnen. Entspricht dem- lda_D Parameter in vowpal wabbit.

    • Größe des Batches. Geben Sie eine Zahl ein, die angibt, wie viele Zeilen in jeden an vowpal wabbit gesendeten Text Stapel eingeschlossen werden sollen. Entspricht dem- batch_sz Parameter in vowpal wabbit.

    • Anfänglicher Wert der Iterationen im Aktualisierungszeitplan für das Lernen. Geben Sie den Startwert für die Lernrate an. Entspricht dem- initial_t Parameter in vowpal wabbit.

    • Während der Aktualisierung auf die Iteration aufgewandte Leistung. Geben Sie die auf die Iterations Anzahl während der Online Aktualisierung angewendete Stromversorgung an. Entspricht dem- power_t Parameter in vowpal wabbit.

    • Anzahl der Durchgänge über die Daten. Geben Sie an, wie oft der Algorithmus die Daten durchlaufen soll. Entspricht dem- epoch_size Parameter in vowpal wabbit.

  8. Wählen Sie die Option, das buildwörterbuch von ngrams oder das buildwörterbuch von ngrams vor LDA aus, wenn Sie die n-Gram-Liste in einem anfänglichen Durchlauf vor der Klassifizierung von Text erstellen möchten.

    Wenn Sie das erste Wörterbuch vorab erstellen, können Sie es später beim Überprüfen des Modells verwenden. Zuordnungen von Ergebnissen zu Text anstelle von numerischen Indizes sind in der Regel einfacher zu interpretieren. Das Speichern des Wörterbuchs dauert jedoch länger und verbraucht zusätzlichen Speicher.

  9. Geben Sie für Maximale Größe des NGRAM-Wörterbuchs die Gesamtzahl der Zeilen ein, die im n-Gram-Wörterbuch erstellt werden können.

    Diese Option ist nützlich, um die Größe des Wörterbuchs zu steuern. Wenn jedoch die Anzahl der ngrams in der Eingabe diese Größe überschreitet, können Konflikte auftreten.

  10. Führen Sie das Experiment aus. Das LDA-Modul nutzt das Bayes-Theorem, um zu ermitteln, welche Themen mit einzelnen Wörtern verknüpft sein können. Wörter sind nicht ausschließlich Themen oder Gruppen zugeordnet. Stattdessen hat jedes n-Gram eine ermittelte Wahrscheinlichkeit, dass Sie mit einer der ermittelten Klassen verknüpft ist.

Ergebnisse

Das Modul liefert zwei Ausgaben:

  • Transformiertes DataSet: enthält den Eingabetext und eine angegebene Anzahl von ermittelten Kategorien sowie die Ergebnisse für die einzelnen Textbeispiele für jede Kategorie.

  • Funktions Themen Matrix: in der Spalte ganz links ist die extrahierte Textfunktion enthalten, und es gibt eine Spalte für jede Kategorie, die das Ergebnis für dieses Feature in dieser Kategorie enthält.

Weitere Informationen finden Sie unter Beispiel für LDA-Ergebnisse.

LDA-Transformation

Dieses Modul gibt auch die Transformation aus, die LDA auf das DataSet anwendet, als itransform-Schnittstelle.

Sie können diese Transformation speichern und für andere Datasets wieder verwenden. Dies kann hilfreich sein, wenn Sie einen großen Korpus trainiert haben und die Koeffizienten oder Kategorien wieder verwenden möchten.

Optimieren von LDA-Modellen oder -Ergebnissen

In der Regel ist es nicht möglich, ein einzelnes LDA-Modell zu erstellen, das alle Anforderungen erfüllt, und auch ein Modell, das für eine Aufgabe entworfen wurde, erfordert ggf. viele Iterationen, Es wird empfohlen, alle diese Methoden zur Verbesserung des Modells auszuprobieren:

  • Ändern der Modellparameter
  • Analysieren der Ergebnisse mithilfe von Visualisierung
  • Erhalten Sie Feedback zu Fachleuten, um zu ermitteln, ob die generierten Themen nützlich sind.

Qualitative Maßnahmen können für eine Auswertung der Ergebnisse ebenfalls hilfreich sein. Zum Auswerten der Ergebnisse der Themenmodellierung sollten Sie Folgendes berücksichtigen:

  • Genauigkeit: sind ähnliche Elemente wirklich ähnlich?
  • Vielfalt: kann das Modell zwischen ähnlichen Elementen unterscheiden, wenn dies für das Geschäftsproblem erforderlich ist?
  • Skalierbarkeit: funktioniert es für eine breite Palette von Text Kategorien oder nur für eine schmale Zieldomäne?

Die Genauigkeit von Modellen, die auf LDA basieren, kann häufig durch die Verarbeitung natürlicher Sprache verbessert werden, um Text zu bereinigen, zusammenzufassen, zu vereinfachen oder zu kategorisieren. Beispielsweise können die folgenden Techniken, die alle in Azure Machine Learning unterstützt werden, die Klassifizierungsgenauigkeit verbessern:

  • Stoppwortentfernung

  • Kasusnormalisierung

  • Lemmatisierung oder Wortstammerkennung

  • Erkennung benannter Entitäten

Weitere Informationen finden Sie unter Vorverarbeiten von Text und benannte Entitäts Erkennung.

In Studio (klassisch) können Sie auch r-oder python-Bibliotheken für die Textverarbeitung verwenden: r-Skript ausführen, Python-Skript ausführen .

Beispiele

Beispiele für Textanalysen finden Sie in den folgenden Experimenten in der Azure AI Gallery:

Weitere Informationen und ein Beispiel, das auf Kunden Prüfungs Text basiert, finden Sie Untergrund Legendes zu LDA-Ergebnissen.

Beispiel für LDA-Ergebnisse

Um zu veranschaulichen, wie das latente Dirichlet-Zuordnungs Modul funktioniert, wendet das folgende Beispiel LDA mit den Standardeinstellungen auf das Book Review-DataSet an, das in Azure Machine Learning Studio (klassisch) bereitgestellt wird.

Quelldataset

Das DataSet enthält eine Bewertungs Spalte sowie den vollständigen Kommentartext, der von Benutzern bereitgestellt wird.

In dieser Tabelle werden nur einige repräsentative Beispiele angezeigt.

text
Dieses Buch enthält gute Punkte. Wenn Sie etwas tun, hilft es Ihnen, in Wörter zu setzen, was Sie von einem Supervisor wünschen...
Ich gebe an, dass ich das Buch nicht fertiggestellt habe. Ein Freund hat mich für mich empfohlen, weil Probleme mit der Störungsbehebung aufgetreten sind...
Ich habe versucht, dieses Buch zu lesen, aber es wurde gefunden, und es war schlecht geschrieben, dass ich es in Frustration auffiel. ...
Da das Abbild von Freunden, die diese vor einigen Jahren bestanden haben, aus dem Hand Buch besteht, konnte ich das Buch nicht mit einem kurzlebigen Lieblings Favorit abgleichen.
Der Plot dieses Buchs war interessant, und es war möglicherweise ein gutes Buch. Leider war das nicht der Fall. Das Hauptproblem für mich war, dass...

Während der Verarbeitung bereinigt und analysiert das latente Dirichlet-Zuordnungs Modul den Text basierend auf den Parametern, die Sie angeben. Beispielsweise kann der Text automatisch mit einem Token versehen und Interpunktions Zeichen entfernt werden. gleichzeitig finden Sie die Text Features für die einzelnen Themen.

LDA transformiertes DataSet

Die folgende Tabelle enthält das transformierte DataSet, das auf dem Book Review-Beispiel basiert. Die Ausgabe enthält den Eingabetext und eine angegebene Anzahl von ermittelten Kategorien sowie die Ergebnisse für jede Kategorie.

Filmname Thema 1 Thema 2 Thema 3 Thema 4 Thema 5
Dieses Buch enthält die guten Punkte 0,001652892 0,001652892 0,001652892 0,001652892 0,9933884
der Friend hat das für mich empfohlen. 0,00198019 0,001980198 0,9920791 0,001980198 0,001980198
Versuch, dieses Buch zu lesen 0,002469135 0,002469135 0,9901233 0,002469135 0,002469135
von Friend ausgeliehen 0,9901232 0,002469135 0,002469135 0,002469135 0,002469135
der Plot dieses Buchs war interessant. 0,001652892 0,001652892 0,9933884 0,001652892 0,001652892

In diesem Beispiel haben wir den Standardwert 5 für die Anzahl der zu modellenden Themen verwendet. Aus diesem Grund erstellt das LDA-Modul fünf Kategorien, die angenommen werden können, dass Sie ungefähr dem ursprünglichen fünfstufigen Bewertungssystem entsprechen.

Das Modul weist jedem Eintrag außerdem eine Bewertung für jede der fünf Kategorien zu, die Themen darstellen. Ein Ergebnis gibt die Wahrscheinlichkeit an, mit der die Zeile einer bestimmten Kategorie zugewiesen werden soll.

Matrix des Funktions Themas

Die zweite Ausgabe des Moduls ist die featuretopic-Matrix. Dabei handelt es sich um ein tabellarisches DataSet, das den featurebasierten Text, in der Column- Funktion zusammen mit einem Ergebnis für jede Kategorie enthält, in den verbleibenden Spalten Thema 1, Thema 2,... Thema N. Das Ergebnis stellt den Koeffizienten dar.

Komponente Thema 1 Thema 2 Thema 3 Thema 4 Thema 5
teren 0.0240282071983144 0.0354678954779375 0.363051866576914 0.0276637824315893 0.660663576149515
was (war) 0.0171478729532397 0.0823969031108669 0.00452966877950789 0.0408714510319233 0.025077322689733
from 0.0148224220349217 0.0505086981492109 0.00434423322461094 0.0273389126293824 0.0171484355106826
plot 0.0227415889348212 0.0408709456489325 0.182791041345191 0.086937090812819 1 0.0169680136708971
Lesen 0.0227415889348212 0.0408709456489325 0.182791041345191 0.0869370908128191 0.0169680136708971
bemüht 0.0269724979147211 0.039026263551767 0.00443749106785087 0.0628829816088284 0.0235340728818033
ich 0.0262656945140134 0.0366941302751921 0.00656837975179138 0.0329214576160066 0.0214121851106808
zu 0.0141026103224462 0.043359976919215 0.00388640531859447 0.0305925953440055 0.0228993750526364
it 0.0264490547105951 0.0356674440311847 0.00541759897864314 0.0314539386250293 0.0140606468587681
friend 0.0135971322960941 0.0346118171467234 0.00434999437350706 0.0666507321888536 0.018156863779311
Punkte 0.0227415889348212 0.0396233855719081 0.00404663601474112 0.0381156510019025 0.0337788009496797
gut 0.651813073836783 0.0598646397444108 0.00446809691985617 0.0358975694646062 0.0138989124411206
.its 0.0185385588647078 0.144253986783184 0.00408876416453866 0.0583049240441475 0.015442805566858
of 0.0171416780245647 0.0559361180418586 0.0100633904544953 0.087093930106723 0.0182573833869842
gten 0.0171416780245647 0.0559361180418586 0.0100633904544953 0.087093930106723 0.0182573833869842
has 0.0171416780245647 0.0559361180418586 0.0100633904544953 0.087093930106723 0.0182573833869842
book (Buch) 0.0143157047920681 0.069145948535052 0.184036340170983 0.0548757337823903 0.0156837976985903
empfohlen 0.0161486848419689 0.0399143326399534 0.00550113530229642 0.028637149142764 0.0147675139039372
this 0.0161486848419689 0.0399143326399534 0.00550113530229642 0.028637149142764 0.0147675139039372

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Details zur Implementierung

Standardmäßig werden die Verteilungen von Ausgaben für transformierte Datasets und Feature-Topic-Matrix als Wahrscheinlichkeiten normalisiert.

  • Das transformierte Dataset wird als bedingte Wahrscheinlichkeit von Themen in einem Dokument normalisiert. In diesem Fall ist die Summe der einzelnen Zeilen gleich 1.

  • Die Feature-Themen-Matrix wird als bedingte Wahrscheinlichkeit von Wörtern in einem Thema normalisiert. In diesem Fall ist die Summe der einzelnen Spalten gleich 1.

Tipp

Gelegentlich gibt das Modul möglicherweise ein leeres Thema zurück, das meistens durch die pseudo zufällige Initialisierung des Algorithmus verursacht wird. Wenn dies der Fall ist, können Sie versuchen, Verwandte Parameter zu ändern, z. b. die maximale Größe des N-gram Wörterbuchs oder die Anzahl der Bits, die für das Feature-Hashwert verwendet werden.

LDA und Themen Modellierung

Die latente Dirichlet-Zuordnung (LDA) wird häufig für die Inhalts basierte Themen Modellierung verwendet, was im Grunde das Erlernen von Kategorien aus nicht klassifiziertem Text bedeutet. Bei der inhaltsbasierten Themenmodellierung ist ein Thema eine Verteilung von Wörtern.

Nehmen wir beispielsweise an, Sie haben einen Korpus von Kunden Reviews bereitgestellt, der viele, viele Produkte enthält. Der Text der Überprüfungen, die von vielen Kunden im Laufe der Zeit übermittelt wurden, würde viele Begriffe enthalten, von denen einige in mehreren Themen verwendet werden.

Ein Thema , das durch den LDA-Prozess identifiziert wird, kann eine Überprüfung für ein einzelnes Produkt A darstellen, oder es kann eine Gruppe von Produkt Reviews darstellen. Für LDA ist das Thema lediglich eine Wahrscheinlichkeitsverteilung über die Zeit für eine Gruppe von Wörtern.

Begriffe sind selten exklusiv für ein Produkt, können aber auch auf andere Produkte verweisen, oder es handelt sich um allgemeine Begriffe, die für alles gelten ("groß", "schrecklich"). Andere Begriffe können Füllwörter sein. Es ist jedoch wichtig zu verstehen, dass die LDA-Methode nicht zum Erfassen aller Wörter im Universum und zum Verständnis der Beziehung zwischen Wörtern verwendet wird, abgesehen von Wahrscheinlichkeiten der Zusammenstellung. Sie kann nur Wörter gruppieren, die in der Zieldomäne verwendet wurden.

Nachdem der Begriff Indizes berechnet wurde, werden einzelne Textzeilen mit einem Entfernungs basierten Ähnlichkeits Measure verglichen, um zu bestimmen, ob zwei Text Teile einander ähneln. Beispielsweise können Sie feststellen, dass das Produkt mehrere Namen aufweist, die stark korreliert sind. Möglicherweise werden Sie auch feststellen, dass stark negative Begriffe normalerweise einem bestimmten Produkt zugeordnet sind. Sie können das Ähnlichkeitsmeasure sowohl zum Identifizieren verwandter Begriffe als auch zum Erstellen von Empfehlungen verwenden.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Eingabedataset

Modulparameter

Name Typ Range Optional Standard BESCHREIBUNG
Number of hash bits Integer [1;31] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen nicht aktiviert ist. 12 Anzahl von Bits, die für Feature-Hashwert verwendet werden sollen.
Target column(s) Spaltenauswahl Erforderlich StringFeature Name oder Index der Ziel Spalte
Number of topics to model Integer [1;1000] Erforderlich 5 Modellieren der Dokument Verteilung anhand von N Themen
N-grams Integer [1;10] Erforderlich 2 Reihenfolge der während des hashns generierten N-grams
Normalize Boolean Erforderlich true Normalisieren der Ausgabe in Wahrscheinlichkeiten. Das transformierte Dataset ist P(Thema|Dokument), und die Feature-Themen-Matrix ist P(Wort|Thema).
Show all options Boolean „true“ oder „false“ Erforderlich False Zeigt zusätzliche Parameter an, die für vowpal wabbit Online LDA spezifisch sind.
Rho parameter Float [0.00001;1.0] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 0,01 Rho parameter
Alpha parameter Float [0.00001;1.0] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 0,01 Alpha parameter
Estimated number of documents Integer [1;int.MaxValue] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 1000 Geschätzte Anzahl von Dokumenten (entspricht lda_D Parameters)
Größe des Batches Integer [1;1024] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 32 Größe des Batches
Initial value of iteration used in learning rate update schedule Integer [0;int.MaxValue] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 0 Ursprünglicher Wert der Iterations Anzahl, der im Lernrate-Aktualisierungs Zeitplan verwendet wird (entspricht initial_t Parameter)
Power applied to the iteration during updates Float [0.0;1.0] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 0.5 Leistung, die während der Online Aktualisierung auf die Iterations Anzahl angewendet wird (entspricht power_t Parameter)
Anzahl der Trainingsiterationen Integer [1;1024] Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. 25 Anzahl der Trainingsiterationen
Build dictionary of ngrams Boolean „true“ oder „false“ Gilt, wenn das Kontrollkästchen alle Optionen anzeigen nicht aktiviert ist. True Erstellt vor dem Berechnen der LDA ein Wörterbuch von N-Grammen. Nützlich für die Modell Überprüfung und-Interpretation
Anzahl von Bits, die für Feature-Hashwert verwendet werden sollen. Integer [1;31] Gilt, wenn die Option buildwörterbuch von ngrams false ist 12 Anzahl von Bits, die während der featurehashung verwendet werden sollen
Maximum size of ngram dictionary Integer [1;int.MaxValue] Gilt, wenn die Option Build dictionary of ngrams den Wert True aufweist. 20000 Maximale Größe des N-Gramm-Wörterbuchs. Wenn die Anzahl der Token in der Eingabe diese Größe überschreitet, können Konflikte auftreten.
Build dictionary of ngrams prior to LDA Boolean „true“ oder „false“ Gilt, wenn das Kontrollkästchen alle Optionen anzeigen aktiviert ist. True Erstellt vor der LDA ein Wörterbuch von N-Grammen. Nützlich für die Modell Überprüfung und-Interpretation
Maximum number of ngrams in dictionary Integer [1;int.MaxValue] Gilt, wenn die Option buildwörterbuch von ngrams true und das Kontrollkästchen alle Optionen anzeigen ausgewählt ist. 20000 Maximale Größe des Wörterbuchs. Wenn die Anzahl der Token in der Eingabe diese Größe überschreitet, können Konflikte auftreten.

Ausgaben

Name Typ BESCHREIBUNG
Transformiertes Dataset Datentabelle Ausgabedataset
Matrix des Funktions Themas Datentabelle Von LDA erstellte featuretopic-Matrix
LDA-Transformation ITransform-Schnittstelle Transformation, die LDA auf das DataSet anwendet

Ausnahmen

Ausnahme Beschreibung
Fehler 0002 Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0004 Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist.
Fehler 0017 Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Textanalyse
Feature-Hashvorgang
Erkennung von benannten Entitäten
Ergebnis des vowpal wabbit 7-4-Modells
Trainieren des vowpal wabbit 7-4-Modells
Trainieren des Vowpal Wabbit 8-Modells