Extrahieren von N-Gramm-Funktionen aus Text

Erstellt N-gram-Wörterbuch Features und übernimmt die Funktionsauswahl.

Kategorie: Textanalyse

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird erläutert, wie Sie das Modul extract N-gram Features from Text in Azure Machine Learning Studio (klassisch) verwenden, um Text zu verwenden und nur die wichtigsten Informationen aus langen Text Zeichenfolgen zu extrahieren.

Das Modul erstellt ein Wörterbuch mit n-grams aus einer Spalte mit freiem Text, die Sie als Eingabe angeben. Das Modul wendet verschiedene informationsmetriken auf die n-Gram-Liste an, um die Daten Dimensionalität zu verringern und die n-gramme mit dem größten Informationswert zu identifizieren.

Wenn Sie bereits ein Vokabular von n-grams erstellt haben, können Sie die Statistiken aktualisieren oder in neuen Begriffen zusammenführen, indem Sie einen Gewichtungs Algorithmus Ihrer Wahl verwenden.

Da dieses Modul die featurearisierung von n-grams unterstützt, kann es auch bei der Bewertung verwendet werden.

Vorgehensweise beim Konfigurieren von N-gram-Extraktions Funktionen aus Text

Dieses Modul unterstützt die folgenden Szenarien zum Erstellen, aktualisieren oder Anwenden eines n-Gram-Wörterbuchs:

  • Sie entwickeln ein neues Modell mit einer Spalte mit einer freien Text Spalte und möchten Text Features extrahieren, die ausschließlich auf den Eingabedaten basieren. Siehe Anleitung.

  • Sie verfügen über einen vorhandenen Satz von Text Features und möchten die Gewichtungen durch Verarbeitung neuer Texteingaben aktualisieren. Siehe Anleitung.

  • Sie generieren Bewertungen aus einem Vorhersagemodell und müssen im Rahmen des Bewertungsprozesses Texteingaben mit einem n-Gram-Wörterbuch generieren und verwenden. Siehe Anleitung.

Sie können das Beispiel Experiment für einen Verweis verwenden.

Erstellen eines neuen n-Gram-Wörterbuchs aus einer Text Spalte

  1. Fügen Sie dem Experiment das Modul extract N-gram Features from Text hinzu, und verbinden Sie das DataSet mit dem Text, den Sie verarbeiten möchten.

  2. Wählen Sie für Text Spalte eine Spalte vom Typ Zeichenfolge aus, die den zu extrahierenden Text enthält.

    Standardmäßig wählt das Modul alle Zeichen folgen Spalten aus. Da das Ergebnis jedoch ausführlich ist, müssen Sie möglicherweise eine einzelne Spalte gleichzeitig verarbeiten.

  3. Wählen Sie im vokabularmodus Erstellen aus, um anzugeben, dass Sie eine neue Liste mit n-Gram-Funktionen erstellen.

    Weitere Informationen zum Aktualisieren eines vorhandenen Satzes von n-Gram-Funktionen finden Sie in diesem Abschnitt.

  4. Geben Sie für die Größe der n-gramme eine Zahl ein, die die Maximale Größe der zu extrahierenden und zu extrahierenden N-Gramme angibt.

    Wenn Sie z. b. eingeben, werden die Elemente " 3 unigrams", "bigrams" und "Dreieck" erstellt.

  5. Geben Sie für die K-Skip-Größe die maximale Anzahl von Zeichen ein, die sich bei der Identifizierung von Varianten von n-grams unterscheiden können. Wenn der Wert von k auf 0 festgelegt ist, können n-grams nur aus einer eindeutigen, zusammenhängenden Sequenz von Zeichen erstellt werden.

    Nehmen Sie beispielsweise an, dass Ihr Wörterbuch Das Monogramm "Computer" enthält. Der k -Wert 0 bedeutet, dass "Computer" das einzige gültige unigram ist. Wenn Sie den Wert von k auf 1 erhöhen, können Sie ein dazwischen gestellbares Zeichen überspringen, mit dem Sie weitere ähnliche Sequenzen finden. Ein Skip-Gram mit dem k -Wert 1 unterscheidet sich von einem Zeichen aus dem 0-k -unigram. Folglich werden die Skip-grams "" und "compuuter" als Teil desselben Wörterbucheintrags als "Computer" betrachtet. Wenn der k -Wert auf 2 festgelegt wird, Stimmen noch mehr unterschiedliche Wörter ab.

    Weitere Informationen zur Verwendung von Skip-Grams in der Textanalyse finden Sie in diesem Dokument: Candidate Generation and Feature Engineering for überwachtes Lexical Normalisierung

  6. Die Option " Gewichtungsfunktion" ist nur erforderlich, wenn Sie vokabare zusammenführen oder aktualisieren. Er gibt an, wie Begriffe in den beiden vokabarys und deren Bewertungen gegenseitig gewichtet werden sollen.

  7. Geben Sie für minimale Wort Länge die minimale Wort Länge von Zeichen folgen ein, die analysiert werden können.

    Nehmen Sie beispielsweise an, die minimale Wort Länge wurde auf 3 (Standardwert) festgelegt, und Sie hatten eine Eingabe mit einem einzelnen Wort und eine andere mit einem kurzen Text wie "schöne Stelle". Beide Zeilen werden ignoriert.

  8. Geben Sie für Maximale Wort Länge die maximale Anzahl von Buchstaben ein, die in einem beliebigen Wort in einem n-Gram-Zeichen verwendet werden können.

    Standardmäßig sind bis zu 25 Zeichen pro Wort oder Token zulässig. Wörter, die länger sind als diese entfernt werden, unter der Annahme, dass Sie möglicherweise Sequenzen von willkürlichen Zeichen anstelle von tatsächlichen lexikalischen Elementen sind.

  9. Geben Sie für die absolute Frequenz für das n-Gram-Dokument eine Zahl ein, die die minimalen vorkommen angibt, die für das Einschließen eines einzelnen Worts oder Tokens in das n-Gram-Wörterbuch erforderlich sind.

    Wenn Sie z. b. den Standardwert 5 verwenden, müssen alle n-grams oder Skip-grams mindestens fünfmal im Korpus vorkommen, damit Sie in das n-Gram-Wörterbuch eingeschlossen werden können.

  10. Geben Sie für Maximales n-Gram-Dokument Verhältnis eine Zahl ein, die dieses Verhältnis darstellt: die Anzahl der Zeilen, die ein bestimmtes n-Gramm enthalten, über die Anzahl der Zeilen im gesamten Korpus.

    Ein Verhältnis von 1 gibt beispielsweise an, dass das N-Gramm dem N-Gramm-Wörterbuch selbst dann hinzugefügt werden kann, wenn in jeder Zeile ein bestimmtes N-Gramm vorhanden ist. In der Regel wird ein Wort, das in jeder Zeile vorkommt, als Füllwort betrachtet und entfernt. Um fachgebietsabhängige Füllwörter auszufiltern, verringern Sie dieses Verhältnis.

    Wichtig

    Die Häufigkeit des Vorkommens bestimmter Wörter ist nicht einheitlich, sondern variiert von Dokument zu Dokument. Wenn Sie beispielsweise Kundenkommentare zu einem bestimmten Produkt analysieren, kann der Produktname sehr häufig vorkommen und ähnlich einem Füllwort sein, aber in anderen Kontexten als wichtiger Begriff gelten.

  11. Wählen Sie die Option out-of-vokabularzeilen erkennen aus, wenn Sie einen Indikator für Zeilen generieren möchten, die Wörter enthalten, die nicht im n-Gram-Vokabular enthalten sind und als "Out of Vokabular" (OOV)-Wörter bezeichnet werden.

    Alle Lexika sind begrenzt. Daher ist es fast garantiert, dass Ihr Textkorpus Wörter enthält, die nicht im Lexikon-oder n-Gram-Wörterbuch enthalten sind. Diese Wörter können jedoch verschiedene Auswirkungen auf Sprachmodelle haben, einschließlich höherer Fehlerraten im Vergleich zu in-vokabularwörtern (IV). Abhängig von Ihrer Domäne können diese OOV-Wörter wichtige Inhalts Wörter darstellen.

    Durch die Identifizierung von Zeilen, die diese Wörter enthalten, können Sie die Auswirkungen dieser Begriffe entweder kompensieren oder die Begriffe und verknüpften Zeilen separat behandeln.

  12. Wählen Sie die Option Anfang des Satzes markieren aus, um eine Sonderzeichenfolge hinzuzufügen, die den Anfang eines Satzes im n-Gram-Wörterbuch angibt. Die Vorfestlegung von n-grams, die einen Satz mit einem Sonderzeichen beginnen, ist in der Textanalyse üblich und kann bei der Analyse von Diskurs Grenzen nützlich sein.

    Azure ml Studio (klassisch) fügt das Symbol ein ||| . Sie können kein benutzerdefiniertes Zeichen angeben.

  13. Wählen Sie die Option n-Gram-Merkmals Vektoren normalisieren aus, wenn Sie die featurevektoren normalisieren möchten. Wenn Sie dies tun, wird jeder n-Gram-Funktions Vektor durch seine L2-Norm dividiert.

    Die Normalisierung wird standardmäßig verwendet.

  14. Legen Sie filterbasierte Funktionsauswahl verwenden auf true fest, wenn Sie zusätzliche Optionen zum Verwalten der Größe des Text Funktions Vektors aktivieren möchten.

    • Die Funktionsauswahl kann hilfreich sein, um die Dimensionalität der n-gramme zu verringern.
    • Wenn Sie die Filter Auswahl nicht anwenden, werden alle möglichen n-gramme erstellt, wodurch die Abdeckung erhöht wird, wenn das Wörterbuch länger ist, und möglicherweise viele seltene Begriffe einschließen.
    • Wenn Sie in einem kleinen Korpus die Funktionsauswahl verwenden, kann die Anzahl der erstellten Begriffe erheblich reduziert werden.
    • Weitere Informationen finden Sie unter Filter basierte Funktionsauswahl.

    Wenn Sie die Featureauswahl verwenden, müssen Sie in der Dropdown Liste Funktions Bewertungsmethode eine Methode auswählen:

    • Pearsonkorrelation: berechnet die Korrelation von Pearson basierend auf dem Bezeichnungs Spaltenwert und dem Text Vektor.
    • Mutualinformation: berechnet eine gegenseitige Informations Bewertung basierend auf dem Bezeichnungs Spaltenwert und dem Text Vektor.
    • Kendallkorrelation: berechnet die Korrelation von Kendall basierend auf dem Bezeichnungs Spaltenwert und dem Text Vektor.
    • Speer mankorrelation: berechnet die Spearman-Korrelation basierend auf dem Bezeichnungs Spaltenwert und dem Text Vektor.
    • Chisquared: verwendet die Chi-squared-Methode, um die Korrelation zwischen dem Bezeichnungs Spaltenwert und dem Text Vektor zu berechnen.
    • Fisherscore: berechnet das Fisher-Ergebnis für den Bezeichnungs Spaltenwert und den Text Vektor.
    • Count-based Feature Selection: erstellt neue Features basierend auf der Anzahl der Werte. Eine Bezeichnungs Spalte ist mit dieser Methode nicht erforderlich.

    Legen Sie abhängig von der gewählten Methode eine der folgenden Optionen fest:

    • Anzahl gewünschter Features: erforderlich, wenn Sie eine andere Funktionsauswahl Methode als count-based Feature Selection verwenden.

      Bei der Funktionsauswahl erhalten alle n-gramme eine Merkmals Bewertung, und n-gramme werden nach Bewertung sortiert. Der hier festgelegte Wert bestimmt, wie viele der Funktionen mit der höchsten Rangfolge ausgegeben werden. N-gramme mit niedrigeren Merkmals Bewertungen werden verworfen.

    • Minimale Anzahl von Elementen ungleich NULL: erforderlich, wenn Sie die Anzahl basierte Funktionsauswahl verwenden.

      Geben Sie eine ganze Zahl ein, die die Mindestanzahl von Instanzen darstellt, die für die Tabellen Zähler für eine potenzielle Funktion erforderlich sind.

  15. Führen Sie das Experiment aus.

    In diesem Abschnitt finden Sie eine Erläuterung der Ergebnisse und ihres Formats.

Aktualisieren eines vorhandenen n-Gram-Wörterbuchs oder Zusammenführen von Wörterbüchern

  1. Fügen Sie dem Experiment das Modul extract N-gram Features from Text hinzu, und verbinden Sie das DataSet mit dem Text, den Sie verarbeiten möchten, mit dem datasetport .

  2. Wählen Sie für Text Spalte die Text Spalte aus, die den Text enthält, der angezeigt werden soll. Standardmäßig wählt das Modul alle Spalten vom Typ „string“ aus. Um optimale Ergebnisse zu erzielen, verarbeiten Sie jeweils eine einzelne Spalte.

  3. Fügen Sie das gespeicherte Dataset hinzu, das ein zuvor generiertes N-Gramm-Wörterbuch enthält, und verbinden Sie es mit dem Input vocabulary-Port (Eingabevokabular). Sie können auch die Ergebnis vokabularausgabe einer upstreaminstanz des Moduls extract N-gram Features from Text verbinden.

    Zum Zusammenführen oder Aktualisieren des Vokabulars muss das Schema des Eingabe Vokabulars genau mit dem erwarteten Format übereinstimmen. Entfernen Sie keine Spalten aus, oder fügen Sie dem Eingabe Vokabular Spalten hinzu.

  4. Wählen Sie im vokabularmodus eine der folgenden Aktualisierungs Optionen aus der Dropdown Liste aus:

    • Schreib geschützt: stellt den Eingabe-Korpus in Bezug auf das Eingabe Vokabular dar. Das heißt, anstelle der Berechnung von Begriffs Frequenzen aus dem neuen Text DataSet (bei der linken Eingabe) werden die n-Gram Gewichtungen aus dem Eingabe Vokabular unverändert angewendet.

      Tipp

      Verwenden Sie diese Option, wenn Sie einen Textklassifizierer bewerten.

    • Update: erstellt ein neues n-Gramm-Vokabular aus dem Eingabe Korpus und führt es mit dem Eingabe Vokabular zusammen. Mit anderen Worten, Sie können dem erstellten Vokabular neue Einträge aus dem Eingabe Vokabular hinzufügen, oder Sie können vorhandene Einträge aktualisieren.

      Tipp

      Verwenden Sie diese Option für inkrementelle Aktualisierungen des Vokabulars mit eingehenden Daten Batches

    • Merge: generiert ein neues n-Gramm-Vokabular aus dem Eingabe Korpus.

      Diese Option ist nützlich, wenn Sie ein Hintergrund Vokabular als Eingabe an das Modul übergeben und die Gewichtung von Stopp Wörtern reduzieren möchten. Anders ausgedrückt wird jedem Eintrag, der über eine hohe Dokument Häufigkeits Bewertung im Hintergrund Vokabular verfügt, ein niedrigeres Intervall für die Dokument Häufigkeit im erstellten Vokabular zugewiesen.

      Tipp

      Verwenden Sie diese Option, wenn Sie dem erstellten Vokabular keine neuen Einträge aus der Eingabe hinzufügen möchten und nur die Ergebnisse vorhandener Einträge anpassen möchten.

  5. Wenn Sie vokabare zusammenführen oder aktualisieren, ist die Option Auswählen der Gewichtungsfunktion erforderlich. Die Gewichtungsfunktion gibt an, wie die DF-und IDF-Ergebnisse in den beiden vokabarys gegenseitig gewichtet werden sollen:

    • Binary Weight (Binäre Gewichtung): Weist den extrahierten N-Grammen einen binären Wert für das Vorhandensein zu. Mit anderen Worten: der Wert für jedes n-Gram ist 1, wenn er im angegebenen Dokument vorhanden ist, und andernfalls 0.
    • Tf Weight: weist den extrahierten n-grams ein Bewertungsergebnis (Term Frequency Score,tf) zu. Der Wert jedes N-Gramm ist die Häufigkeit des Vorkommens im angegebenen Dokument.
    • IDF Weight: weist den extrahierten n-grams eine Inverse Document Frequency Score (IDF) zu. Der Wert für jedes N-Gramm ist das Protokoll der Korpusgröße geteilt durch die Häufigkeit seines Vorkommens im gesamten Korpus. Das heißt: IDF = log of corpus_size / document_frequency
    • Tf-IDF Weight: weist den extrahierten n-grams einen Begriff Frequency/Inverse Document Frequency Score (tf/IDF) zu. Der Wert für jedes N-Gramm ist die TF-Bewertung multipliziert mit seiner IDF-Bewertung.
    • Diagramm Gewichtung: weist den extrahierten n-grams basierend auf der Rangfolge des textrank-Diagramms eine Bewertung zu. Textrank ist ein Diagramm basiertes Rang Folge Modell für die Textverarbeitung. Graph-basierte Rang Folge Algorithmen sind im Wesentlichen eine Methode, um die Wichtigkeit basierend auf globalen Informationen zu bestimmen. Weitere Informationen finden Sie unter textrank: Anordnen in Texte von Rada Mihalcea und Paul tarau.
  6. Informationen zu allen anderen Optionen finden Sie in den Beschreibungen der Eigenschaften im vorherigen Abschnitt.

  7. Führen Sie das Experiment aus.

    In diesem Abschnitt finden Sie eine Erläuterung der Ergebnisse und ihres Formats.

Bewerten oder Veröffentlichen eines Modells, das n-gramme verwendet

  1. Kopieren Sie das Modul Extract N-Gram Features from Text aus dem Trainingsdatenfluss in den Bewertungsdatenfluss.

  2. Verbinden Sie die Ausgabe Result Vocabulary (Ergebnisvokabular) aus dem Trainingsdatenfluss mit dem Input Vocabulary (Eingabevokabular) für den Bewertungsdatenfluss.

  3. Ändern Sie im Bewertungsworkflow das Modul Extract N-Gram Features from Text, und nehmen Sie diese Änderungen vor. Lassen Sie alles andere unverändert:

    • Legen Sie den Parameter Vocabulary mode (Vokabularmodus) auf ReadOnly (Schreibgeschützt) fest.

    • Ändern Sie die Option filterbasierte Funktionsauswahl verwenden in False .

  4. Um das Experiment zu veröffentlichen, speichern Sie das Ergebnis Vokabular als DataSet.

    Verbinden Sie dann das gespeicherte Dataset mit dem Modul Extract N-Gram Features from Text in Ihrem Bewertungsgraphen.

Ergebnisse

Das Modul extract N-gram Features from Text erstellt zwei Arten der Ausgabe:

  • Ergebnis DataSet: eine Zusammenfassung des analysierten Texts mit den extrahierten n-grams. Spalten, die Sie nicht in der Text Spalten Option ausgewählt haben, werden an die Ausgabe übermittelt. Für jede Textspalte, die Sie analysieren, generiert das Modul diese Spalten:

    • Ngramsstring: eine Zeichenfolge, die alle eindeutigen n-gramme enthält.
    • Numuniquengrams: die Anzahl der n-gramme, die mithilfe der angegebenen Eigenschaften extrahiert wurden.
    • Sparsesmatrix von n-Gram-vorkommen: das Modul generiert eine Spalte für jedes n-Gram im gesamten Korpus und fügt der Spalte ein Ergebnis hinzu, um die Gewichtung des n-grams für diese Zeile anzugeben.
  • Ergebnisvokabular: Das Vokabular enthält das tatsächliche N-Gramm-Wörterbuch zusammen mit den Bewertungen für die Häufigkeit von Begriffen, die als Teil der Analyse generiert werden. Sie können das Dataset für die erneute Verwendung mit einem anderen Satz von Eingaben oder für eine spätere Aktualisierung speichern. Sie können die Ergebnisse auch aktualisieren oder das Vokabular für die Modellierung und Bewertung wieder verwenden.

Bespielergebnisse

Um zu veranschaulichen, wie Sie die Ergebnisse verwenden können, wird im folgenden kurzen Beispiel das Amazon Book Review-DataSet verwendet, das in Studio (klassisch) verfügbar ist. Dataaset wurde so gefiltert, dass nur Überprüfungen mit einem Ergebnis von 4 oder 5 angezeigt werden und eine Zeichen folgen Länge von unter 300 Zeichen überprüft wird.

Aus diesem DataSet wurde eine kurze Überprüfung ausgewählt, die nur 92 Wörter enthält. Hier wurde der Name des Autors durch ersetzt, Xxx und der Buchtitel wurde durch ersetzt Yyy :

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Ergebnis Dataset für Beispiel Überprüfungs Text

Für dieses Beispiel hat das Modul diese Spalten generiert:

  • Numuniquergrams: für diese 92 Word-Überprüfung wurden unter Verwendung der Standardeinstellungen 11 n-gramme aus dem Beispiel Review extrahiert.

    Wenn die Länge des n-grams auf 3 und der Skip-Gram-Wert auf 1 festgelegt wurde, wurden 15 n-gramme gefunden.

    Beim Anwenden der Funktionsauswahl auf die Standardeinstellung wurden keine n-gramme extrahiert.

  • Ngramsstring: mit den Standardeinstellungen wurden diese n-gramme zurückgegeben: ["his", "Best", "One", "hoch", "empfehlenswert", "This", "Roman", "his_best", "highly_recommend", "recommend_this", "this_novel"]

    Bei einer n-Gram-Länge von 3 und dem Skip-Gram-Wert 1 diese n-gramme wurden zurückgegeben: ["his", "Best", "One", "hoch", "empfehlenswert", "This", "Roman", "his_best", "highly_recommend", "recommend_this", "this_novel", "best_one", "one_best", "highly_this", "highly_recommend_this"]

  • Sparsesmatrix von n-Gram-vorkommen

    Für diesen speziellen Review enthielten die Ergebnisse diese Spalten:

    Reviewtext. umgeht Reviewtext. [und _ hoch] Reviewtext. äußerst Reviewtext. [dringend _ empfohlen]
    0 0 0,301511 0,301511

    Tipp

    Wenn Sie Probleme haben, eine bestimmte Spalte anzuzeigen, fügen Sie das Modul select columns in DataSet der Ausgabe hinzu, und verwenden Sie dann die Suchfunktion, um Spalten nach Namen zu filtern.

Ergebnis Vokabular für Beispiel Überprüfungs Text

Das Vokabular enthält das tatsächliche N-Gramm-Wörterbuch zusammen mit den Bewertungen für die Häufigkeit von Begriffen, die als Teil der Analyse generiert werden. Sie können das Dataset für die erneute Verwendung mit einem anderen Satz von Eingaben oder für eine spätere Aktualisierung speichern. Die Bewertungen DF und IDF werden unabhängig von anderen Optionen generiert. Wenn Sie vokabare kombinieren, werden diese gespeicherten Werte als Eingabe für die Gewichtungsfunktion verwendet, die Sie auswählen.

  • ID: ein Bezeichner, der für jedes eindeutige n-Gram generiert wurde.
  • NGRAM: das n-Gramm. Leerzeichen oder andere Worttrennzeichen werden durch Unterstriche ersetzt.
  • DF: Die Bewertung für die Begriffshäufigkeit für das N-Gramm im ursprünglichen Korpus.
  • IDF: Die Bewertung für die inverse Dokumenthäufigkeit für das N-Gramm im ursprünglichen Korpus.

Es ist möglich, dieses Dataset manuell zu aktualisieren. seien Sie jedoch vorsichtig, da Sie Fehler verursachen können. Beispiel:

  • Wenn das Modul doppelt vorhandene Zeilen mit demselben Schlüssel im Eingabevokabular findet, wird ein Fehler ausgelöst. Stellen Sie sicher, dass keine zwei Zeilen im Vokabular dasselbe Wort aufweisen.
  • Das Eingabeschema der Vokabulardatasets muss genau übereinstimmen, einschließlich der Spaltennamen und Spaltentypen.
  • Die Spalte ID und die DF-Bewertungsspalte müssen den Typ „integer“ aufweisen.
  • Die IDF -Spalte muss vom Typ ' float ' (Gleit Komma Wert) sein.

Technische Hinweise

Es wird empfohlen, dass Sie mit verschiedenen Wertebereichen für die n-Gram-Länge, die Anzahl der Skip-Grams und die Verwendung der Funktionsauswahl experimentieren, um die Dimensionalität des Textkorpus und das optimale Funktions Verhältnis zu ermitteln.

Weitere Informationen zu n-Grams und Skip-grams finden Sie in den folgenden Ressourcen:

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Eingabedaten
Eingabe Vokabular Datentabelle Eingabe Vokabular

Modulparameter

Name Typ Range Optional Standard BESCHREIBUNG
Minimum number of non-zero elements Integer >=1 Gilt nur, wenn die folgende Methode verwendet wird:

Count Based
1 Geben Sie die Anzahl der auszugebenden Merkmale an (für die Methode "CountBased").
Text Spalte Spaltenauswahl Erforderlich StringFeature Name oder ein 1-basierter Index der Text Spalte
Vokabularmodus Vokabularmodus Erstellen

ReadOnly

Aktualisieren

Merge
Erforderlich Erstellen Geben Sie an, wie das n-Gram-Vokabular aus dem Korpus erstellt werden soll.
Größe von N-grams Integer >=1 Erforderlich 1 Geben Sie die maximale Größe der zu erstellenden n-gramme an.
K-Skip-Größe Integer >=0 Erforderlich 0 Angeben der k-Skip-Größe
Gewichtungsfunktion Gewichtungsfunktion Binäre Gewichtung

TF-Gewichtung

IDF-Gewichtung

TF-IDF-Gewichtung

Diagramm Gewichtung
Erforderlich Binäre Gewichtung Auswählen der Gewichtungsfunktion, die auf jeden n-Gram-Wert angewendet werden soll
Minimale Wort Länge Integer >=1 Erforderlich 3 Geben Sie die minimale Länge von Wörtern an, die in n-grams eingeschlossen werden sollen.
Maximale Wort Länge Integer >= 2 Erforderlich 25 Geben Sie die maximale Länge von Wörtern an, die in n-grams eingeschlossen werden sollen.
Mindestfrequenz für n-Gram-Dokument Float >= 1,0 Erforderlich 5.0 Mindestfrequenz für n-Gram-Dokument
Maximales n-Gram-Dokument Verhältnis Float >= 0,0001 Erforderlich 1.0 Maximales n-Gram-Dokument Verhältnis
Erkennen von nicht-vokabularzeilen Boolean Erforderlich true Erkennen von Zeilen, die Wörter aufweisen, die nicht im n-Gram-Vokabular (OOV) enthalten sind
Anfang des Satzes markieren Boolean Erforderlich false Geben Sie an, ob der n-gramme eine Anfangssatz Markierung hinzugefügt werden soll.
N-Gram-Merkmals Vektoren normalisieren Boolean Erforderlich Normalisieren Sie die n-Gram-Merkmals Vektoren. True gibt an, dass der n-Gram-Funktions Vektor durch seine L2-Norm dividiert wird.
Filterbasierte Funktionsauswahl verwenden True false-Typ Richtig

Falsch
Erforderlich Richtig Verwenden der Filter basierten Funktionsauswahl zum Reduzieren der Dimensionalität
Feature scoring method Bewertungsmethode Pearson-Korrelation

Mutual Information

Kendall Correlation

Spearman Correlation

Chi-Quadrat

Fisher Score

Count Based
Gilt nur, wenn die Option filterbasierte Funktionsauswahl verwenden den Wert true hat. Fisher Score Wählen Sie die Methode aus, die zur Bewertung verwendet werden soll.
Target column Spaltenauswahl Gilt, wenn eine der folgenden Methoden verwendet wird:

Pearson-Korrelation

Mutual Information

Kendall Correlation

Spearman Correlation

Chi-Quadrat

Fisher Score
Geben Sie die Zielspalte an.
Number of desired features Integer >=1 Gilt, wenn eine der folgenden Methoden verwendet wird:

Pearson-Korrelation

Mutual Information

Kendall Correlation

Spearman Correlation

Chi-Quadrat

Fisher Score
1 Geben Sie die Anzahl der Merkmale an, die in Ergebnisses ausgegeben werden sollen.

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Extrahierte Funktionen
Ergebnisvokabular Datentabelle Ergebnisvokabular

Weitere Informationen

Textanalyse
A-Z-Liste mit Machine Learning Modulen