Extrahieren von Schlüsselbegriffen aus Text

Extrahiert Schlüssel Ausdrücke aus dem angegebenen Text.

Kategorie: Textanalyse

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird erläutert, wie Sie das Modul extract Key Texts from Text in Azure Machine Learning Studio (Classic) verwenden, um eine Text Spalte vorab zu verarbeiten. Bei einer Spalte mit Text in natürlicher Sprache extrahiert das Modul einen oder mehrere sinnvolle Ausdrücke. Bei einem Ausdruck kann es sich um ein einzelnes Wort, ein zusammengesetztes Substantiv oder einen Modifizierer plus ein Substantiv handeln.

Dieses Modul ist ein Wrapper für die Verarbeitung von APIs für die Verarbeitung natürlicher Sprache für die Schlüsselwort Extraktion. Die Ausdrücke werden im Kontext des Satzes aus verschiedenen Gründen als potenziell aussagekräftig ausgewertet:

  • Mit dem Ausdruck wird das Thema des Satzes aufgezeichnet.
  • Der Ausdruck enthält eine Kombination aus Modifizierer und Substantiv, die den Stimmungs Wert angibt.

Nehmen wir beispielsweise an, der analysierte Satz lautet: "es war ein wunderbares Hotel, bei dem es sich um ein eindeutiges Dekor und freundliches Personal handelt."

Das Modul extract Key-Ausdrücke aus Text kann diese Schlüssel Ausdrücke zurückgeben:

  • wunderbares Hotel
  • freundliches Personal
  • einzigartiges Dekor

Konfigurieren von Extrahieren von Schlüsselwörtern aus Text

Um Schlüssel Ausdrücke zu extrahieren, müssen Sie ein DataSet mit einer Spalte mit Text verbinden.

  1. Fügen Sie Ihrem Experiment in Azure Machine Learning Studio (klassisch) das Modul extract Key Texts from Text hinzu. Stellen Sie dann eine Verbindung mit einem DataSet her, das mindestens eine voll Text Spalte enthält.

  2. Verwenden Sie die Spaltenauswahl, um eine Spalte vom Typ "String" auszuwählen, aus der Schlüssel Ausdrücke extrahiert werden.

  3. Wählen Sie für Sprache eine Sprache aus, die beim Analysieren von Ausdrücken verwendet werden soll. Wenn Sie eine Sprache angeben, werden nur Ausdrücke in der Zielsprache ausgegeben.

  4. Wenn die Text Spalte Ausdrücke in mehreren Sprachen enthält, wählen Sie die Option in Spalten identifizierte Sprache aus. Es wird eine neue Spaltenauswahl angezeigt, mit der Sie eine Spalte in dem Dataset auswählen können, die einen sprach Bezeichner enthält. Der sprach Bezeichner kann entweder der sprach Name oder der Iso6391-Kultur Bezeichner sein. Beispielsweise sind entweder "Englisch" oder "en" zulässig.

    Tipp

    Vor dem Ausführen von Extrahieren von Schlüssel Ausdrücken aus Text verwenden Sie das Modul " Sprachen erkennen ", um die Sprache in den einzelnen Zeilen zu identifizieren und den Bezeichner zu generieren. Ein Fehler wird ausgelöst, wenn die Spalte sprach Bezeichner Sprachen enthält, die nicht durch Extrahieren von Schlüsselwörtern aus Text unterstützt werden.

Ergebnisse

Die Ausgabe des Moduls ist ein DataSet, das eine Spalte mit durch Trennzeichen getrennten Schlüssel Ausdrücken enthält.

Die folgenden Beispiel Ergebnisse sind z. b. für ein Eingabe DataSet, das Überprüfungen in mehreren Sprachen enthält:

Schlüssel Ausdrücke
Roman, atomarer Durchschnitt, gutes Buch, Adventure Story, Lawinen von Veranstaltungen, gute Zeichen
Primer Misterio, personajes, Lüfter, Aventura, Isla
  • Alle Ausgabe Ausdrücke sind in einer einzelnen Spalte enthalten. keine anderen Spalten werden durchlaufen, und ein Bezeichner wird nicht hinzugefügt. Wenn Sie jedoch die Ausgabe Ausdrücke mit dem Quelltext ausrichten möchten, können Sie die Ausgabe Ausdrücke mit der Eingabe erneut kombinieren, indem Sie das Modul zum Hinzufügen von Spalten verwenden.

  • Die Ausgabe der Schlüssel Ausdrucks Extraktion kennzeichnen nicht die Sprache einzelner Ausdrücke.

  • Wenn eine Sprache eingeschlossen ist, die nicht vom Modul extract Key -Ausdrücke unterstützt wird, wird ein Fehler ausgelöst (0039). Um Fehler zu vermeiden, müssen Sie den Eingabetext herausfiltern, der einen nicht kompatiblen sprach Bezeichner aufweist.

    Wenn nur wenige Zeilen anderer Sprachen vorhanden sind, können Sie den Fehler auch vermeiden, indem Sie den sprach Bezeichner weglassen und den gesamten Text mit einer einzelnen Sprachauswahl analysieren. Wenn Sie dies jedoch tun, sind die Ergebnisse sehr schlecht, da die gesamten Sätze in den anderen Sprachen als einzelner Schlüssel Ausdruck ausgegeben werden könnten.

Beispiele

Im folgenden Beispiel wird veranschaulicht, wie mit diesem Modulschlüssel Ausdrücke extrahiert und anschließend eine Word-Cloud aus den Ausdrücken erstellt wird: Extrahieren von Schlüssel Ausdrücken und Anzeigen der Word-Cloud

Weitere Beispiele für die Textverarbeitung mit Azure Machine Learning finden Sie in der Azure AI Gallery .

Technische Hinweise

Dieses Modul unterstützt derzeit die folgenden Sprachen:

  • Niederländisch
  • Englisch
  • Französisch
  • Deutsch
  • Italienisch
  • Spanisch

Für weitere Sprachen sollten Sie die Textanalyse-API in Azure-Cognitive Services verwenden. Weitere Informationen finden Sie unter Extrahieren von Schlüssel Ausdrücken in Textanalyse

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Die Tabelle, die den zu verarbeitenden Text enthält.

Modulparameter

Name Typ Range Optional Standard BESCHREIBUNG
Kultur Sprache (Spalte) ColumnSelection Sprache: Spalte enthält Sprache Der Name oder ein 1-basierter Index der Spalte, die die Kultur Sprachen Informationen enthält.
Text Spalte ColumnSelection Erforderlich Der Name oder ein 1-basierter Index der Text Spalte.
Sprache T_Language Englisch, Spanisch, Französisch, Niederländisch, Deutsch, Italienisch, Spalte enthält Sprache Erforderlich Englisch Wählen Sie die Sprache des zu verarbeitenden Texts aus.

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Die extrahierten Schlüssel Ausdrücke.

Ausnahmen

Ausnahme Beschreibung
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0010 Eine Ausnahme tritt auf, wenn Eingabedatasets übereinstimmende Spaltennamen aufweisen sollten, dies aber nicht der Fall ist.
Fehler 0016 Eine Ausnahme tritt auf, wenn an das Modul übergebene Eingabedatasets kompatible Spaltentypen aufweisen sollten, dies aber nicht der Fall ist.
Fehler 0008 Eine Ausnahme tritt auf, wenn der Parameter nicht im Bereich liegt.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Textanalyse
Modulliste von A bis Z