Beschriften Ihrer Daten in Language Studio

Artikel
12/19/2023

Die Datenbeschriftung ist ein wichtiger Schritt des Entwicklungslebenszyklus. In diesem Schritt beschriften Sie Ihre Dokumente mit den neuen Entitäten, die Sie in Ihrem Schema definiert haben, um die zugehörigen gelernten Komponenten aufzufüllen. Diese Daten werden im nächsten Schritt beim Trainieren Ihres Modells verwendet, damit Ihr Modell von den beschrifteten Daten lernen kann, welche Entitäten extrahiert werden sollen. Wenn Sie bereits über beschriftete Daten verfügen, können Sie sie direkt in Ihr Projekt importieren. Achten Sie jedoch darauf, dass Ihre Daten im unterstützten Datenformat vorliegen. Weitere Informationen zum Importieren beschrifteter Daten in Ihr Projekt finden Sie unter Projekt erstellen. Falls Ihre Daten noch nicht beschriftet sind, können Sie sie in Language Studio beschriften.

Voraussetzungen

Um Daten beschriften zu können, benötigen Sie Folgendes:

Ein erfolgreich erstelltes Projekt mit einem konfigurierten Azure Blob Storage-Konto
Textdaten, die in Ihr Speicherkonto hochgeladen wurden

Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.

Richtlinien für die Datenbeschriftung

Nach dem Aufbereiten Ihrer Daten, dem Entwerfen Ihres Schemas und dem Erstellen Ihres Projekts müssen Sie Ihre Daten beschriften. Sie sollten Ihre Daten beschriften, damit das Modell erkennt, welche Wörter den Entitätstypen zugeordnet werden, die Sie extrahieren müssen. Wenn Sie Ihre Daten in Language Studio beschriften (oder beschriftete Daten importieren), werden die Bezeichnungen in dem JSON-Dokument in Ihrem Speichercontainer gespeichert, den Sie mit diesem Projekt verbunden haben.

Beachten Sie beim Beschriften Ihrer Daten Folgendes:

Sie können keine Bezeichnungen für die Textanalyse für Gesundheit hinzufügen, da es sich um vortrainierte vordefinierte Entitäten handelt. Sie können nur Bezeichnungen zu neuen Entitätskategorien hinzufügen, die Sie im Rahmen der Schemadefinition definiert haben.

Wenn Sie den Rückruf für eine vordefinierte Entität verbessern möchten, können Sie sie erweitern, indem Sie eine Listenkomponente hinzufügen, während Sie Ihr Schema definieren.

Im Allgemeinen werden mit mehr beschrifteten Daten bessere Ergebnisse erzielt, sofern die Daten korrekt beschriftet sind.
Die Genauigkeit, Konsistenz und Vollständigkeit der beschrifteten Daten sind wichtige Faktoren bei der Bestimmung der Modellleistung.
- Genaue Bezeichnungen: Beschriften Sie jede Entität immer mit ihrem richtigen Typ. Schließen Sie nur das ein, was Sie extrahieren möchten, und vermeiden Sie unnötige Daten in Ihren Bezeichnungen.
- Konsistente Bezeichnungen: Die gleiche Entität sollte in allen Dokumenten die gleiche Bezeichnung haben.
- Vollständige Bezeichnungen: Beschriften Sie alle Instanzen der Entität in allen Dokumenten.
Hinweis

Es gibt keine feste Anzahl von Beschriftungen, mit denen Ihr Modell garantiert die beste Leistung erbringt. Die Leistung des Modells hängt von der möglichen Mehrdeutigkeit Ihres Schemas sowie von der Qualität Ihrer beschrifteten Daten ab. Nichtsdestotrotz wird empfohlen, etwa 50 beschriftete Instanzen pro Entitätstyp zu verwenden.

Beschriften Ihrer Daten

Beschriften Sie Ihre Daten wie folgt:

Wechseln Sie in Language Studio zu Ihrer Projektseite.
Wählen Sie im Menü auf der linken Seite die Option Datenbeschriftung aus. Es steht eine Liste mit allen Dokumenten in Ihrem Speichercontainer zur Verfügung.

Tipp

Mithilfe der Filter im oberen Menü können Sie nicht bezeichnete Dokumente anzeigen, damit Sie mit deren Bezeichnung beginnen können. Die Filter können auch verwendet werden, um Dokumente anzuzeigen, die mit einem bestimmten Entitätstyp beschriftet sind.
Wechseln Sie auf der linken Seite des oberen Menüs zu einer Einzeldokumentansicht, oder wählen Sie ein bestimmtes Dokument aus, um mit der Bezeichnung zu beginnen. Auf der linken Seite finden Sie eine Liste aller .txt-Dokumente, die in Ihren Projekten verfügbar sind. Mithilfe der Schaltflächen Zurück und Weiter am unteren Seitenrand können Sie durch Ihre Dokumente navigieren.

Hinweis

Wenn Sie für Ihr Projekt mehrere Sprachen aktiviert haben, können Sie im oberen Menü über die Dropdownliste Sprache die Sprache des jeweiligen Dokuments auswählen. Hebräisch wird bei mehrsprachigen Projekten nicht unterstützt.
Im rechten Bereich können Sie die Schaltfläche Entitätstyp hinzufügen verwenden, um Ihrem Projekt zusätzliche Entitäten hinzuzufügen, die Sie bei der Schemadefinition vergessen haben.

Sie können Ihr Dokument auf zwei Arten beschriften:

Option	BESCHREIBUNG
Beschriften mit einem Pinsel	Wählen Sie das Pinselsymbol neben einem Entitätstyp im rechten Bereich aus und markieren Sie dann den Text im Dokument, den Sie mit diesem Entitätstyp beschriften möchten.
Beschriften über ein Menü	Markieren Sie das Wort, das Sie als Entität beschriften möchten, woraufhin ein Menü angezeigt wird. Wählen Sie den Entitätstyp aus, den Sie dieser Entität zuweisen möchten.

Im folgenden Screenshot wird das Beschriften mit einem Pinsel veranschaulicht.

Im Bereich auf der rechten Seite finden Sie unter dem Pivotelement Bezeichnungen alle Entitätstypen in Ihrem Projekt sowie die jeweilige Anzahl beschrifteter Instanzen. Die vordefinierten Entitäten werden als Referenz angezeigt, aber Sie können diese vordefinierten Entitäten nicht beschriften, da sie vortrainiert sind.
Im unteren Abschnitt des Bereichs auf der rechten Seite können Sie das aktuell angezeigte Dokument dem Trainingssatz oder dem Testsatz hinzufügen. Standardmäßig werden alle Dokumente Ihrem Trainingssatz hinzugefügt. Informationen zur Verwendung von Trainings- und Testsätzen beim Trainieren und Auswerten von Modellen finden Sie hier.

Tipp

Wenn Sie für die Datenteilung die Option Automatisch nutzen möchten, verwenden Sie die Standardoption (also die Zuweisung aller Dokumente zu Ihrem Trainingssatz).
Unter dem Pivotelement Verteilung können Sie die Verteilung in den Schulungs- und Testsätzen anzeigen. Es gibt zwei Ansichtsoptionen:
- Alle Instanzen: Hier wird die Anzahl aller bezeichneten Instanzen eines bestimmten Entitätstyps angezeigt.
- Dokumente mit mindestens einer Bezeichnung: Hier wird jedes Dokument gezählt, wenn es mindestens eine bezeichnete Instanz dieser Entität enthält.
Bei der Beschriftung werden Ihre Änderungen in regelmäßigen Abständen synchronisiert. Wenn sie noch nicht gespeichert wurden, wird oben auf der Seite eine Warnung eingeblendet. Wenn Sie manuell speichern möchten, wählen Sie unten auf der Seite die Schaltfläche Beschriftungen speichern aus.

Entfernen von Bezeichnungen

So entfernen Sie eine Bezeichnung:

Wählen Sie die Entität aus, aus der Sie eine Bezeichnung entfernen möchten.
Scrollen Sie durch das angezeigte Menü, und wählen Sie Bezeichnung entfernen aus.

Löschen von Entitäten

Sie können keine der vortrainierten Entitäten der Textanalyse für Gesundheit löschen, da sie über eine vordefinierte Komponente verfügen. Sie können nur neu definierte Entitätskategorien löschen. Wenn Sie eine Entität löschen möchten, können Sie das „Löschen“-Symbol neben der Entität auswählen, die Sie entfernen möchten. Wenn Sie eine Entität löschen, werden alle zugehörigen beschrifteten Instanzen aus Ihrem Dataset entfernt.

Nächste Schritte

Nachdem Sie Ihre Daten beschriftet haben, können Sie mit dem Trainieren eines Modells beginnen, das auf der Grundlage Ihrer Daten lernt.

Freigeben über