Sprachunterstützung für die benutzerdefinierte benannte Entitätserkennung

In diesem Artikel erfahren Sie mehr über die Sprachen, die derzeit von der benutzerdefinierten benannten Entitätserkennung unterstützt werden.

Option für mehrere Sprachen

Mit der benutzerdefinierten NER können Sie ein Modell in einer Sprache trainieren und zur Extraktion von Entitäten aus Dokumenten in einer anderen Sprache verwenden. Dieses Feature ist äußerst nützlich, da es Zeit und Aufwand spart. Anstelle separate Projekte für jede Sprache erstellen zu müssen, können Sie ein mehrsprachiges Dataset in einem Projekte verwenden. Ihr Dataset muss nicht vollständig in einer Sprache sein, Sie sollten jedoch während der Erstellung die Option für mehrere Sprachen für Ihr Projekt aktivieren oder dies später in den Projekteinstellungen nachholen. Wenn Sie während des Auswertungsprozesses feststellen, dass Ihr Modell in bestimmten Sprachen eine schlechte Leistung aufweist, sollten Sie Ihrem Trainingssatz weitere Daten in den betreffenden Sprachen hinzufügen.

Sie können Ihr Projekt vollständig mit englischen Dokumenten trainieren und es dann in folgenden Sprachen abfragen: Französisch, Deutsch, Mandarin, Japanisch, Koreanisch und weiteren. Mithilfe der benutzerdefinierten benannten Entitätserkennung können Sie Ihre Projekte auf einfache Weise auf mehrere Sprachen skalieren, indem Sie Mehrsprachentechnologie zum Trainieren Ihrer Modelle verwenden.

Wenn Sie feststellen, dass eine bestimmte Sprache nicht so gut wie andere Sprachen funktioniert, können Sie Ihrem Projekt weitere Dokumente für diese Sprache hinzufügen. Auf der Seite Datenbeschriftung in Language Studio können Sie die Sprache des Dokuments auswählen, das Sie hinzufügen. Wenn Sie weitere Dokumente für die betreffende Sprache in das Modell einführen, wird dem Modell die Syntax dieser Sprache besser verständlich, und es lernt, sie besser vorherzusagen.

Sie müssen nicht für jede Sprache dieselbe Anzahl an Dokumenten hinzufügen. Sie sollten den Großteil Ihres Projekts in einer Sprache erstellen und nur wenige Dokumente in Sprachen hinzufügen, für die Sie eine nicht zufrieden stellende Leistung beobachten. Wenn Sie ein Projekt erstellen, das hauptsächlich englisch ist, und damit beginnen, es in Französisch, Deutsch und Spanisch zu testen, stellen Sie möglicherweise fest, dass Deutsch nicht so gut funktioniert wie die anderen beiden Sprachen. Ziehen Sie in diesem Fall in Betracht, 5 % Ihrer ursprünglichen englischen Dokumente auf Deutsch hinzuzufügen, ein neues Modell zu trainieren und es erneut auf Deutsch zu testen. Für deutsche Abfragen sollten dann bessere Ergebnisse erzielt werden. Je mehr beschriftete Dokumente Sie hinzufügen, desto größer ist die Wahrscheinlichkeit, dass die Ergebnisse besser werden.

Wenn Sie Daten in einer weiteren Sprache hinzufügen, brauchen Sie in der Regel nicht mit negativen Auswirkungen auf die anderen Sprachen zu rechnen.

Sprachunterstützung

Die benutzerdefinierte Erkennung benannter Entitäten unterstützt .txt-Dateien in den folgenden Sprachen:

Sprache Sprachcode
Afrikaans af
Amharisch am
Arabisch ar
Assamesisch as
Aserbaidschanisch az
Belarussisch be
Bulgarisch bg
Bengali bn
Bretonisch br
Bosnisch bs
Katalanisch ca
Tschechisch cs
Walisisch cy
Dänisch da
Deutsch de
Griechisch el
Englisch (USA) en-us
Esperanto eo
Spanisch es
Estnisch et
Baskisch eu
Persisch fa
Finnisch fi
Französisch fr
Westfriesisch fy
Irisch ga
Schottisch-Gälisch gd
Galizisch gl
Gujarati gu
Haussa ha
Hebräisch he
Hindi hi
Kroatisch hr
Ungarisch hu
Armenisch hy
Indonesisch id
Italienisch it
Japanisch ja
Javanisch jv
Georgisch ka
Kasachisch kk
Khmer km
Kannada kn
Koreanisch ko
Kurdisch (Kurmanji) ku
Kirgisisch ky
Lateinisch la
Laotisch lo
Litauisch lt
Lettisch lv
Madagassisch mg
Mazedonisch mk
Malayalam ml
Mongolisch mn
Marathi mr
Malaiisch ms
Birmanisch my
Nepalesisch ne
Niederländisch nl
Norwegisch (Bokmål) nb
Odia or
Pandschabi pa
Polnisch pl
Paschtu ps
Portugiesisch (Brasilien) pt-br
Portugiesisch (Portugal) pt-pt
Rumänisch ro
Russisch ru
Sanskrit sa
Sindhi sd
Singhalesisch si
Slowakisch sk
Slowenisch sl
Somali so
Albanisch sq
Serbisch sr
Sundanesisch su
Schwedisch sv
Suaheli sw
Tamilisch ta
Telugu te
Thailändisch th
Filipino tl
Türkisch tr
Uigurisch ug
Ukrainisch uk
Urdu ur
Usbekisch uz
Vietnamesisch vi
Xhosa xh
Jiddisch yi
Chinesisch (vereinfacht) zh-hans
Zulu zu

Nächste Schritte