Taalondersteuning voor aangepaste benoemde entiteitsherkenning

Artikel
12/19/2023

Gebruik dit artikel voor meer informatie over de talen die momenteel worden ondersteund door de aangepaste functie voor het herkennen van benoemde entiteiten.

Meertalige optie

Met aangepaste NER kunt u een model in één taal trainen en gebruiken om entiteiten te extraheren uit documenten in een andere taal. Deze functie is krachtig omdat het tijd en moeite bespaart. In plaats van afzonderlijke projecten te bouwen voor elke taal, kunt u meertalige gegevenssets in één project verwerken. Uw gegevensset hoeft niet volledig in dezelfde taal te zijn, maar u moet de meertalige optie voor uw project inschakelen tijdens het maken of later in de projectinstellingen. Als u merkt dat uw model slecht presteert in bepaalde talen tijdens het evaluatieproces, kunt u overwegen om meer gegevens in deze talen toe te voegen aan uw trainingsset.

U kunt uw project volledig trainen met Engelse documenten en er query's op uitvoeren: Frans, Duits, Mandarijn, Japans, Koreaans en andere. Met aangepaste herkenning van benoemde entiteiten kunt u uw projecten eenvoudig schalen naar meerdere talen met behulp van meertalige technologie om uw modellen te trainen.

Wanneer u vaststelt dat een bepaalde taal niet zo goed presteert als andere talen, kunt u meer documenten voor die taal toevoegen aan uw project. Op de pagina voor gegevenslabels in Language Studio kunt u de taal selecteren van het document dat u toevoegt. Wanneer u meer documenten voor die taal in het model introduceert, wordt het meer van de syntaxis van die taal geïntroduceerd en leert het om deze beter te voorspellen.

U hoeft niet voor elke taal hetzelfde aantal documenten toe te voegen. U moet het grootste deel van uw project in één taal bouwen en slechts enkele documenten toevoegen in talen waarvan u merkt dat ze niet goed presteren. Als u een project maakt dat voornamelijk in het Engels is en het gaat testen in het Frans, Duits en Spaans, ziet u mogelijk dat Duits niet zo goed presteert als de andere twee talen. In dat geval kunt u overwegen om 5% van uw oorspronkelijke Engelse documenten in het Duits toe te voegen, een nieuw model te trainen en opnieuw in het Duits te testen. Als het goed is, ziet u betere resultaten voor Duitse query's. Hoe meer gelabelde documenten u toevoegt, hoe groter de kans dat de resultaten worden verbeterd.

Wanneer u gegevens in een andere taal toevoegt, moet u niet verwachten dat dit een negatieve invloed heeft op andere talen.

Taalondersteuning

Aangepaste NER ondersteunt .txt bestanden in de volgende talen:

Taal	Taalcode
Afrikaans	`af`
Amharic	`am`
Arabisch	`ar`
Assamees	`as`
Azerbeidzjaanse	`az`
Wit-Russisch	`be`
Bulgaars	`bg`
Bengaals	`bn`
Breton	`br`
Bosnisch	`bs`
Catalaans	`ca`
Tsjechisch	`cs`
Welsh	`cy`
Deens	`da`
Duits	`de`
Grieks	`el`
Engels (VS)	`en-us`
Esperanto	`eo`
Spaans	`es`
Ests	`et`
Baskisch	`eu`
Perzisch	`fa`
Fins	`fi`
Frans	`fr`
West-Fries	`fy`
Iers	`ga`
Schots-Gaelic	`gd`
Galicisch	`gl`
Gujarati	`gu`
Hausa	`ha`
Hebreeuws	`he`
Hindi	`hi`
Kroatisch	`hr`
Hongaars	`hu`
Armeens	`hy`
Indonesisch	`id`
Italiaans	`it`
Japans	`ja`
Javaans	`jv`
Georgisch	`ka`
Kazachs	`kk`
Khmer	`km`
Kannada	`kn`
Koreaans	`ko`
Koerdisch (Kurmanji)	`ku`
Kirgizisch	`ky`
Latijnse	`la`
Lao	`lo`
Litouws	`lt`
Lets	`lv`
Malagassisch	`mg`
Macedonische	`mk`
Malayalam	`ml`
Mongools	`mn`
Mahrati	`mr`
Maleisisch	`ms`
Birmese	`my`
Nepalees	`ne`
Nederlands	`nl`
Noors (Bokmål)	`nb`
Odia	`or`
Punjabi	`pa`
Pools	`pl`
Pashto	`ps`
Portugees (Brazilië)	`pt-br`
Portugees (Portugal)	`pt-pt`
Roemeens	`ro`
Russisch	`ru`
Sanskriet	`sa`
Sindhi	`sd`
Sinhala	`si`
Slowaaks	`sk`
Sloveens	`sl`
Somalische	`so`
Albanees	`sq`
Servisch	`sr`
Sundanese	`su`
Zweeds	`sv`
Swahili	`sw`
Tamil	`ta`
Telugu	`te`
Thai	`th`
Filipino	`tl`
Turks	`tr`
Uyghur	`ug`
Oekraïens	`uk`
Urdu	`ur`
Oezbeeks	`uz`
Vietnamees	`vi`
Xhosa	`xh`
Jiddisch	`yi`
Chinees (Vereenvoudigd)	`zh-hans`
Zulu	`zu`

Share via

Taalondersteuning voor aangepaste benoemde entiteitsherkenning

Meertalige optie

Taalondersteuning

Volgende stappen

Aanvullende resources