Share via


Sleuteltermen van Custom Translator

De volgende tabel bevat een lijst met belangrijke termen die u kunt vinden wanneer u met Custom Translator werkt.

Word of woordgroep Definitie
Brontaal De brontaal is de begintaal die u wilt converteren naar een andere taal (het 'doel').
Doeltaal De doeltaal is de taal die de machinevertaling moet opgeven nadat de brontaal is ontvangen.
Eentalig bestand Een eentalig bestand heeft één taal die niet is gekoppeld aan een ander bestand van een andere taal.
Parallelle bestanden Een parallel bestand is een combinatie van twee bestanden met de bijbehorende tekst. Eén bestand heeft de brontaal. De andere heeft de doeltaal.
Zinuitlijning Parallelle gegevensset moet zinnen hebben uitgelijnd op zinnen die in beide talen dezelfde tekst vertegenwoordigen. In een bronparallel bestand moet de eerste zin in theorie bijvoorbeeld worden toegewezen aan de eerste zin in het parallelle doelbestand.
Uitgelijnde tekst Een van de belangrijkste stappen voor bestandsvalidatie is het uitlijnen van de zinnen in de parallelle documenten. Dingen worden anders uitgedrukt in verschillende talen. Ook verschillende talen hebben verschillende woordvolgordes. Met deze stap worden de zinnen uitgelijnd met dezelfde inhoud, zodat ze kunnen worden gebruikt voor training. Een uitlijning van een lage zin geeft aan dat er mogelijk iets mis is met een of beide bestanden.
Word breken/afbreken Word breken is de functie van het markeren van de grenzen tussen woorden. Veel schrijfsystemen gebruiken een spatie om de grens tussen woorden aan te geven. Word verwijst naar het verwijderen van zichtbare markeringen die mogelijk tussen woorden in een vorige stap zijn ingevoegd.
Scheidingstekens Scheidingstekens zijn de manieren waarop een zin in segmenten wordt verdeeld of de marge tussen zinnen wordt gescheiden. In Engelse spaties worden bijvoorbeeld woorden, dubbele puntjes en puntkomma's gescheiden door zinnen en punten.
Trainingsbestanden Een trainingsbestand wordt gebruikt om het systeem voor automatisch vertalen te leren hoe een taal (de bron) kan worden toegewezen aan een doeltaal (het doel). Hoe meer gegevens u opgeeft, hoe beter het systeem presteert.
Bestanden afstemmen Deze bestanden zijn vaak willekeurig afgeleid van de trainingsset (als u geen afstemmingsset selecteert). De zinnen worden automatisch geselecteerd en gebruikt om het systeem af te stemmen en ervoor te zorgen dat het goed functioneert. Als u een vertaalmodel voor algemeen gebruik wilt maken en uw eigen afstemmingsbestanden wilt maken, moet u ervoor zorgen dat het een willekeurige set zinnen in verschillende domeinen zijn
Bestanden testen Deze bestanden zijn vaak afgeleide bestanden, willekeurig geselecteerd uit de trainingsset (als u geen testset selecteert). Het doel van deze zinnen is om de nauwkeurigheid van het vertaalmodel te evalueren. Om ervoor te zorgen dat het systeem deze zinnen correct vertaalt, kunt u een testset maken en deze uploaden naar de vertaler. Dit zorgt ervoor dat de zinnen worden gebruikt in de evaluatie van het systeem (het genereren van een BLEU-score).
Bestand met invoervak Een type bestand waarin de bron en vertaalde zinnen in hetzelfde bestand zijn opgenomen. Ondersteunde bestandsindelingen (TMX, XLIFF, XLF, ICI en XLSX).
Archiefbestand Een bestand dat andere bestanden bevat. Ondersteunde bestandsindelingen (zip, gz, tgz).
BLEU-score BLEU is de industriestandaardmethode voor het evalueren van de "precisie" of nauwkeurigheid van het vertaalmodel. Hoewel er andere evaluatiemethoden bestaan, is Microsoft Translator afhankelijk van de BLEU-methode om de nauwkeurigheid te rapporteren aan projecteigenaren.