Wat zijn parallelle documenten precies?

De parallelle documenten zijn paren documenten waarbij de ene de vertaling van de andere is. Eén document in het paar bevat zinnen in de brontaal en het andere document bevat diezelfde zinnen maar in de doeltaal vertaald. Het maakt niet uit welke taal is gemarkeerd als 'bron' en welke taal is gemarkeerd als 'doel': u kunt parallel document gebruiken om een vertaalsysteem in beide richtingen te trainen.

Vereisten

U hebt minimaal 10.000 unieke uitgelijnde parallelle zinnen nodig om een systeem te trainen. Deze beperking is een vangnet om ervoor te zorgen dat uw parallelle zinnen voldoende unieke woordenschat bevatten om een vertaalmodel te trainen. Het is een best practice om continu meer parallelle inhoud toe te voegen en opnieuw te trainen om de kwaliteit van uw vertaalsysteem te verbeteren. Zie Zinsuitlijning voor meer informatie.

Microsoft vereist dat documenten die zijn geüpload naar Custom Translator geen inbreuk maken op het auteursrecht of de intellectuele eigendom van een derde partij. Zie de Gebruiksvoorwaarden voor meer informatie. Het uploaden van een document via de portal heeft geen invloed op het eigendom van het intellectuele eigendom in het document zelf.

Gebruik van parallelle documenten

Parallelle documenten worden gebruikt door het systeem:

  1. Meer informatie over hoe woorden, woordgroepen en zinnen vaak tussen de twee talen worden toegewezen.

  2. Om te leren hoe u de juiste context verwerkt, afhankelijk van de omringende woordgroepen. Een woord wordt mogelijk niet altijd vertaald naar exact hetzelfde woord in de andere taal.

Als best practice moet u ervoor zorgen dat er een 1:1 zinscorrelatie is tussen de bron- en doeltaalversie van de documenten.

Als uw project domeinspecifiek (categorie) is, moeten uw documenten consistent zijn in terminologie binnen die categorie. De kwaliteit van het resulterende vertaalsysteem is afhankelijk van het aantal zinnen in uw documentenset en de kwaliteit van de zinnen. Hoe meer voorbeelden uw documenten bevatten met diverse gebruiksgegevens voor een woord dat specifiek is voor uw categorie, hoe beter het systeem het kan doen tijdens het vertalen.

Geüploade documenten zijn privé voor elke werkruimte en kunnen worden gebruikt in zoveel projecten of trainingen als u wilt. Zinnen die zijn geëxtraheerd uit uw documenten, worden afzonderlijk opgeslagen in uw opslagplaats als Unicode-tekstbestanden zonder opmaak en kunnen door u worden verwijderd. Gebruik Custom Translator niet als documentopslagplaats. U kunt de documenten die u hebt geüpload niet downloaden in de indeling die u hebt geüpload.

Volgende stappen