Door mensen gelabelde transcripties maken
Door mensen gelabelde transcripties zijn transcripties van woorden per woord van een audiobestand. U gebruikt door mensen gelabelde transcripties om de nauwkeurigheid van de herkenning te verbeteren, met name wanneer woorden worden verwijderd of onjuist worden vervangen.
Een grote steekproef van transcriptiegegevens is vereist om de herkenning te verbeteren. We raden u aan tussen 1 en 20 uur aan transcriptiegegevens op te geven. De Speech-service gebruikt maximaal 20 uur aan audio voor training. Op deze pagina bekijken we richtlijnen die zijn ontworpen om u te helpen bij het maken van transcripties van hoge kwaliteit. Deze handleiding is onderverdeeld op taal, met secties voor Engels, Chinees (Mandarijn) en Duits.
Notitie
Niet alle basismodellen ondersteunen aanpassing met audiobestanden. Als een basismodel dit niet ondersteunt, gebruikt de training alleen de tekst van de transcripties op dezelfde manier als gerelateerde tekst wordt gebruikt. Zie Taalondersteuning voor een lijst met basismodellen die ondersteuning bieden voor training met audiogegevens.
Notitie
Als u het basismodel wijzigt dat wordt gebruikt voor training en u audio in de trainingsgegevensset hebt, controleert u altijd of het nieuwe geselecteerde basismodel training met audiogegevens ondersteunt. Als het eerder gebruikte basismodel geen ondersteuning biedt voor training met audiogegevens en de trainingsgegevensset audio bevat, neemt de trainingstijd met het nieuwe basismodel drastisch toe en kan deze eenvoudig van enkele uren naar enkele dagen en meer gaan. Dit geldt met name als uw abonnement op de Speech-service zich niet in een regio met de toegewezen hardware voor training.
Als u te maken hebt met het probleem dat in de bovenstaande alinea wordt beschreven, kunt u de training snel verkorten door de hoeveelheid audio in de gegevensset te verminderen of deze volledig te verwijderen en alleen de tekst te verlaten. De laatste optie wordt ten zeerste aanbevolen als uw Speech Service-abonnement zich niet in een regio met de toegewezen hardware voor training.
Engels (en-US)
Door mensen gelabelde transcripties voor Engelse audio moeten worden opgegeven als tekst zonder tekst, alleen met ASCII-tekens. Vermijd het gebruik van Latijns-1- of Unicode-leestekens. Deze tekens worden vaak per ongeluk toegevoegd bij het kopiëren van tekst uit een toepassing voor tekstverwerking of het verzamelen van gegevens van webpagina's. Als deze tekens aanwezig zijn, moet u ze bijwerken met de juiste ASCII-vervanging.
Enkele voorbeelden:
| Tekens om te vermijden | Substitution | Notities |
|---|---|---|
| "Hallo wereld" | "Hello world" | De aanhalingstekens voor openen en sluiten zijn vervangen door de juiste ASCII-tekens. |
| John's day | John's day | De apostrof is vervangen door het juiste ASCII-teken. |
| Het was goed, nee, het was geweldig! | het was goed-- nee, het was geweldig! | Het em-streepje is vervangen door twee afbreekstreemen. |
Tekstnormalisatie voor Amerikaanse Engels
Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw transcriptiegegevens met door mensen gelabeld transcriptie:
- Afkortingen in woorden wegschrijven.
- Schrijf niet-standaard numerieke tekenreeksen in woorden (zoals boekhoudtermen).
- Niet-alfabetische tekens of gemengde alfanumerieke tekens moeten worden transcricriseerd zoals uitgesproken.
- Afkortingen die als woorden worden uitgesproken, mogen niet worden bewerkt (zoals 'radar', 'laser', 'RAM' of 'WANT').
- Afkortingen wegschrijven die worden uitgesproken als afzonderlijke letters met elke letter gescheiden door een spatie.
- Als u audio gebruikt, transcriberen u getallen als woorden die overeenkomen met de audio (bijvoorbeeld '101' kan worden uitgesproken als 'één oh één' of 'honderd en één').
- Vermijd tekens, woorden of groepen woorden meer dan drie keer te herhalen, zoals ja ja ja. Regels met dergelijke herhalingen kunnen worden weggevallen door de Speech-service.
Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:
| Oorspronkelijke tekst | Tekst na normalisering (menselijk) |
|---|---|
| Dr. Banner Van Banner | Banner van Arts Banner |
| James Bond, 007 | James Bond, double oh seven |
| Ke$ha | Kesha |
| Hoe lang is de 2x4 | Hoe lang zijn de twee bij vier |
| De vergadering gaat van 13:00 tot 15:00 uur | De vergadering gaat van één tot drie uur 's middags |
| Mijn bloedtype is O+ | Mijn bloedtype is O-positief |
| Water is H20 | Water is H 2 O |
| OU812 afspelen door Van Halen | Play O U 8 1 2 by Van Halen |
| UTF-8 met stuklijst | U T F 8 met bom |
| Dit kost $ 3,14 | Het kost drie keer zo veel |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Gebruik kleine letters.
- Verwijder alle leestekens behalve apostroofs binnen woorden.
- Vouw getallen uit in woorden/gesproken vorm, zoals bedragen in dollars.
Hier zijn enkele voorbeelden van normalisatie die automatisch wordt uitgevoerd op de transcriptie:
| Oorspronkelijke tekst | Tekst na normalisatie (automatisch) |
|---|---|
| "Mane! zegt Door. | mane gezegde |
| "Wat?" zegt De sidekick vanIek, Robin. | wat is de sidekick robin van wat u hebt gezegd? |
| Ga naar get -em! | go get em |
| Ik ben dubbelgewricht | Ik heb een dubbele gezamenlijke |
| 104 Elm Street | één oh vier Elm street |
| Afstemmen op 102.7 | afstemmen op één oh tweepunts zeven |
| Pi is ongeveer 3,14 | pi is ongeveer drie punten één vier |
Mandarijn Chinees (zh-CN)
Door mensen gelabelde transcripties voor Mandarijn Chinees audio moeten UTF-8 zijn gecodeerd met een byte-ordermarkering. Vermijd het gebruik van leestekens met een halve breedte. Deze tekens kunnen per ongeluk worden opgenomen wanneer u de gegevens voorbereidt in een tekstverwerkingsprogramma of gegevens van webpagina's scrapen. Als deze tekens aanwezig zijn, moet u ze bijwerken met de juiste vervanging van de volledige breedte.
Enkele voorbeelden:
| Tekens om te voorkomen | Substitution | Notities |
|---|---|---|
| "你好" | "你好" | De aanhalingstekens voor openen en sluiten zijn vervangen door de juiste tekens. |
| 需要什么帮助? | 需要什么帮助? | Het vraagteken is vervangen door het juiste teken. |
Tekstnormalisatie voor Mandarijn Chinees
Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normaliseringsregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken wanneer u uw transcriptiegegevens met menselijke labels voorbereidt:
- Afkortingen in woorden wegschrijven.
- Schrijf numerieke tekenreeksen in gesproken vorm.
Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren bij de transcriptie:
| Oorspronkelijke tekst | Tekst na normalisatie |
|---|---|
| 我今年 21 | 我今年二十一 |
| 3 号楼 504 | 三号 楼 五 零 四 |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Alle leestekens verwijderen
- Getallen uitbreiden naar gesproken vorm
- Letters van volledige breedte converteren naar letters van de halve breedte
- Hoofdletters gebruiken voor alle Engelse woorden
Hier zijn enkele voorbeelden van automatische transcriptienormalisatie:
| Oorspronkelijke tekst | Tekst na normalisatie |
|---|---|
| 3.1415 | 三 点 一 四 一 五 |
| • 3,5 | 三 元 五 角 |
| w f y z | W F Y Z |
| 1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
| 你吃饭了吗? | 你 吃饭 了 吗 |
| 下午 5:00 的航班 | 下午 五点 的 航班 |
| 我今年 21 岁 | 我 今年 二十 一 岁 |
Duits (de-DE) en andere talen
Door mensen gelabelde transcripties voor Duitse audio (en andere niet-Engelse of Mandarijn-Chinese talen) moeten UTF-8 zijn gecodeerd met een byte-ordermarkering. Er moet voor elk audiobestand één transcript met een menselijk label worden opgegeven.
Tekstnormalisatie voor Duits
Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normaliseringsregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken wanneer u uw transcriptiegegevens met menselijke labels voorbereidt:
- Schrijf decimale punten als '', en niet ''.
- Scheidingstekens voor schrijftijd als ':' en niet ''. (bijvoorbeeld: 12:00 uur).
- Afkortingen zoals 'ca'. worden niet vervangen. U wordt aangeraden het volledige gesproken formulier te gebruiken.
- De vier belangrijkste wiskundige operators (+, -, * , en /) worden verwijderd. We raden u aan deze te vervangen door de geschreven vorm: 'plus', 'min', 'mal' en 'geteilt'.
- Vergelijkingsoperators worden verwijderd (=, < en >). We raden u aan deze te vervangen door 'gleich', 'kleiner als' en 'grösser als'.
- Schrijf breuken, zoals 3/4, in geschreven vorm (bijvoorbeeld: 'drei viertel' in plaats van 3/4).
- Vervang het symbool '€' door de geschreven vorm 'Euro'.
Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren bij de transcriptie:
| Oorspronkelijke tekst | Tekst na gebruikersnormalisatie | Tekst na systeemnormalisatie |
|---|---|---|
| Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr d und zwanzig uhr |
| {12.45} | {12,45} | zwölf komma vier fünf |
| 2 + 3 - 4 | 2 plus 3 min 4 | zul plus drei min vier |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Gebruik kleine letters voor alle tekst.
- Verwijder alle interpunctie, inclusief verschillende typen aanhalingstekens ('test', 'test', 'test' en «test» zijn OK).
- Verwijder rijen met speciale tekens uit deze set: © ² ® ° ± ² μ × ñ ²enen.
- Vouw getallen uit naar een gesproken formulier, met inbegrip van bedragen in dollars of euro's.
- Accepteer umlauts alleen voor a, o en u. Andere worden vervangen door 'th' of worden verwijderd.
Hier zijn enkele voorbeelden van normalisering die automatisch wordt uitgevoerd op de transcriptie:
| Oorspronkelijke tekst | Tekst na normalisatie |
|---|---|
| De Ring van Deter | ring van de werkring |
| !Eine Frage! | eine frage |
| Wir, kunt u | wir en |
Tekstnormalisatie voor Japans
In het Japans (ja-JP) is er een maximale lengte van 90 tekens voor elke zin. Regels met langere zinnen worden verwijderd. Als u langere tekst wilt toevoegen, voegt u ertussen een punt in.