Door mensen gelabelde transcripties maken

Door mensen gelabelde transcripties zijn transcripties van woorden per woord van een audiobestand. U gebruikt door mensen gelabelde transcripties om de nauwkeurigheid van de herkenning te verbeteren, met name wanneer woorden worden verwijderd of onjuist worden vervangen.

Een grote steekproef van transcriptiegegevens is vereist om de herkenning te verbeteren. We raden u aan tussen 1 en 20 uur aan transcriptiegegevens op te geven. De Speech-service gebruikt maximaal 20 uur aan audio voor training. Op deze pagina bekijken we richtlijnen die zijn ontworpen om u te helpen bij het maken van transcripties van hoge kwaliteit. Deze handleiding is onderverdeeld op taal, met secties voor Engels, Chinees (Mandarijn) en Duits.

Notitie

Niet alle basismodellen ondersteunen aanpassing met audiobestanden. Als een basismodel dit niet ondersteunt, gebruikt de training alleen de tekst van de transcripties op dezelfde manier als gerelateerde tekst wordt gebruikt. Zie Taalondersteuning voor een lijst met basismodellen die ondersteuning bieden voor training met audiogegevens.

Notitie

Als u het basismodel wijzigt dat wordt gebruikt voor training en u audio in de trainingsgegevensset hebt, controleert u altijd of het nieuwe geselecteerde basismodel training met audiogegevens ondersteunt. Als het eerder gebruikte basismodel geen ondersteuning biedt voor training met audiogegevens en de trainingsgegevensset audio bevat, neemt de trainingstijd met het nieuwe basismodel drastisch toe en kan deze eenvoudig van enkele uren naar enkele dagen en meer gaan. Dit geldt met name als uw abonnement op de Speech-service zich niet in een regio met de toegewezen hardware voor training.

Als u te maken hebt met het probleem dat in de bovenstaande alinea wordt beschreven, kunt u de training snel verkorten door de hoeveelheid audio in de gegevensset te verminderen of deze volledig te verwijderen en alleen de tekst te verlaten. De laatste optie wordt ten zeerste aanbevolen als uw Speech Service-abonnement zich niet in een regio met de toegewezen hardware voor training.

Engels (en-US)

Door mensen gelabelde transcripties voor Engelse audio moeten worden opgegeven als tekst zonder tekst, alleen met ASCII-tekens. Vermijd het gebruik van Latijns-1- of Unicode-leestekens. Deze tekens worden vaak per ongeluk toegevoegd bij het kopiëren van tekst uit een toepassing voor tekstverwerking of het verzamelen van gegevens van webpagina's. Als deze tekens aanwezig zijn, moet u ze bijwerken met de juiste ASCII-vervanging.

Enkele voorbeelden:

Tekens om te vermijden Substitution Notities
"Hallo wereld" "Hello world" De aanhalingstekens voor openen en sluiten zijn vervangen door de juiste ASCII-tekens.
John's day John's day De apostrof is vervangen door het juiste ASCII-teken.
Het was goed, nee, het was geweldig! het was goed-- nee, het was geweldig! Het em-streepje is vervangen door twee afbreekstreemen.

Tekstnormalisatie voor Amerikaanse Engels

Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw transcriptiegegevens met door mensen gelabeld transcriptie:

  • Afkortingen in woorden wegschrijven.
  • Schrijf niet-standaard numerieke tekenreeksen in woorden (zoals boekhoudtermen).
  • Niet-alfabetische tekens of gemengde alfanumerieke tekens moeten worden transcricriseerd zoals uitgesproken.
  • Afkortingen die als woorden worden uitgesproken, mogen niet worden bewerkt (zoals 'radar', 'laser', 'RAM' of 'WANT').
  • Afkortingen wegschrijven die worden uitgesproken als afzonderlijke letters met elke letter gescheiden door een spatie.
  • Als u audio gebruikt, transcriberen u getallen als woorden die overeenkomen met de audio (bijvoorbeeld '101' kan worden uitgesproken als 'één oh één' of 'honderd en één').
  • Vermijd tekens, woorden of groepen woorden meer dan drie keer te herhalen, zoals ja ja ja. Regels met dergelijke herhalingen kunnen worden weggevallen door de Speech-service.

Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:

Oorspronkelijke tekst Tekst na normalisering (menselijk)
Dr. Banner Van Banner Banner van Arts Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Kesha
Hoe lang is de 2x4 Hoe lang zijn de twee bij vier
De vergadering gaat van 13:00 tot 15:00 uur De vergadering gaat van één tot drie uur 's middags
Mijn bloedtype is O+ Mijn bloedtype is O-positief
Water is H20 Water is H 2 O
OU812 afspelen door Van Halen Play O U 8 1 2 by Van Halen
UTF-8 met stuklijst U T F 8 met bom
Dit kost $ 3,14 Het kost drie keer zo veel

De volgende normalisatieregels worden automatisch toegepast op transcripties:

  • Gebruik kleine letters.
  • Verwijder alle leestekens behalve apostroofs binnen woorden.
  • Vouw getallen uit in woorden/gesproken vorm, zoals bedragen in dollars.

Hier zijn enkele voorbeelden van normalisatie die automatisch wordt uitgevoerd op de transcriptie:

Oorspronkelijke tekst Tekst na normalisatie (automatisch)
"Mane! zegt Door. mane gezegde
"Wat?" zegt De sidekick vanIek, Robin. wat is de sidekick robin van wat u hebt gezegd?
Ga naar get -em! go get em
Ik ben dubbelgewricht Ik heb een dubbele gezamenlijke
104 Elm Street één oh vier Elm street
Afstemmen op 102.7 afstemmen op één oh tweepunts zeven
Pi is ongeveer 3,14 pi is ongeveer drie punten één vier

Mandarijn Chinees (zh-CN)

Door mensen gelabelde transcripties voor Mandarijn Chinees audio moeten UTF-8 zijn gecodeerd met een byte-ordermarkering. Vermijd het gebruik van leestekens met een halve breedte. Deze tekens kunnen per ongeluk worden opgenomen wanneer u de gegevens voorbereidt in een tekstverwerkingsprogramma of gegevens van webpagina's scrapen. Als deze tekens aanwezig zijn, moet u ze bijwerken met de juiste vervanging van de volledige breedte.

Enkele voorbeelden:

Tekens om te voorkomen Substitution Notities
"你好" "你好" De aanhalingstekens voor openen en sluiten zijn vervangen door de juiste tekens.
需要什么帮助? 需要什么帮助? Het vraagteken is vervangen door het juiste teken.

Tekstnormalisatie voor Mandarijn Chinees

Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normaliseringsregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken wanneer u uw transcriptiegegevens met menselijke labels voorbereidt:

  • Afkortingen in woorden wegschrijven.
  • Schrijf numerieke tekenreeksen in gesproken vorm.

Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren bij de transcriptie:

Oorspronkelijke tekst Tekst na normalisatie
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

De volgende normalisatieregels worden automatisch toegepast op transcripties:

  • Alle leestekens verwijderen
  • Getallen uitbreiden naar gesproken vorm
  • Letters van volledige breedte converteren naar letters van de halve breedte
  • Hoofdletters gebruiken voor alle Engelse woorden

Hier zijn enkele voorbeelden van automatische transcriptienormalisatie:

Oorspronkelijke tekst Tekst na normalisatie
3.1415 三 点 一 四 一 五
• 3,5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Duits (de-DE) en andere talen

Door mensen gelabelde transcripties voor Duitse audio (en andere niet-Engelse of Mandarijn-Chinese talen) moeten UTF-8 zijn gecodeerd met een byte-ordermarkering. Er moet voor elk audiobestand één transcript met een menselijk label worden opgegeven.

Tekstnormalisatie voor Duits

Tekstnormalisatie is de transformatie van woorden naar een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normaliseringsregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken wanneer u uw transcriptiegegevens met menselijke labels voorbereidt:

  • Schrijf decimale punten als '', en niet ''.
  • Scheidingstekens voor schrijftijd als ':' en niet ''. (bijvoorbeeld: 12:00 uur).
  • Afkortingen zoals 'ca'. worden niet vervangen. U wordt aangeraden het volledige gesproken formulier te gebruiken.
  • De vier belangrijkste wiskundige operators (+, -, * , en /) worden verwijderd. We raden u aan deze te vervangen door de geschreven vorm: 'plus', 'min', 'mal' en 'geteilt'.
  • Vergelijkingsoperators worden verwijderd (=, < en >). We raden u aan deze te vervangen door 'gleich', 'kleiner als' en 'grösser als'.
  • Schrijf breuken, zoals 3/4, in geschreven vorm (bijvoorbeeld: 'drei viertel' in plaats van 3/4).
  • Vervang het symbool '€' door de geschreven vorm 'Euro'.

Hier zijn enkele voorbeelden van normalisatie die u moet uitvoeren bij de transcriptie:

Oorspronkelijke tekst Tekst na gebruikersnormalisatie Tekst na systeemnormalisatie
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr d und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 min 4 zul plus drei min vier

De volgende normalisatieregels worden automatisch toegepast op transcripties:

  • Gebruik kleine letters voor alle tekst.
  • Verwijder alle interpunctie, inclusief verschillende typen aanhalingstekens ('test', 'test', 'test' en «test» zijn OK).
  • Verwijder rijen met speciale tekens uit deze set: © ² ® ° ± ² μ × ñ ²enen.
  • Vouw getallen uit naar een gesproken formulier, met inbegrip van bedragen in dollars of euro's.
  • Accepteer umlauts alleen voor a, o en u. Andere worden vervangen door 'th' of worden verwijderd.

Hier zijn enkele voorbeelden van normalisering die automatisch wordt uitgevoerd op de transcriptie:

Oorspronkelijke tekst Tekst na normalisatie
De Ring van Deter ring van de werkring
!Eine Frage! eine frage
Wir, kunt u wir en

Tekstnormalisatie voor Japans

In het Japans (ja-JP) is er een maximale lengte van 90 tekens voor elke zin. Regels met langere zinnen worden verwijderd. Als u langere tekst wilt toevoegen, voegt u ertussen een punt in.

Volgende stappen