Så här skapar du transkriptioner som är märkta med människor

Transkriptioner som är märkta med människor är transkriptioner av en ljudfil ord för ord. Du använder transkriptioner med mänsklig märkning för att förbättra igenkänningsprecisionen, särskilt när ord tas bort eller ersätts felaktigt.

Ett stort urval av transkriptionsdata krävs för att förbättra igenkänningen. Vi föreslår att du tillhandahåller mellan 1 och 20 timmars transkriptionsdata. Taltjänsten använder upp till 20 timmars ljud för träning. På den här sidan går vi igenom riktlinjer som hjälper dig att skapa transkriptioner av hög kvalitet. Den här guiden delas upp efter språk, med avsnitt för amerikansk engelska, mandarin och tyska.

Anteckning

Alla basmodeller stöder inte anpassning med ljudfiler. Om en basmodell inte stöder det använder träningen bara texten i transkriptionerna på samma sätt som relaterad text används. Se Språkstöd för en lista över basmodeller som stöder träning med ljuddata.

Anteckning

I de fall när du ändrar basmodellen som används för träning och du har ljud i datamängden för träning kontrollerar du alltid om den nya valda basmodellen stöder träning med ljuddata. Om den tidigare använda basmodellen inte hade stöd för träning med ljuddata och träningsdatamängden innehåller ljud, ökar träningstiden med den nya basmodellen drastiskt och kan lätt gå från flera timmar till flera dagar och mer. Detta gäller särskilt om din speech-tjänstprenumeration inte finns i en region med dedikerad maskinvara för träning.

Om du får problem som beskrivs i stycket ovan kan du snabbt minska träningstiden genom att minska mängden ljud i datauppsättningen eller ta bort den helt och endast låta texten vara kvar. Det senare alternativet rekommenderas starkt om din speech-tjänstprenumeration inte finns i en region med dedikerad maskinvara för träning.

Amerikansk engelska (en-US)

Transkriptioner med mänsklig märkning för engelskt ljud måste anges som oformaterad text, endast med ASCII-tecken. Undvik att använda interpunktiontecken med Latin-1 eller Unicode. Dessa tecken läggs ofta oavsiktligt till när du kopierar text från ett ordbehandlingsprogram eller när data från webbsidor kopieras. Om dessa tecken finns måste du uppdatera dem med lämplig ASCII-ersättning.

Några exempel:

Tecken att undvika Ersättning Kommentarer
"Hello world" "Hello world" Inledande och avslutande citattecken har ersatts med lämpliga ASCII-tecken.
Johns dag Johns dag Apostrofer har ersatts med lämpligt ASCII-tecken.
Det var bra – nej, det var bra! det var bra – nej, det var bra! Bindestrecket ersattes med två bindestreck.

Text normalisering för amerikansk engelska

Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:

  • Skriv ut förkortningar med ord.
  • Skriva ut numeriska strängar som inte är standard med ord (till exempel redovisningsvillkor).
  • Icke-alfabetiska tecken eller blandade alfanumeriska tecken ska transkriberas som uttalas.
  • Förkortningar som uttalas som ord bör inte redigeras (till exempel "radar", "las", "RAM", eller "POR").
  • Skriv ut förkortningar som uttalas som separata bokstäver där varje bokstav avgränsas med ett blanksteg.
  • Om du använder ljud kan du transkribera siffror som ord som matchar ljudet (till exempel kan "101" uttalas som "en oh en" eller "ett hundra och ett").
  • Undvik att upprepa tecken, ord eller grupper med ord fler än tre gånger, till exempel "ja ja ja ja". Rader med sådana upprepningar kan tas bort av Speech-tjänsten.

Här följer några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter normalisering (mänsklig)
Dr. Banner för Banner Doctor Bruce Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Kesha
Hur lång är 2x4 Hur länge är de två med fyra
Mötet går från 13:00 till 15:00 Mötet går från en till tre pm
Min vita typ är O+ Min vita typ är O-positiv
Vatten är H20 Vatten är H 2 O
Spela OU812 av Van Ouen Play O U 8 1 2 av VanStilen
UTF-8 med BOM U T F 8 med BOM
Det kostar $ 3,14 Det kostar tre personer

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Använd gemener.
  • Ta bort alla skiljetecken utom apostrofer i ord.
  • Expandera tal till ord/talat format, till exempel dollarbelopp.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text Text efter normalisering (automatisk)
"Så här ser kon ut!" said Så här: kor sa så här:
"Vad?" saidGers sidekick, Robin. what saidallokering's sidekick robin
Hämta -em! go get em
Jag är dubbelsedd Jag är dubbelfogad
104 Elm Street one oh four Elm street
Justera till 102.7 justera till en oh två punkt sju
Pi är cirka 3,14 pi är ungefär tre punkt ett fyra

Mandarin kinesiska (zh-CN)

Transkriptioner med mänsklig märkning för mandarin kinesiska ljud måste vara UTF-8-kodade med en byteordningsmarkör. Undvik att använda skiljetecken med halvbredd. Dessa tecken kan inkluderas oavsiktligt när du förbereder data i ett ordbehandlingsprogram eller tar bort data från webbsidor. Om dessa tecken finns måste du uppdatera dem med lämplig ersättning med full bredd.

Några exempel:

Tecken att undvika Ersättning Kommentarer
"你好" "你好" De inledande och avslutande citattecknen har ersatts med lämpliga tecken.
需要什么帮助? 需要什么帮助? Frågetecknet har ersatts med lämpligt tecken.

Text normalisering för mandarin kinesiska

Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:

  • Skriv ut förkortningar med ord.
  • Skriva ut numeriska strängar i talat format.

Här följer några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter normalisering
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Ta bort alla skiljetecken
  • Expandera tal till talat formulär
  • Konvertera bokstäver med full bredd till bokstäver med halv bredd
  • Använda versaler för alla engelska ord

Här följer några exempel på automatisk transkriptions normalisering:

Ursprunglig text Text efter normalisering
3.1415 三 点 一 四 一 五
– 3,5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Tyska (de-DE) och andra språk

Transkriptioner med mänsklig märkning för tyska ljud (och andra icke-engelska eller mandarin kinesiska språk) måste vara UTF-8-kodade med en byteordningsmarkör. En avskrift med mänsklig etikett ska tillhandahållas för varje ljudfil.

Text normalisering för tyska

Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:

  • Skriv decimaltecken som "," och inte ".".
  • Skriv tidsavgränsare som ":" och inte "." (till exempel: 12:00Rnr).
  • Förkortningar som "ca". ersätts inte. Vi rekommenderar att du använder det fullständiga talade formuläret.
  • De fyra huvudsakliga matematiska operatorerna (+, * -, och /) tas bort. Vi rekommenderar att du ersätter dem med det skrivna formuläret: "plus", "minus", "mal" och "geteilt".
  • Jämförelseoperatorer tas bort (=, < och >). Vi rekommenderar att du ersätter dem med "gleich", "biller als" och "grösser als".
  • Skriv bråktal, till exempel 3/4, i skriftligt format (till exempel: "ieri viertel" i stället för 3/4).
  • Ersätt symbolen "..."med dess skrivna form "Euro".

Här följer några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter användar normalisering Text efter system normalisering
Es ist 12.23 Ehr Es ist 12:23 Ehr es ist zwölf mobr gälleri zwanzig wanzig
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zschie plus eti minus vier

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Använd gemener för all text.
  • Ta bort alla skiljetecken, inklusive olika typer av citattecken ("test", "test", "test" och «test» är OK).
  • Ta bort rader med specialtecken från den här uppsättningen: ° ° ° ° © © ° ® ° ± ° μ × â Éââ.v.s.
  • Expandera tal till talat format, inklusive belopp i dollar eller euro.
  • Acceptera enbart umetter för a, o och dig. Andra ersätts med "th" eller tas bort.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text Text efter normalisering
Tysklander Ring ring för et-
–Eine Alane! einenite
Wir, haben wir haben

Text normalisering för japanska

På japanska (ja-JP) finns det en maximal längd på 90 tecken för varje mening. Rader med längre meningar tas bort. Om du vill lägga till längre text infogar du en punkt däremellan.

Nästa steg