Så här skapar du transkriptioner som är märkta med människor
Transkriptioner som är märkta med människor är transkriptioner av en ljudfil ord för ord. Du använder transkriptioner med mänsklig märkning för att förbättra igenkänningsprecisionen, särskilt när ord tas bort eller ersätts felaktigt.
Ett stort urval av transkriptionsdata krävs för att förbättra igenkänningen. Vi föreslår att du tillhandahåller mellan 1 och 20 timmars transkriptionsdata. Taltjänsten använder upp till 20 timmars ljud för träning. På den här sidan går vi igenom riktlinjer som hjälper dig att skapa transkriptioner av hög kvalitet. Den här guiden delas upp efter språk, med avsnitt för amerikansk engelska, mandarin och tyska.
Anteckning
Alla basmodeller stöder inte anpassning med ljudfiler. Om en basmodell inte stöder det använder träningen bara texten i transkriptionerna på samma sätt som relaterad text används. Se Språkstöd för en lista över basmodeller som stöder träning med ljuddata.
Anteckning
I de fall när du ändrar basmodellen som används för träning och du har ljud i datamängden för träning kontrollerar du alltid om den nya valda basmodellen stöder träning med ljuddata. Om den tidigare använda basmodellen inte hade stöd för träning med ljuddata och träningsdatamängden innehåller ljud, ökar träningstiden med den nya basmodellen drastiskt och kan lätt gå från flera timmar till flera dagar och mer. Detta gäller särskilt om din speech-tjänstprenumeration inte finns i en region med dedikerad maskinvara för träning.
Om du får problem som beskrivs i stycket ovan kan du snabbt minska träningstiden genom att minska mängden ljud i datauppsättningen eller ta bort den helt och endast låta texten vara kvar. Det senare alternativet rekommenderas starkt om din speech-tjänstprenumeration inte finns i en region med dedikerad maskinvara för träning.
Amerikansk engelska (en-US)
Transkriptioner med mänsklig märkning för engelskt ljud måste anges som oformaterad text, endast med ASCII-tecken. Undvik att använda interpunktiontecken med Latin-1 eller Unicode. Dessa tecken läggs ofta oavsiktligt till när du kopierar text från ett ordbehandlingsprogram eller när data från webbsidor kopieras. Om dessa tecken finns måste du uppdatera dem med lämplig ASCII-ersättning.
Några exempel:
| Tecken att undvika | Ersättning | Kommentarer |
|---|---|---|
| "Hello world" | "Hello world" | Inledande och avslutande citattecken har ersatts med lämpliga ASCII-tecken. |
| Johns dag | Johns dag | Apostrofer har ersatts med lämpligt ASCII-tecken. |
| Det var bra – nej, det var bra! | det var bra – nej, det var bra! | Bindestrecket ersattes med två bindestreck. |
Text normalisering för amerikansk engelska
Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:
- Skriv ut förkortningar med ord.
- Skriva ut numeriska strängar som inte är standard med ord (till exempel redovisningsvillkor).
- Icke-alfabetiska tecken eller blandade alfanumeriska tecken ska transkriberas som uttalas.
- Förkortningar som uttalas som ord bör inte redigeras (till exempel "radar", "las", "RAM", eller "POR").
- Skriv ut förkortningar som uttalas som separata bokstäver där varje bokstav avgränsas med ett blanksteg.
- Om du använder ljud kan du transkribera siffror som ord som matchar ljudet (till exempel kan "101" uttalas som "en oh en" eller "ett hundra och ett").
- Undvik att upprepa tecken, ord eller grupper med ord fler än tre gånger, till exempel "ja ja ja ja". Rader med sådana upprepningar kan tas bort av Speech-tjänsten.
Här följer några exempel på normalisering som du bör utföra på transkriptionen:
| Ursprunglig text | Text efter normalisering (mänsklig) |
|---|---|
| Dr. Banner för Banner | Doctor Bruce Banner |
| James Bond, 007 | James Bond, double oh seven |
| Ke$ha | Kesha |
| Hur lång är 2x4 | Hur länge är de två med fyra |
| Mötet går från 13:00 till 15:00 | Mötet går från en till tre pm |
| Min vita typ är O+ | Min vita typ är O-positiv |
| Vatten är H20 | Vatten är H 2 O |
| Spela OU812 av Van Ouen | Play O U 8 1 2 av VanStilen |
| UTF-8 med BOM | U T F 8 med BOM |
| Det kostar $ 3,14 | Det kostar tre personer |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Använd gemener.
- Ta bort alla skiljetecken utom apostrofer i ord.
- Expandera tal till ord/talat format, till exempel dollarbelopp.
Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:
| Ursprunglig text | Text efter normalisering (automatisk) |
|---|---|
| "Så här ser kon ut!" said Så här: | kor sa så här: |
| "Vad?" saidGers sidekick, Robin. | what saidallokering's sidekick robin |
| Hämta -em! | go get em |
| Jag är dubbelsedd | Jag är dubbelfogad |
| 104 Elm Street | one oh four Elm street |
| Justera till 102.7 | justera till en oh två punkt sju |
| Pi är cirka 3,14 | pi är ungefär tre punkt ett fyra |
Mandarin kinesiska (zh-CN)
Transkriptioner med mänsklig märkning för mandarin kinesiska ljud måste vara UTF-8-kodade med en byteordningsmarkör. Undvik att använda skiljetecken med halvbredd. Dessa tecken kan inkluderas oavsiktligt när du förbereder data i ett ordbehandlingsprogram eller tar bort data från webbsidor. Om dessa tecken finns måste du uppdatera dem med lämplig ersättning med full bredd.
Några exempel:
| Tecken att undvika | Ersättning | Kommentarer |
|---|---|---|
| "你好" | "你好" | De inledande och avslutande citattecknen har ersatts med lämpliga tecken. |
| 需要什么帮助? | 需要什么帮助? | Frågetecknet har ersatts med lämpligt tecken. |
Text normalisering för mandarin kinesiska
Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:
- Skriv ut förkortningar med ord.
- Skriva ut numeriska strängar i talat format.
Här följer några exempel på normalisering som du bör utföra på transkriptionen:
| Ursprunglig text | Text efter normalisering |
|---|---|
| 我今年 21 | 我今年二十一 |
| 3 号楼 504 | 三号 楼 五 零 四 |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Ta bort alla skiljetecken
- Expandera tal till talat formulär
- Konvertera bokstäver med full bredd till bokstäver med halv bredd
- Använda versaler för alla engelska ord
Här följer några exempel på automatisk transkriptions normalisering:
| Ursprunglig text | Text efter normalisering |
|---|---|
| 3.1415 | 三 点 一 四 一 五 |
| – 3,5 | 三 元 五 角 |
| w f y z | W F Y Z |
| 1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
| 你吃饭了吗? | 你 吃饭 了 吗 |
| 下午 5:00 的航班 | 下午 五点 的 航班 |
| 我今年 21 岁 | 我 今年 二十 一 岁 |
Tyska (de-DE) och andra språk
Transkriptioner med mänsklig märkning för tyska ljud (och andra icke-engelska eller mandarin kinesiska språk) måste vara UTF-8-kodade med en byteordningsmarkör. En avskrift med mänsklig etikett ska tillhandahållas för varje ljudfil.
Text normalisering för tyska
Text normalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas på text automatiskt, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata som är märkta med människor:
- Skriv decimaltecken som "," och inte ".".
- Skriv tidsavgränsare som ":" och inte "." (till exempel: 12:00Rnr).
- Förkortningar som "ca". ersätts inte. Vi rekommenderar att du använder det fullständiga talade formuläret.
- De fyra huvudsakliga matematiska operatorerna (+, * -, och /) tas bort. Vi rekommenderar att du ersätter dem med det skrivna formuläret: "plus", "minus", "mal" och "geteilt".
- Jämförelseoperatorer tas bort (=, < och >). Vi rekommenderar att du ersätter dem med "gleich", "biller als" och "grösser als".
- Skriv bråktal, till exempel 3/4, i skriftligt format (till exempel: "ieri viertel" i stället för 3/4).
- Ersätt symbolen "..."med dess skrivna form "Euro".
Här följer några exempel på normalisering som du bör utföra på transkriptionen:
| Ursprunglig text | Text efter användar normalisering | Text efter system normalisering |
|---|---|---|
| Es ist 12.23 Ehr | Es ist 12:23 Ehr | es ist zwölf mobr gälleri zwanzig wanzig |
| {12.45} | {12,45} | zwölf komma vier fünf |
| 2 + 3 - 4 | 2 plus 3 minus 4 | zschie plus eti minus vier |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Använd gemener för all text.
- Ta bort alla skiljetecken, inklusive olika typer av citattecken ("test", "test", "test" och «test» är OK).
- Ta bort rader med specialtecken från den här uppsättningen: ° ° ° ° © © ° ® ° ± ° μ × â Éââ.v.s.
- Expandera tal till talat format, inklusive belopp i dollar eller euro.
- Acceptera enbart umetter för a, o och dig. Andra ersätts med "th" eller tas bort.
Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:
| Ursprunglig text | Text efter normalisering |
|---|---|
| Tysklander Ring | ring för et- |
| –Eine Alane! | einenite |
| Wir, haben | wir haben |
Text normalisering för japanska
På japanska (ja-JP) finns det en maximal längd på 90 tecken för varje mening. Rader med längre meningar tas bort. Om du vill lägga till längre text infogar du en punkt däremellan.