Share via


Visa textformatering med tal till text

Tal till text erbjuder en matris med formateringsfunktioner för att säkerställa att den transkriberade texten är tydlig och läsbar. Se avsnitten nedan för en översikt över hur varje funktion används för att förbättra den övergripande klarheten i de slutliga textutdata.

ITN

Inverterad textnormalisering (ITN) är en process som konverterar talade ord till deras skriftliga formulär. Till exempel konverteras det talade ordet "fyra" till det skrivna formuläret "4". Tal till text-tjänsten slutför den här processen och kan inte konfigureras. Några av de textformat som stöds är datum, tider, decimaler, valutor, adresser, e-postmeddelanden och telefonnummer. Du kan tala naturligt och tjänsten formaterar text som förväntat. I följande tabell visas DE ITN-regler som tillämpas på textutdata.

Tal som känns igen Visningstext
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Kapitalisering

Tal till text-modeller känner igen ord som ska vara versaler för att förbättra läsbarhet, noggrannhet och grammatik. Till exempel versaler taltjänsten automatiskt rätt substantiv och ord i början av en mening. Några exempel visas i den här tabellen.

Tal som känns igen Visningstext
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Borttagning av disfluens

När du talar är det vanligt att någon stamma, duplicera ord och säga fyllnadsord som "uhm" eller "uh". Tal till text kan identifiera sådana avvikelser och ta bort dem från visningstexten. Disfluensborttagning är bra för att transkribera live-oskrivna tal för att läsa tillbaka dem senare. Några exempel visas i den här tabellen.

Tal som känns igen Visningstext
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Skiljetecken

Tal till text punkterar automatiskt texten för att förbättra tydligheten. Interpunktion är användbart för att läsa tillbaka samtals- eller konversationstranskriptioner. Några exempel visas i den här tabellen.

Tal som känns igen Visningstext
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

När du använder tal till text med kontinuerlig igenkänning kan du konfigurera Speech-tjänsten för att identifiera explicita skiljetecken. Sedan kan du tala skiljetecken högt för att göra texten mer läsbar. Detta är särskilt användbart i en situation där du vill använda komplexa skiljetecken utan att behöva sammanfoga den senare. Några exempel visas i den här tabellen.

Tal som känns igen Visningstext
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Använd Speech SDK för att aktivera dikteringsläge när du använder tal till text med kontinuerlig igenkänning. Det här läget gör att talkonfigurationsinstansen tolkar ordbeskrivningar av meningsstrukturer, till exempel skiljetecken.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Svordomsfilter

Du kan ange om du vill maskera, ta bort eller visa svordomar i den slutliga transkriberade texten. Maskering ersätter olämpliga ord med asterisktecken (*) så att du kan behålla textens ursprungliga attityd samtidigt som den blir mer lämplig för vissa situationer

Kommentar

Microsoft förbehåller sig också rätten att maskera eller ta bort ord som anses olämpliga. Sådana ord returneras inte av Speech-tjänsten, oavsett om du har aktiverat svordomsfiltrering eller inte.

Alternativen för svordomsfilter är:

  • Masked: Ersätter bokstäver med olämpliga ord med asterisktecken (*). Maskerad är standardalternativet.
  • Raw: Inkludera de profana orden ordagrant.
  • Removed: Tar bort olämpliga ord.

Om du till exempel vill ta bort olämpliga ord från taligenkänningsresultatet anger du svordomsfiltret enligt Removed följande:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Svordomsfilter tillämpas på resultatet Text och MaskedNormalizedForm egenskaperna. Filtret för svordomar tillämpas inte på resultatet LexicalForm och NormalizedForm egenskaperna. Filtret tillämpas inte heller på ordnivåresultatet.

Nästa steg