Vad är tal-till-text?

I den här översikten får du lära dig om fördelarna och funktionerna i tal till text-tjänsten. Tal till text, även kallat taligenkänning, möjliggör transkription i realtid av ljudströmmar till text. Dina program, verktyg eller enheter kan använda, visa och vidta åtgärder för den här texten som kommandoindata. Den här tjänsten drivs av samma igenkänningsteknik som Microsoft använder för Cortana och Office produkter. Det fungerar sömlöst med översättnings- och text till tal-tjänsterbjudandena. En fullständig lista över tillgängliga tal till text-språk finns i språk som stöds.

Tal till text-tjänsten använder som standard den universella språkmodellen. Den här modellen tränades med hjälp av Microsoft-ägda data och distribuerades i molnet. Det är optimalt för konversations- och dikteringsscenarier. När du använder tal till text för igenkänning och transkription i en unik miljö kan du skapa och träna anpassade akustiska modeller, språkmodeller och uttalsmodeller. Anpassning är användbart för att hantera omgivande brus eller branschspecifik vokabulär.

Den här dokumentationen innehåller följande artikeltyper:

  • Snabbstarter är komma igång-instruktioner som vägleder dig genom att göra begäranden till tjänsten.
  • Instruktionsguider innehåller instruktioner för att använda tjänsten på mer specifika eller anpassade sätt.
  • Begrepp ger djupgående förklaringar av tjänstens funktioner och funktioner.
  • Självstudier är längre guider som visar hur du använder tjänsten som en komponent i bredare affärslösningar.

Anteckning

Bing Speech inaktiverades den 15 oktober 2019. Om dina program, verktyg eller produkter använder Bing Speech-API:er har vi skapat guider som hjälper dig att migrera till Speech-tjänsten.

Viktigt

Transport Layer Security (TLS) 1.2 tillämpas nu för alla HTTP-begäranden till den här tjänsten. Mer information finns i Azure Cognitive Services säkerhet.

Kom igång

Se snabbstarten för att komma igång med tal till text. Tjänsten är tillgänglig via Speech SDK, REST APIoch Speech CLI.

Exempelkod

Exempelkod för Speech SDK finns på GitHub. De här exemplen omfattar vanliga scenarier som att läsa ljud från en fil eller ström, kontinuerlig igenkänning och engångsigenkänning och arbeta med anpassade modeller.

Anpassning

Förutom standardmodellen för Speech-tjänsten kan du skapa anpassade modeller. Anpassning hjälper till att lösa hinder för taligenkänning, till exempel talstil, vokabulär och bakgrundsbrus, se Anpassat tal. Anpassningsalternativen varierar beroende på språk/språk. Se språk som stöds för att verifiera stödet.

Batch-transkription

Batch-transkription är en uppsättning REST API åtgärder som gör att du kan transkribera en stor mängd ljud i lagringen. Du kan peka på ljudfiler med en SAS-URI (signatur för delad åtkomst) och asynkront ta emot transkriptionsresultat. Mer information om hur du använder batchtranskriberings-API:et finns i satsen.

Referensdokument

Speech-tjänsten tillhandahåller två SDK:er. Den första SDK:n är den primära Speech SDK:n och tillhandahåller de flesta av de funktioner som behövs för att interagera med speech-tjänsten. Den andra SDK:n är specifik för enheter med lämpligt namn som heter Speech Devices SDK. Båda SDK:erna är tillgängliga på många språk.

Referensdokument för Speech SDK

Använd följande lista för att hitta lämpliga referensdokument för Speech SDK:

Tips

Speech Service SDK underhålls och uppdateras aktivt. Information om hur du spårar ändringar, uppdateringar och funktionsuppdateringar finns i viktig information om Speech SDK.

Referensdokument för Speech Devices SDK

Speech Devices SDK är en supermängd av Speech SDK med utökade funktioner för specifika enheter. Om du vill ladda ned Speech Devices SDK måste du först välja en development kit.

REST API referenser

Referenser till olika REST-API:er för Speech-tjänsten finns i listan nedan:

Nästa steg