Vad är neural text till tal?

Microsofts neurala text till tal använder djupa neurala nätverk för att göra rösten på datorer nästan omöjlig att skilja från inspelningar av människor. Med den människoliknande naturliga prosodin och tydlig artikulation av ord har neural text till tal avsevärt minskat lyssningsutmattning när du interagerar med AI-system.

Mönstren för stress och intonation i talat språk kallas prosody. Traditionella text-till-tal-system delar in prosody i separata steg för språkanalys och akustiska förutsägelser som styrs av oberoende modeller. Det kan resultera i muffled, sporadiska röstsyntes. Microsofts funktioner för neural text till tal gör prosodyförutsägelser och röstsyntes samtidigt, använder djupa neurala nätverk för att lösa gränserna för traditionella text-till-tal-system som matchar mönster för stress och intonation i talat språk och syntetiserar talenheterna till en datorröst. Resultatet är en mer flytande och naturlig röst.

I den här översikten får du lära dig om fördelarna och funktionerna i text till tal-tjänsten, vilket gör att dina program, verktyg eller enheter kan konvertera text till syntetiserat tal som människor. Använd mänskliga neurala röster eller skapa en anpassad röst som är unik för din produkt eller ditt varumärke. En fullständig lista över röster, språk och språk som stöds finns i språk som stöds.

Den här dokumentationen innehåller följande artikeltyper:

  • Snabbstarter är komma igång-instruktioner som vägleder dig genom att göra begäranden till tjänsten.
  • Instruktionsguider innehåller instruktioner för att använda tjänsten på mer specifika eller anpassade sätt.
  • Begrepp ger djupgående förklaringar av tjänstens funktioner och funktioner.
  • Självstudier är längre guider som visar hur du använder tjänsten som en komponent i bredare affärslösningar.

Anteckning

Bing Speech inaktiverades den 15 oktober 2019. Om dina program, verktyg eller produkter använder Bing Speech-API:er eller Anpassat tal, har vi skapat guider som hjälper dig att migrera till taltjänsten.

Grundläggande funktioner

  • Talsyntes – Använd Speech SDK eller REST API för att konvertera text till tal med hjälp av neurala plattformsröster eller anpassade neurala röster.

  • Asynkron syntes av långt ljud – Använd API:et för långt ljud för att asynkront syntetisera text-till-tal-filer som är längre än 10 minuter (till exempel ljudböcker eller lektioner). Till skillnad från syntes som utförs med hjälp av Speech SDK eller REST API, returneras inte svar i realtid. Förväntningen är att begäranden skickas asynkront, att svar avsöks och att det syntetiserade ljudet laddas ned när det görs tillgängligt från tjänsten.

  • Neurala plattformsröster – Djupa neurala nätverk används för att lösa gränserna för traditionell talsyntes med avseende på stress och intonation på talat språk. Prosody-förutsägelse och röstsyntes utförs samtidigt, vilket resulterar i mer flytande och naturliga utdata. Neurala röster kan användas för att göra interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande, konvertera digitala texter som e-böcker till ljudböcker och förbättra navigeringssystem i bilar. Med den människoliknande naturliga prosodin och tydlig artikulation av ord minskar neurala röster avsevärt lyssningsutmattningen när du interagerar med AI-system. En fullständig lista över neurala plattformsröster finns i språk som stöds.

  • Finjustera TTS-utdata med SSML – Speech Synthesis Markup Language (SSML) är ett XML-baserat märkspråk som används för att anpassa text till tal-utdata. Med SSML kan du inte bara justera tonhöjden, lägga till pauser, förbättra uttal, ändra talfrekvens, justera volym och koppla flera röster till ett enda dokument, utan även definiera egna lexikoner eller växla till olika talstilar. Med de flerspråkiga rösternakan du även justera talspråken via SSML. Se hur du använder SSML för att finjustera röstutdata för ditt scenario.

  • Visemes – Visemes är de viktigaste attityderna i observerat tal, inklusive positionen för blingarna, rötorna och ansiktena när du producerar ett visst fonem. Visemes har en stark korrelation med röster och fonem. Med hjälp av viseme-händelser i Speech SDK kan du generera ansiktsanimeringsdata som kan användas för att animera ansikten i talläsningskommunikation, utbildning, underhållning och kundtjänst. Viseme stöds för närvarande endast för de en-US engelska (USA) neurala rösterna.

Kom igång

Se snabbstarten för att komma igång med text till tal. Text till tal-tjänsten är tillgänglig via Speech SDK, REST APIoch Speech CLI

Exempelkod

Exempelkod för text till tal finns på GitHub. De här exemplen omfattar text-till-tal-konvertering i de flesta populära programmeringsspråk.

Anpassning

Förutom neurala röster kan du skapa och finjustera anpassade röster som är unika för din produkt eller ditt varumärke. Allt som krävs för att komma igång är en handfull ljudfiler och tillhörande transkriptioner. Mer information finns i Kom igång med Anpassad neural röst

Prisnotering

När du använder text till tal-tjänsten debiteras du för varje tecken som konverteras till tal, inklusive skiljetecken. Även om själva SSML-dokumentet inte är fakturerbart räknas valfria element som används för att justera hur texten konverteras till tal, till exempel fonem och tonhöjd, som fakturerbara tecken. Här är en lista över vad som är fakturerbart:

  • Text som skickas till text till tal-tjänsten i SSML-brödtexten i begäran
  • All pålägg i textfältet i begärandetexten i SSML-format, förutom <speak> taggarna och <voice>
  • Bokstäver, skiljetecken, blanksteg, tabbar, markeringar och alla blankstegstecken
  • Varje kodpunkt som definieras i Unicode

Detaljerad information finns i Prissättning.

Viktigt

Varje tecken på kinesiska, japanska och koreanska räknas som två tecken för fakturering.

Migrera till neural röst

Vi drar tillbaka standardrösterna den 31 augusti 2024 och de kommer inte längre att stödjas efter det datumet.Meddelandet har skickats ut till alla befintliga Speech-prenumerationer före den 31 augusti 2021. Under utgående perioden (31 augusti 2021– 31 augusti 2024) kan befintliga standardröstanvändare fortsätta att använda sina standardröster. Alla nya användare/nya talresurser bör flyttas till de neurala rösterna.

Åtgärd som krävs

  1. Granska prisstrukturen och lyssna på neurala röstexempel längst ned på sidan för att fastställa rätt röst för dina affärsbehov.
  2. Om du vill göra ändringen följer du exempelkoden för att uppdatera röstnamnet i din begäran om talsyntes till de neurala röstnamn som stöds på valda språk senast den 31 augusti 2024. Från och med den 1 september 2024 stöds inte längre standardröster. Använd neurala röster för din talsyntesbegäran, i molnet eller på plats. För lokala containrar använder du containrarna för neural röst och följer instruktionerna.

Referensdokument

Nästa steg