Vad är text till tal?

Artikel
01/22/2024

I den här översikten får du lära dig om fördelarna och funktionerna i text till tal-funktionen i Speech-tjänsten, som är en del av Azure AI-tjänster.

Text till tal gör att dina program, verktyg eller enheter kan konvertera text till människor som syntetiserat tal. Funktionen text till tal kallas även talsyntes. Använd mänskliga som fördefinierade neurala röster direkt eller skapa en anpassad neural röst som är unik för din produkt eller ditt varumärke. En fullständig lista över röster, språk och språk som stöds finns i Språk- och röststöd för Speech-tjänsten.

Kärnfunktioner

Text till tal innehåller följande funktioner:

Funktion	Sammanfattning	Demo
Fördefinierad neural röst (kallas Neural på prissidan)	Mycket naturliga out-of-the-box röster. Skapa ett Azure-konto och en Speech-tjänstprenumeration och använd sedan Speech SDK eller gå till Speech Studio-portalen och välj fördefinierade neurala röster för att komma igång. Kontrollera prisinformationen.	Kontrollera röstgalleriet och bestäm rätt röst för dina affärsbehov.
Anpassad neural röst (kallas anpassad neural på prissidan)	Lätt att använda självbetjäning för att skapa en naturlig varumärkesröst, med begränsad åtkomst för ansvarsfull användning. Skapa ett Azure-konto och en Speech-tjänstprenumeration (med S0-nivån) och använd den anpassade neurala funktionen. När du har beviljats åtkomst går du till Speech Studio-portalen och väljer Anpassad röst för att komma igång. Kontrollera prisinformationen.	Kontrollera röstexemplen.

Mer om neural text till tal-funktioner

Text till tal använder djupa neurala nätverk för att göra datorernas röster nästan oskiljaktiga från inspelningarna av människor. Med tydlig artikulering av ord minskar neural text till tal avsevärt lyssningströttheten när användare interagerar med AI-system.

Mönster av stress och intonation i talat språk kallas prosody. Traditionella text-till-tal-system delar upp prosodi i separata språkanalyser och akustiska förutsägelsesteg som styrs av oberoende modeller. Det kan resultera i dämpad, livlig röstsyntes.

Här är mer information om neural text till tal-funktioner i Speech-tjänsten och hur de övervinner gränserna för traditionella text till talsystem:

Talsyntes i realtid: Använd Speech SDK eller REST API för att konvertera text till tal med hjälp av fördefinierade neurala röster eller anpassade neurala röster.
Asynkron syntes av långt ljud: Använd batchsyntes-API:et (förhandsversion) för att asynkront syntetisera text till talfiler längre än 10 minuter (till exempel ljudböcker eller föreläsningar). Till skillnad från syntes som utförs via Speech SDK eller Speech to text REST API returneras inte svar i realtid. Förväntningarna är att begäranden skickas asynkront, svar avsöks och syntetiserat ljud laddas ned när tjänsten gör den tillgänglig.
Fördefinierade neurala röster: Microsofts funktioner för neural text till tal använder djupa neurala nätverk för att övervinna gränserna för traditionell talsyntes när det gäller stress och intonation i talat språk. Prosody förutsägelse och röstsyntes sker samtidigt, vilket resulterar i mer flytande och naturligt klingande utdata. Varje fördefinierad neural röstmodell är tillgänglig på 24 kHz och 48 kHz med hög återgivning. Du kan använda neurala röster för att:
- Gör interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande.
- Konvertera digitala texter som e-böcker till ljudböcker.
- Förbättra navigeringssystemen i bilen.
En fullständig lista över neurala plattformsröster finns i Språk och röststöd för Speech-tjänsten.
Finjustering av text till talutdata med SSML: Speech Synthesis Markup Language (SSML) är ett XML-baserat markeringsspråk som används för att anpassa text till talutdata. Med SSML kan du justera tonhöjd, lägga till pauser, förbättra uttalet, ändra talfrekvens, justera volymen och tilldela flera röster till ett enda dokument.

Du kan använda SSML för att definiera egna lexikon eller växla till olika talformat. Med flerspråkiga röster kan du också justera talarspråken via SSML. Information om hur du finjusterar röstutdata för ditt scenario finns i Förbättra syntesen med TalsyntesMarkeringsspråk och Talsyntes med verktyget Skapa ljudinnehåll.
Visemes: Visemes är de viktigaste poserna i observerat tal, inklusive läpparnas, käkens och tungans position när det gäller att producera en viss fonem. Visemes har en stark korrelation med röster och fonem.

Genom att använda viseme-händelser i Speech SDK kan du generera ansiktsanimeringsdata. Dessa data kan användas för att animera ansikten i läppläsningskommunikation, utbildning, underhållning och kundtjänst. Viseme stöds för närvarande endast för neurala en-US röster (amerikanska engelska).

Kommentar

Vi planerar att dra tillbaka de traditionella/standardrösterna och den icke-neurala anpassade rösten 2024. Efter det kommer vi inte längre att stödja dem.

Om dina program, verktyg eller produkter använder någon av standardrösterna och anpassade röster måste du migrera till den neurala versionen. Mer information finns i Migrera till neurala röster.

Kom igång

Information om hur du kommer igång med text till tal finns i snabbstarten. Text till tal är tillgängligt via Speech SDK, REST API och Speech CLI.

Dricks

Om du vill konvertera text till tal utan kod kan du prova verktyget Skapa ljudinnehåll i Speech Studio.

Exempelkod

Exempelkod för text till tal är tillgänglig på GitHub. De här exemplen omfattar text till talkonvertering på de mest populära programmeringsspråken:

Anpassad neural röst

Förutom fördefinierade neurala röster kan du skapa och finjustera anpassade neurala röster som är unika för din produkt eller ditt varumärke. Allt som krävs för att komma igång är en handfull ljudfiler och tillhörande transkriptioner. Mer information finns i Komma igång med anpassad neural röst.

Prisanteckning

Fakturerbara tecken

När du använder funktionen text till tal debiteras du för varje tecken som konverteras till tal, inklusive skiljetecken. Även om själva SSML-dokumentet inte kan faktureras räknas valfria element som används för att justera hur texten konverteras till tal, till exempel fonem och tonhöjd, som fakturerbara tecken. Här är en lista över vad som kan faktureras:

Text som skickas till text till tal-funktionen i SSML-brödtexten i begäran
Alla markeringar i textfältet i begärandetexten i SSML-format, förutom <speak> taggar och <voice>
Bokstäver, skiljetecken, blanksteg, flikar, markeringar och alla blankstegstecken
Varje kodpunkt som definieras i Unicode

Detaljerad information finns i Priser för Speech-tjänsten.

Viktigt!

Varje kinesiskt tecken räknas som två tecken för fakturering, inklusive kanji som används på japanska, hanja som används på koreanska eller hanzi som används på andra språk.

Modellträning och värdtid för anpassad neural röst

Anpassad neural röstträning och värd beräknas både per timme och faktureras per sekund. Information om priset för faktureringsenhet finns i Priser för Speech-tjänsten.

Träningstiden för anpassad neural röst (CNV) mäts med "beräkningstimme" (en enhet för att mäta datorns körningstid). När du tränar en röstmodell körs vanligtvis två databehandlingsuppgifter parallellt. Därför är de beräknade beräkningstimmarna längre än den faktiska träningstiden. I genomsnitt tar det mindre än en beräkningstimme att träna en CNV Lite-röst. för CNV Pro tar det vanligtvis 20 till 40 beräkningstimmar att träna en röst i en stil och cirka 90 beräkningstimmar för att träna en röst i flera format. CNV-träningstiden faktureras med ett tak på 96 beräkningstimmar. Så om en röstmodell tränas i 98 beräkningstimmar debiteras du bara med 96 beräkningstimmar.

CnV-slutpunktsvärd (Custom Neural Voice) mäts med den faktiska tiden (timme). Värdtiden (timmar) för varje slutpunkt beräknas till 00:00 UTC varje dag under de senaste 24 timmarna. Om slutpunkten till exempel har varit aktiv i 24 timmar på dag ett debiteras den i 24 timmar klockan 00:00 UTC den andra dagen. Om slutpunkten nyligen har skapats eller pausats under dagen debiteras den för den ackumulerade körningstiden fram till 00:00 UTC den andra dagen. Om slutpunkten inte finns för närvarande debiteras den inte. Utöver den dagliga beräkningen kl. 00:00 UTC varje dag utlöses faktureringen också omedelbart när en slutpunkt tas bort eller pausas. För en slutpunkt som skapades kl. 08:00 UTC den 1 december beräknas värdtimpen till 16 timmar kl. 00:00 UTC den 2 december och 24 timmar kl. 00:00 UTC den 3 december. Om användaren pausar värdtjänsten för slutpunkten kl. 16:30 UTC den 3 december beräknas varaktigheten (16,5 timmar) från 00:00 till 16:30 UTC den 3 december för fakturering.

Referensdokument

Ansvarig AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.