Vad är text-till-tal?What is text-to-speech?

Text till tal från Azure Speech Services är en tjänst som gör det möjligt för dina program, verktyg eller enheter att konvertera text till naturligt mänskligt syntetiskt tal.Text-to-speech from Azure Speech Services is a service that enables your applications, tools, or devices to convert text into natural human-like synthesized speech. Välj mellan standard-och neurala röster eller skapa en egen anpassad röst som är unik för din produkt eller ditt varumärke.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. 75 + standard röster är tillgängliga på över 45 språk och nationella inställningar och 5 neurala-röster är tillgängliga på 4 språk och nationella inställningar.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in 4 languages and locales. En fullständig lista finns i språk som stöds.For a full list, see supported languages.

Med text till tal-teknik kan skapare av innehåll interagera med sina användare på olika sätt.Text-to-speech technology allows content creators to interact with their users in different ways. Text till tal kan förbättra tillgängligheten genom att ge användarna ett alternativ för att interagera med innehållet audibly.Text-to-speech can improve accessibility by providing users with an option to interact with content audibly. Om användaren har nedsatt syn, ett inlärnings funktions sätt eller kräver navigerings information under körningen, kan text till tal förbättra en befintlig upplevelse.Whether the user has a visual impairment, a learning disability, or requires navigation information while driving, text-to-speech can improve an existing experience. Text till tal är också ett värdefullt tillägg för röst robotar och virtuella assistenter.Text-to-speech is also a valuable add-on for voice bots and virtual assistants.

Genom att använda SSML (Speech syntes Markup Language), ett XML-baserat kodspråk, kan utvecklare som använder tjänsten för text till tal ange hur indata ska konverteras till syntetiskt tal.By leveraging Speech Synthesis Markup Language (SSML), an XML-based markup language, developers using the text-to-speech service can specify how input text is converted into synthesized speech. Med SSML kan du justera bredd, uttal, tal, volym och mycket annat.With SSML, you can adjust pitch, pronunciation, speaking rate, volume, and more. Mer information finns i SSML.For more information, see SSML.

Standard rösterStandard voices

Standard röster skapas med statistisk parameter syntes och/eller kombinations sammanfattnings tekniker.Standard voices are created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Dessa röster är mycket anpassningsbara och har en naturlig naturlig effekt.These voices are highly intelligible and sound natural. Du kan enkelt göra det möjligt för dina program att prata på fler än 45 språk, med ett brett utbud av röst alternativ.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Dessa röster ger hög uttal av precision, inklusive stöd för förkortningar, akronym-expansion, datum/tid-tolkningar, polytelefoner med mera.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. Använd standard röst för att förbättra tillgängligheten för dina program och tjänster genom att tillåta att användare interagerar med din innehålls audibly.Use standard voice to improve accessibility for your applications and services by allowing users to interact with your content audibly.

Neurala-rösterNeural voices

Neurala-röster använder djup neurala-nätverk för att undvika de traditionella text till tal-systemen som matchar mönstren för stress och intonation i talade språk och för att syntetisera tal i en dator röst.Neural voices use deep neural networks to overcome the limits of traditional text-to-speech systems in matching the patterns of stress and intonation in spoken language, and in synthesizing the units of speech into a computer voice. Standard text till tal avbryter prosody i separata språk analys och akustiska förutsägelse steg som styrs av oberoende modeller, vilket kan leda till muffled röst syntes.Standard text-to-speech breaks down prosody into separate linguistic analysis and acoustic prediction steps that are governed by independent models, which can result in muffled voice synthesis. Vår neurala-funktion gör prosody förutsägelse och röst syntes samtidigt, vilket resulterar i en mer flytande och naturlig röst.Our neural capability does prosody prediction and voice synthesis simultaneously, which results in a more fluid and natural-sounding voice.

Neurala röster kan användas för att göra interaktioner med chattrobotar och virtuella assistenter mer naturligt och engagerande, konvertera digitala texter som e-böcker till Audiobooks och förbättra navigerings systemen i bilen.Neural voices can be used to make interactions with chatbots and virtual assistants more natural and engaging, convert digital texts such as e-books into audiobooks and enhance in-car navigation systems. Med den humana naturliga prosody och tydligare utsättande av ord, minskar neurala-röster avsevärt lyssnings utmattning när du interagerar med AI-system.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems.

Neurala-röster stöder olika format, t. ex. neutrala och Cheerful.Neural voices support different styles, such as neutral and cheerful. Till exempel kan Jessa-Voice (en-US) tala cheerfully, som är optimerad för varm, glad konversation.For example, the Jessa (en-US) voice can speak cheerfully, which is optimized for warm, happy conversation. Du kan justera röst resultatet, t. ex. ton, färgdjup och hastighet med hjälp av tal syntes märknings språk.You can adjust the voice output, like tone, pitch, and speed using Speech Synthesis Markup Language. En fullständig lista över tillgängliga röster finns i språk som stöds.For a full list of available voices, see supported languages.

Mer information om fördelarna med neurala-röster finns i Microsofts nya neurala text-till-tal-tjänst hjälper datorer att tala som människor.To learn more about the benefits of neural voices, see Microsoft’s new neural text-to-speech service helps machines speak like people.

Anpassade rösterCustom voices

Röst anpassning gör att du kan skapa en igenkännbar, en-av-en-röst för ditt varumärke.Voice customization lets you create a recognizable, one-of-a-kind voice for your brand. Om du vill skapa ett anpassat röst teckensnitt gör du en Studio-inspelning och laddar upp de associerade skripten som tränings data.To create your custom voice font, you make a studio recording and upload the associated scripts as the training data. Tjänsten skapar sedan en unik röst modell som är justerad till din inspelning.The service then creates a unique voice model tuned to your recording. Du kan använda det här anpassade röst teckensnittet för att syntetisera tal.You can use this custom voice font to synthesize speech. Mer information finns i anpassade röster.For more information, see custom voices.

Speech Synthesis Markup Language (SSML)Speech Synthesis Markup Language (SSML)

SSML (Speech syntes Markup Language) är ett XML-baserat kodspråk som låter utvecklare ange hur indata ska konverteras till syntetiskt tal med hjälp av text till tal-tjänsten.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Jämfört med oformaterad text gör SSML att utvecklare kan finjustera färgdjup, uttal, tal frekvens, volym och annat text till tal-utdata.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. Normal interpunktion, till exempel pausa efter en punkt eller med rätt intonation när en mening slutar med ett frågetecken, hanteras automatiskt.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

Alla text inmatningar som skickas till text till tal-tjänsten måste struktureras som SSML.All text inputs sent to the text-to-speech service must be structured as SSML. Mer information finns i tal syntes märknings språk.For more information, see Speech Synthesis Markup Language.

Pris noteringPricing note

När du använder text till tal-tjänsten debiteras du för varje tecken som konverteras till tal, inklusive interpunktion.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. SSML-dokumentet är inte fakturerbart, valfria element som används för att justera hur texten konverteras till tal, t. ex. fonem och färgdjup, räknas som fakturerbara tecken.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Här är en lista över vad som är fakturerbara:Here's a list of what's billable:

  • Text som skickas till text till tal-tjänsten i SSML-delen av begäranText passed to the text-to-speech service in the SSML body of the request
  • Alla markeringar i textfältet i begär ande texten i SSML-format, förutom <speak>-och <voice>-TaggarAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Bokstäver, interpunktion, blank steg, tabbar, markeringar och alla blank stegs teckenLetters, punctuation, spaces, tabs, markup, and all white-space characters
  • Varje kod punkt som definierats i UnicodeEvery code point defined in Unicode

Detaljerad information finns i prissättning.For detailed information, see Pricing.

Viktigt

Varje kinesiskt, japanskt och Koreanskt språk tecken räknas som två tecken för fakturering.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Kärn funktionerCore features

I den här tabellen listas huvud funktionerna för text till tal:This table lists the core features for text-to-speech:

AnvändningsfallUse case SDKSDK RESTREST
Omvandla text till tal.Convert text to speech. JaYes JaYes
Ladda upp data uppsättningar för röst anpassning.Upload datasets for voice adaptation. NejNo Ja @ no__t-0Yes*
Skapa och hantera röst teckensnitts modeller.Create and manage voice font models. NejNo Ja @ no__t-0Yes*
Skapa och hantera röst teckensnitts distributioner.Create and manage voice font deployments. NejNo Ja @ no__t-0Yes*
Skapa och hantera röst teckensnitts test.Create and manage voice font tests. NejNo Ja @ no__t-0Yes*
Hantera prenumerationer.Manage subscriptions. NejNo Ja @ no__t-0Yes*

* These-tjänster är tillgängliga med hjälp av cris.ai-slutpunkten. Se referens för Swagger. De här API: erna för anpassad röst utbildning och hantering implementerar begränsning som begränsar begär anden till 25 per 5 sekunder, medan API för tal syntes implementerar sig själv begränsning som tillåter 200-begäranden per sekund som högsta. När begränsningen inträffar får du ett meddelande via meddelande rubriker.* These services are available using the cris.ai endpoint. See Swagger reference. These custom voice training and management APIs implement throttling that limits requests to 25 per 5 seconds, while the speech synthesis API itself implements throttling that allows 200 requests per second as the highest. When throttling occurs, you'll be notified via message headers.

Kom igång med text till talGet started with text to speech

Vi erbjuder snabb starter som har utformats för att du ska kunna köra kod på mindre än 10 minuter.We offer quickstarts designed to have you running code in less than 10 minutes. Den här tabellen innehåller en lista över text till tal-snabb starter ordnade efter språk.This table includes a list of text-to-speech quickstarts organized by language.

Snabb starter för SDKSDK quickstarts

Snabb start (SDK)Quickstart (SDK) PlattformPlatform API-referensAPI reference
C#, .NET CoreC#, .NET Core WindowsWindows MellanBrowse
C#, .NET FrameworkC#, .NET Framework WindowsWindows MellanBrowse
C#, UWPC#, UWP WindowsWindows MellanBrowse
C#, UnityC#, Unity Windows, AndroidWindows, Android MellanBrowse
C++C++ WindowsWindows MellanBrowse
C++C++ LinuxLinux MellanBrowse
JavaJava Windows, Linux, macOSWindows, Linux, macOS MellanBrowse
JavaJava AndroidAndroid MellanBrowse
Objective-CObjective-C macOSmacOS MellanBrowse
Objective-CObjective-C iOSiOS MellanBrowse
SwiftSwift macOSmacOS MellanBrowse
SwiftSwift iOSiOS MellanBrowse
PythonPython Window, Linux, macOSWindow, Linux, macOS MellanBrowse

REST-snabb starterREST quickstarts

Snabb start (REST)Quickstart (REST) PlattformPlatform API-referensAPI reference
C#, .NET CoreC#, .NET Core Windows, macOS, LinuxWindows, macOS, Linux MellanBrowse
Node.jsNode.js Window, macOS, LinuxWindow, macOS, Linux MellanBrowse
PythonPython Window, macOS, LinuxWindow, macOS, Linux MellanBrowse

ExempelkodSample code

Exempel kod för text till tal finns på GitHub.Sample code for text-to-speech is available on GitHub. De här exemplen tar upp text till tal-konvertering i de flesta populära programmeringsspråk.These samples cover text-to-speech conversion in most popular programming languages.

ReferensdokumentReference docs

Nästa stegNext steps