Vad är nytt i Azure AI Speech?

Artikel
04/22/2024

Azure AI Speech uppdateras kontinuerligt. För att hålla dig uppdaterad om den senaste utvecklingen får du information om nya versioner och funktioner i den här artikeln.

Senaste markeringar

Azure AI Speech-tjänsten stöder OpenAI-text till talröster. Mer information finns i Vad är OpenAI-text till talröster?.
Det anpassade röst-API:et är tillgängligt för att skapa och hantera professionella och personliga anpassade neurala röstmodeller.
Azure AI Speech stöder nu OpenAI:s Whisper-modell via batch-transkriptions-API:et. Mer information finns i guiden Skapa en batch-transkription .

Viktig information

Välj en tjänst eller resurs

Kommande planer för Linux- och Android-användare:

Varning

Den här artikeln refererar till CentOS, en Linux-distribution som närmar sig EOL-status (End Of Life). Överväg att använda och planera i enlighet med detta. Mer information finns i CentOS End Of Life-vägledningen.

Ubuntu 18.04 slog också slutet av livet tillbaka i april 2023, så våra användare bör förbereda för oss att flytta vår lägsta version upp till Ubuntu 20.04.

Speech SDK 1.37.0: 2024–april

Nya funktioner

Lägg till stöd för indatatextströmning i talsyntesen.
Ändra standardtalsyntesrösten till en-US-AvaMultilingualNeural.
Uppdatera Android-versioner för att använda OpenSSL 3.x.

Felkorrigeringar

Åtgärda enstaka JVM-krascher under SpeechRecognizer-bortskaffande när du använder MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Förbättra identifieringen av standardljudenheter i Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Exempel

Uppdaterad för nya funktioner.

Speech SDK 1.36.0: 2024–mars

Nya funktioner

Lägg till stöd för språkidentifiering i flerspråkig översättning på v2-slutpunkter med autodetectSourceLanguageConfig::FromOpenRange().

Felkorrigeringar

Åtgärda att en SynthesisCanceled-händelse inte utlöses om stopp anropas under en SynthesisStarted-händelse.
Åtgärda ett brusproblem i inbäddad talsyntes.
Åtgärda en krasch i inbäddad taligenkänning när du kör flera identifierare parallellt.
Åtgärda inställningen för frasidentifieringsläge på v1/v2-slutpunkter.
Åtgärdar olika problem med Microsoft Audio Stack.

Exempel

Uppdateringar för nya funktioner.

Speech SDK 1.35.0: Februari 2024

Nya funktioner

Ändra standardtexten till talröst från en-US-JennyMultilingualNeural till en-US-AvaNeural.
Stöd för information på ordnivå i inbäddade talöversättningsresultat med hjälp av det detaljerade utdataformatet.

Felkorrigeringar

Åtgärda API:et för AudioDataStream-positions getter i Python.
Åtgärda talöversättning med v2-slutpunkter utan språkidentifiering.
Åtgärda en slumpmässig krasch och duplicera ordgränshändelser i inbäddad text till tal.
Returnera en korrekt felkod för annullering för ett internt serverfel på WebSocket-anslutningar.
Åtgärda misslyckandet med att läsa in FPIEProcessor.dll-biblioteket när MAS används med C#.

Exempel

Mindre formateringsuppdateringar för inbäddade igenkänningsexempel.

Speech SDK 1.34.1: Januari 2024

Icke-bakåtkompatibla ändringar

Endast buggkorrigeringar

Nya funktioner

Endast buggkorrigeringar

Felkorrigeringar

Åtgärda regression som introducerades i 1.34.0 där url:en för tjänstslutpunkten skapades med felaktig språkinformation för användare i flera Kina-regioner.

Speech SDK 1.34.0: November 2023

Icke-bakåtkompatibla ändringar

SpeechRecognizer har uppdaterats för att använda en ny slutpunkt som standard (dvs. när du inte uttryckligen anger en URL) som inte längre stöder frågesträngsparametrar för de flesta egenskaper. Använd motsvarande API-funktioner i stället för att ställa in frågesträngsparametrar direkt med ServicePropertyChannel.UriQueryParameter.

Nya funktioner

Kompatibilitet med .NET 8 (Korrigering med undantag för https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 varning om centos7-x64)
Stöd för inbäddade talprestandamått som kan användas för att utvärdera en enhets förmåga att köra inbäddat tal.
Stöd för källspråkidentifiering i inbäddad flerspråkig översättning.
Stöd för inbäddad tal till text, text till tal och översättning för iOS och Swift/Objective-C som släppts i förhandsversion.
Inbäddad support tillhandahålls i MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Felkorrigeringar

Korrigering för iOS SDK x2 gånger binär storlek tillväxt · Problem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Korrigering för Det går inte att hämta tidsstämplar på ordnivå från azure speech till text-API · Problem #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Korrigering för DialogService Anslut eller destruktionsfasen för att koppla från händelser korrekt. Detta orsakade krascher ibland.
Korrigering för undantag när en identifierare skapas när MAS används.
FPIEProcessor.dll från Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-paketet för Windows UWP x64 och ARM64 var beroende av VC-körningsbibliotek för inbyggd C++. Problemet har åtgärdats genom att uppdatera beroendet till rätt VC-körningsbibliotek (för UWP).
Korrigering för [MAS] Återkommande anrop till recognizeOnceAsync leder till SPXERR_ALREADY_INITIALIZED vid användning av MAS · Ärende nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Korrigering för inbäddad taligenkänning kraschar när fraslistor används.

Exempel

Inbäddade iOS-exempel för tal till text, text till tal och översättning.

Speech CLI 1.34.0: November 2023

Nya funktioner

Stöd för ordgränshändelser vid syntetisera tal.

Felkorrigeringar

JMESPath-beroendet har uppdaterats till den senaste versionen, förbättrar strängutvärderingar

Speech SDK 1.33.0: Oktober 2023

Meddelande om icke-bakåtkompatibel ändring

Det nya NuGet-paketet som lagts till för Microsoft Audio Stack (MAS) måste nu inkluderas av program som använder MAS i sina paketkonfigurationsfiler.

Nya funktioner

Det nya NuGet-paketet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg har lagts till, vilket ger bättre ekoreduceringsprestanda när du använder Microsoft Audio Stack
Uttalsbedömning: stöd för prosody- och innehållsutvärdering har lagts till, vilket kan utvärdera det talade talet när det gäller prosodi, vokabulär, grammatik och ämne.

Felkorrigeringar

Ett resultat för nyckelordsigenkänning har korrigerats så att de matchar indataljudströmmen sedan början. Korrigeringen gäller både fristående nyckelordsigenkänning och nyckelordsutlöst taligenkänning.
Fixed Synthesizer stopSpeaking returnerar inte omedelbart SPXSpeechSynthesizer stopSpeaking()-metoden kan inte returneras omedelbart på iOS 17 – Problem #2081
Problem med import av Mac-katalysator på Swift-modulen Stöd för mac-katalysator med apple-kisel har åtgärdats. Problem #1948
JS: AudioWorkletNode-modulen läses in använder nu en betrodd URL, med återställning för CDN-webbläsare.
JS: Packade lib-filer riktar sig nu mot ES6 JS, med stöd för ES5 JS borttaget.
JS: mellanliggande händelser för översättningsscenario för v2-slutpunkt hanteras korrekt
JS: Språkegenskapen för TranslationRecognitionEventArgs har nu angetts för translation.hypoteshändelser.
Talsyntes: En synthesisCompleted-händelse kommer garanterat att genereras efter alla metadatahändelser, så den kan användas för att indikera händelseslutet. Hur identifierar jag när visemes tas emot helt? Problem #2093 Azure-Samples/cognitive-services-speech-sdk

Exempel

Exempel har lagts till för att demonstrera MULAW-strömning med Python)
Korrigering för NAudio-exempel med tal till text

Speech CLI 1.33.0: Oktober 2023

Nya funktioner

Stöd för ordgränshändelser vid syntetisera tal.

Felkorrigeringar

inget

Speech SDK 1.32.1: september 2023

Felkorrigeringar

Android-paketuppdateringar med de senaste säkerhetskorrigeringarna från OpenSSL1.1.1v
JS – Egenskapen WebWorkerLoadType har lagts till för att tillåta förbikoppling av data-URL-inläsning för timeout-arbetare
JS – Åtgärda frånkoppling av konversationsöversättning efter 10 minuter
JS – Autentiseringstoken för konversationsöversättning från konversation sprids nu till översättningstjänstens anslutning

Exempel

Konversationstranskription med Swift-API:er

Speech SDK 1.31.0: Augusti 2023

Nya funktioner

Stöd för realtidsdiarisering är tillgängligt i offentlig förhandsversion med Speech SDK 1.31.0. Den här funktionen är tillgänglig i följande SDK:er: C#, C++, Java, JavaScript, Python och Objective-C/Swift.
Synkroniserad talsyntes ordgräns och viseme-händelser med ljuduppspelning

Icke-bakåtkompatibla ändringar

Det tidigare scenariot "konversationstranskription" har bytt namn till "mötestranskription". Använd till exempel MeetingTranscriber i stället för ConversationTranscriberoch använd CreateMeetingAsync i stället för CreateConversationAsync. Även om namnen på SDK-objekt och -metoder har ändrats ändras inte själva funktionen. Använd mötestranskriptionsobjekt för transkription av möten med användarprofiler och röstsignaturer. Mer information finns i Mötestranskription . Objekten och metoderna för konversationsöversättning påverkas inte av dessa ändringar. Du kan fortfarande använda ConversationTranslator objektet och dess metoder för att uppfylla översättningsscenarier.

För diarisering i realtid introduceras ett nytt ConversationTranscriber objekt. Den nya objektmodellen "konversationstranskription" och anropsmönster liknar kontinuerlig igenkänning med SpeechRecognizer objektet. En viktig skillnad är att ConversationTranscriber objektet är utformat för att användas i ett konversationsscenario där du vill särskilja flera talare (diarisering). Användarprofiler och röstsignaturer är inte tillämpliga. Mer information finns i snabbstarten för diarisering i realtid.

Den här tabellen visar tidigare och nya objektnamn för diarisering i realtid och mötestranskription. Scenarionamnet finns i den första kolumnen, de tidigare objektnamnen finns i den andra kolumnen och de nya objektnamnen finns i den tredje kolumnen.

Scenarionamn	Tidigare objektnamn	Nya objektnamn
Diarisering i realtid	Ej tillämpligt	`ConversationTranscriber`
Mötestranskription	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Objekten Participant, ParticipantChangedReasonoch User gäller både för mötestranskription och mötesöversättningsscenarier.

² Objektet Meeting är nytt och används med objektet MeetingTranscriber .

Felkorrigeringar

Minsta version som stöds av macOS har åtgärdats https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Bugg för utvärdering av uttal har åtgärdats:
- Åtgärdat problem med fonetikpoäng, vilket säkerställer att de nu korrekt endast återspeglar det specifika felaktigt uttalade telefonnumret. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Löste ett problem där uttalsbedömningsfunktionen felaktigt identifierade helt korrekta uttal som felaktiga, särskilt i situationer där ord kunde ha flera giltiga uttal. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Exempel

Speech SDK 1.30.0: Juli 2023-versionen

Nya funktioner

C++, C#, Java – Stöd har lagts till för DisplayWords i Den inbäddade taligenkänningens detaljerade resultat.
Objective-C/Swift – Stöd har lagts till för ConnectionMessageReceived händelse i Objective-C/Swift.
Objective-C/Swift – Förbättrade nyckelords-spotting-modeller för iOS. Den här ändringen har ökat storleken på vissa paket, som innehåller iOS-binärfiler (till exempel NuGet, XCFramework). Vi arbetar för att minska storleken på framtida versioner.

Felkorrigeringar

En minnesläcka har åtgärdats vid användning av taligenkänning med PhraseListGrammar, enligt rapporter från en kund (GitHub-problem).
Ett dödläge har åtgärdats i API:et för talöppningsanslutning i text till tal.

Ytterligare kommentarer

Java – Vissa internt använda public Java API-metoder har ändrats till att paketera internal, protected eller private. Den här ändringen bör inte påverka utvecklare eftersom vi inte förväntar oss att program ska använda dem. Noteras här för transparens.

Exempel

Nya uttalsutvärderingsexempel på hur du anger ett inlärningsspråk i ditt eget program
- C#: Se exempelkod.
- C++: Se exempelkod.
- JavaScript: Se exempelkod.
- Objective-C: Se exempelkod.
- Python: Se exempelkod.
- Swift: Se exempelkod.

Speech SDK 1.29.0: Juni 2023

Nya funktioner

C++, C#, Java – förhandsversion av API:er för inbäddad talöversättning. Nu kan du göra talöversättning utan molnanslutning!
JavaScript – Kontinuerlig språkidentifiering (LID) har nu aktiverats för talöversättning.
JavaScript – Community-bidrag för att lägga till LocaleName egenskapen i VoiceInfo klassen. Tack GitHub-användaren shivsarthak för pull-begäran.
C++, C#, Java – Stöd för omsampling av inbäddad text till talutdata från 16 kHz till 48 kHz har lagts till.
Stöd har lagts till för hi-IN språkvariant i Intent Recognizer med enkel mönstermatchning.

Felkorrigeringar

Åtgärdade en krasch orsakad av ett konkurrenstillstånd i Speech Recognizer under objektförstörelse, vilket visas i några av våra Android-tester
Åtgärdade möjliga dödlägen i Intent Recognizer med Simple Pattern Matcher

Exempel

Nya exempel på inbäddad talöversättning

Speech SDK 1.28.0: maj 2023

Icke-bakåtkompatibel ändring

JavaScript SDK: OCSP (Online Certificate Status Protocol) har tagits bort. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.28 och senare innehåller inte längre vår anpassade OCSP-modul.

Nya funktioner

Inbäddad taligenkänning returneras NoMatchReason::EndSilenceTimeout nu när en tidsgräns för tystnad inträffar i slutet av ett yttrande. Detta matchar beteendet när du gör igenkänning med hjälp av taltjänsten i realtid.
JavaScript SDK: Ange egenskaper för SpeechTranslationConfig användning av PropertyId uppräkningsvärden.

Felkorrigeringar

C# på Windows – Åtgärda potentiellt konkurrenstillstånd/dödläge i Windows-ljudtillägget. I scenarier som både tar bort ljudåtergivningen snabbt och även använder Synthesizer-metoden för att sluta tala, återställdes inte den underliggande händelsen av stopp och kan orsaka att återgivningsobjektet aldrig tas bort, samtidigt som det kan hålla ett globalt lås för bortskaffande och frysa dotnet GC-tråden.

Exempel

Lade till ett inbäddat talexempel för MAUI.
Det inbäddade talexemplet för Android Java har uppdaterats så att det innehåller text till tal.

Speech SDK 1.27.0: April 2023

Meddelande om kommande ändringar

Vi planerar att ta bort OCSP (Online Certificate Status Protocol) i nästa JavaScript SDK-version. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.27 är den senaste versionen som innehåller vår anpassade OCSP-modul.

Nya funktioner

JavaScript – Stöd har lagts till för mikrofoninmatning från webbläsaren med talaridentifiering och verifiering.
Inbäddad taligenkänning – Uppdateringsstöd för PropertyId::Speech_SegmentationSilenceTimeoutMs inställning.

Felkorrigeringar

Allmänt – Tillförlitlighetsuppdateringar i tjänståteranslutningslogik (alla programmeringsspråk utom JavaScript).
Allmänt – Åtgärda strängkonverteringar som läcker minne i Windows (alla relevanta programmeringsspråk utom JavaScript).
Inbäddad taligenkänning – Åtgärda krasch i fransk taligenkänning när vissa poster i grammatiklistan används.
Källkodsdokumentation – Kommentarer om korrigeringar av SDK-referensdokumentation som rör ljudloggning på tjänsten.
Avsiktsigenkänning – Åtgärda mönstermatchningsprioriteringar relaterade till listentiteter.

Exempel

Hantera autentiseringsfel korrekt i C#-exempel på konversationstranskription (CTS).
Lade till exempel på utvärdering av uttal för direktuppspelning för Python, JavaScript, Objective-C och Swift.

Speech SDK 1.26.0: version mars 2023

Icke-bakåtkompatibla ändringar

Bitcode har inaktiverats i alla iOS-mål i följande paket: Cocoapod med xcframework, NuGet (för Xamarin och MAUI) och Unity. Ändringen beror på Apples utfasning av bitkodsstöd från Xcode 14 och senare. Den här ändringen innebär också att om du använder Xcode 13-versionen eller om du uttryckligen har aktiverat bitkoden i ditt program med hjälp av Speech SDK kan det uppstå ett fel som säger "ramverket innehåller inte bitkod och du måste återskapa det". Lös problemet genom att kontrollera att dina mål har bitkod inaktiverats.
Det lägsta iOS-distributionsmålet har uppgraderats till 11.0 i den här versionen, vilket innebär att armv7 HW inte längre stöds.

Nya funktioner

Inbäddad taligenkänning (på enheten) stöder nu både 8- och 16 kHz samplingsfrekvens för indataljud (16 bitar per exempel, mono PCM).
Speech Synthesis rapporterar nu anslutnings-, nätverks- och tjänstfördröjningar i resultatet för att hjälpa optimering av svarstid från slutpunkt till slutpunkt.
Nya regler för bindningsbrott för avsiktsigenkänning med enkel mönstermatchning. Ju fler teckenbyte som matchas, vinner över mönstermatchningar med lägre antal teckenbyte. Exempel: Mönstret "Välj {something} längst upp till höger" vinner över "Välj {something}"

Felkorrigeringar

Talsyntes: Åtgärda en bugg där emojin inte är korrekt i ordgränshändelser.
Avsiktsigenkänning med CONVERSATIONAL Language Understanding (CLU):
- Avsikter från CLU Orchestrator-arbetsflödet visas nu korrekt.
- JSON-resultatet är nu tillgängligt via egenskaps-ID:t LanguageUnderstandingServiceResponse_JsonResult.
Taligenkänning med nyckelordsaktivering: Korrigering för saknade ~150 ms ljud efter en nyckelordsigenkänning.
Korrigering för Speech SDK NuGet iOS MAUI Release build, rapporterad av kunden (GitHub-problem)

Exempel

Korrigering för Swift iOS-exempel, rapporterat av kunden (GitHub-problem)

Speech SDK 1.25.0: Januari 2023

Icke-bakåtkompatibla ändringar

API:er för språkidentifiering (förhandsversion) har förenklats. Om du uppdaterar till Speech SDK 1.25 och ser en versionspaus går du till sidan Språkidentifiering för att lära dig mer om den nya egenskapen SpeechServiceConnection_LanguageIdMode. Den här enskilda egenskapen ersätter de två föregående SpeechServiceConnection_SingleLanguageIdPriority och SpeechServiceConnection_ContinuousLanguageIdPriority. Det är inte längre nödvändigt att prioritera mellan låg svarstid och hög noggrannhet efter de senaste modellförbättringarna. Nu behöver du bara välja om du vill köra i början eller kontinuerlig språkidentifiering när du utför kontinuerlig taligenkänning eller översättning.

Nya funktioner

C#/C++/Java: Embedded Speech SDK släpps nu under gated public preview. Se dokumentationen om Inbäddat tal (förhandsversion). Nu kan du göra tal till text och text till tal på enheten när molnanslutningen är tillfällig eller otillgänglig. Stöds på Android-, Linux-, macOS- och Windows-plattformar
C# MAUI: Stöd har lagts till för iOS- och Mac Catalyst-mål i Speech SDK NuGet (kundproblem)
Unity: Android x86_64-arkitektur har lagts till i Unity-paketet (kundproblem)
Gå:
- Direktuppspelningsstöd för ALAW/MULAW har lagts till för taligenkänning (kundproblem)
- Stöd har lagts till för PhraseListGrammar. Tack GitHub-användaren czkoko för communityns bidrag!
C#/C++: Intent Recognizer stöder nu modeller för konversationsspråkstolkning i C++ och C# med orkestrering i Microsoft-tjänsten

Felkorrigeringar

Åtgärda en tillfällig låsning i KeywordRecognizer när du försöker stoppa den
Python:
- Korrigering för att hämta uttalsutvärderingsresultat när PronunciationAssessmentGranularity.FullText har angetts (kundproblem)
- Korrigering för könsegenskap för manliga röster som inte hämtas, när talsyntesröster hämtas
JavaScript
- Korrigering för parsning av vissa WAV-filer som har registrerats på iOS-enheter (kundproblem)
- JS SDK bygger nu utan att använda npm-force-resolutions (kundproblem)
- Konversationsöversättaren ställer nu in tjänstslutpunkten korrekt när du använder en speechConfig-instans som skapats med SpeechConfig.fromEndpoint()

Exempel

Exempel som visar hur du använder Inbäddat tal har lagts till
Tal i textexempel har lagts till för MAUI

Se Lagringsplatsen för Speech SDK-exempel.

Speech SDK 1.24.2: November 2022-version

Nya funktioner

Inga nya funktioner, bara en inbäddad motorkorrigering för att stödja nya modellfiler.

Felkorrigeringar

Alla programmeringsspråk
- Ett problem med kryptering av inbäddade taligenkänningsmodeller har åtgärdats.

Speech SDK 1.24.1: November 2022-version

Nya funktioner

Publicerade paket för förhandsversionen av Embedded Speech. Mer information finns i https://aka.ms/embedded-speech.

Felkorrigeringar

Alla programmeringsspråk
- Åtgärda inbäddad TTS-krasch när röstteckensnitt inte stöds
- Korrigering av stopSpeaking() kan inte stoppa uppspelning på Linux (#1686)
JavaScript SDK
- Fast regression i hur konversation transkribering gated ljud.
Java
- Tillfälligt publicerade uppdaterade POM- och Javadocs-filer till Maven Central för att göra det möjligt för docs-pipelinen att uppdatera onlinereferensdokument.
Python
- Åtgärda regression där Python speak_text(ssml) returnerar void.

Speech SDK 1.24.0: oktober 2022

Nya funktioner

Alla programmeringsspråk: AMR-WB (16khz) har lagts till i listan över text-till-tal-ljudutdataformat som stöds
Python: Paketet har lagts till för Linux ARM64 för Linux-distributioner som stöds.
C#/C++/Java/Python: Stöd har lagts till för direktuppspelning av ALAW och MULAW till taltjänsten (förutom befintlig PCM-ström) med hjälp av AudioStreamWaveFormat.
C# MAUI: NuGet-paketet har uppdaterats för att stödja Android-mål för .NET MAUI-utvecklare (kundproblem)
Mac: Lade till separat XCframework för Mac, som inte innehåller några iOS-binärfiler. Detta erbjuder ett alternativ för utvecklare som bara behöver Mac-binärfiler med ett mindre XCframework-paket.
Microsoft Audio Stack (MAS):
- När strålformningsvinklar anges ignoreras ljud som kommer utanför angivet intervall bättre.
- Ungefär 70 % minskning av libMicrosoft.CognitiveServices.Speech.extension.mas.so storleken på för Linux ARM32 och Linux ARM64.
Avsiktsigenkänning med mönstermatchning:
- Lägga till ortografistöd för språken fr, de, es, jp
- Fördefinierade heltalsstöd har lagts till för språket es.

Felkorrigeringar

iOS: Åtgärda talsyntesfel på iOS 16 som orsakas av komprimerat ljud avkodningsfel (kundproblem).
JavaScript:
- Åtgärda att autentiseringstoken inte fungerar när röstlistan för talsyntes hämtas (kundproblem).
- Använd data-URL för arbetsinläsning (kundproblem).
- Skapa endast en ljudprocessorarbetslet när AudioWorklet stöds i webbläsaren (kundproblem). Detta var ett samhällsbidrag av William Wong. Tack William!
- Åtgärda igenkända motringningar när LUIS-svaret connectionMessage är tomt (kundproblem).
- Ange tidsgränsen för talsegmentering korrekt.
Avsiktsigenkänning med mönstermatchning:
- Icke-json-tecken i modeller läses nu in korrekt.
- Åtgärda hängande problem när recognizeOnceAsync(text) anropades under kontinuerlig igenkänning.

Speech SDK 1.23.0: Juli 2022-versionen

Nya funktioner

C#, C++, Java: Stöd har lagts till för språk zh-cn och zh-hk i Avsiktsigenkänning med mönstermatchning.
C#: Stöd för AnyCPU .NET Framework-versioner har lagts till

Felkorrigeringar

Android: Åtgärdat OpenSSL-sårbarhets-CVE-2022-2068 genom att uppdatera OpenSSL till 1.1.1q
Python: Åtgärda krasch när du använder PushAudioInputStream
iOS: Åtgärda "EXC_BAD_ACCESS: Försökte avreferera nullpekaren" enligt rapporten om iOS (GitHub-problem)

Speech SDK 1.22.0: Juni 2022

Nya funktioner

Java: IntentRecognitionResult API för getEntities(), applyLanguageModels() och recognizeOnceAsync(text) har lagts till för att stödja motorn "enkel mönstermatchning".
Unity: Stöd har lagts till för Mac M1 (Apple Silicon) för Unity-paket (GitHub-problem)
C#: Stöd för x86_64 för Xamarin Android (GitHub-problem) har lagts till
C#: .NET Framework lägsta version uppdaterad till v4.6.2 för SDK C#-paketet eftersom v4.6.1 har dragits tillbaka (se Microsoft .NET Framework Component Lifecycle Policy)
Linux: Stöd har lagts till för Debian 11 och Ubuntu 22.04 LTS. Ubuntu 22.04 LTS kräver manuell installation av libssl1.1 antingen som ett binärt paket härifrån (till exempel libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb eller senare för x64) eller genom kompilering från källor.

Felkorrigeringar

UWP: OpenSSL-beroendet har tagits bort från UWP-bibliotek och ersatts med WinRT-websocket- och HTTP-API:er för att uppfylla säkerhetsefterlevnad och mindre binärt fotavtryck.
Mac: Problemet "MicrosoftCognitiveServicesSpeech Module Not Found" har åtgärdats vid användning av Swift-projekt som riktar sig till macOS-plattformen
Windows, Mac: Åtgärdat ett plattformsspecifikt problem där ljudkällor som konfigurerats via egenskaper för att strömma i realtid ibland hamnade efter och så småningom överskred kapaciteten

Exempel (GitHub)

C#: .NET Framework-exempel har uppdaterats för användning av v4.6.2
Unity: Virtuell assistentexempel har åtgärdats för Android och UWP
Unity: Unity-exempel uppdaterade för Unity 2020 LTS-version

Speech SDK 1.21.0: April 2022-version

Nya funktioner

Java & JavaScript: Stöd för kontinuerlig språkidentifiering har lagts till när du använder SpeechRecognizer-objektet
JavaScript: Api:er för diagnostik har lagts till för att aktivera loggningsnivå för konsolen och filloggning (endast nod) för att hjälpa Microsoft att felsöka kundrapporterade problem
Python: Stöd för konversationstranskription har lagts till
Go: Stöd för talarigenkänning har lagts till
C++ & C#: Stöd har lagts till för en obligatorisk grupp ord i avsiktsigenkänningen (enkel mönstermatchning). Till exempel: "(set|start|begin) a timer" där antingen "set", "start" eller "begin" måste finnas för att avsikten ska kunna identifieras.
Alla programmeringsspråk, Speech Synthesis: Egenskapen duration har lagts till i ordgränshändelser. Stöd har lagts till för skiljeteckengräns och meningsgräns
Objective-C/Swift/Java: Lade till resultat på ordnivå i resultatobjektet Uttalsbedömning (liknar C#). Programmet behöver inte längre parsa en JSON-resultatsträng för att få information på ordnivå (GitHub-problem)
iOS-plattform: Lade till experimentellt stöd för ARMv7-arkitektur

Felkorrigeringar

iOS-plattform: Korrigering för att tillåta att målet "Alla iOS-enheter" skapas när du använder CocoaPod (GitHub-problem)
Android-plattform: OpenSSL-versionen har uppdaterats till 1.1.1n för att åtgärda säkerhetsrisker CVE-2022-0778
JavaScript: Åtgärda problem där wav-huvudet inte uppdaterades med filstorlek (GitHub-problem)
JavaScript: Åtgärda problem med att felöversättningsscenarier för begärande-ID desynkroniseras (GitHub-problem)
JavaScript: Åtgärda problem när du instansierar SpeakerAudioDestination utan ström (GitHub-problem]
C++: Åtgärda C++-huvuden för att ta bort en varning vid kompilering för C++17 eller senare

Exempel på GitHub

Nya Java-exempel för taligenkänning med språkidentifiering
Nya Python - och Java-exempel för konversationstranskription
Nytt Go-exempel för talarigenkänning
Nytt C++ och C#- verktyg för Windows som räknar upp alla enheter för ljudinspelning och återgivning för att hitta deras enhets-ID. Det här ID:t krävs av Speech SDK om du planerar att spela in ljud från eller återge ljud till en icke-standardenhet.

Speech SDK 1.20.0: Januari 2022

Nya funktioner

Objective-C, Swift och Python: Stöd har lagts till för DialogService Anslut or, som används för röstassistentscenarier.
Python: Stöd för Python 3.10 har lagts till. Stöd för Python 3.6 har tagits bort per Pythons livslängd för 3,6.
Unity: Speech SDK stöds nu för Unity-program i Linux.
C++, C#: IntentRecognizer med mönstermatchning stöds nu i C#. Dessutom stöds scenarier med anpassade entiteter, valfria grupper och entitetsroller i C++ och C#.
C++, C#: Förbättrad spårningsloggning för diagnostik med hjälp av de nya klasserna FileLogger, MemoryLogger och EventLogger. SDK-loggar är ett viktigt verktyg för Microsoft för att diagnostisera kundrapporterade problem. Dessa nya klasser gör det enklare för kunder att integrera Speech SDK-loggar i sitt eget loggningssystem.
Alla programmeringsspråk: PronunciationAssessmentConfig har nu egenskaper för att ange önskat fonem-alfabet (IPA eller SAPI) och N-Best Telefon me Count (undvika behovet av att skapa en konfigurations-JSON enligt GitHub-problem 1284). Utdata på stavelsenivå stöds nu också.
Android, iOS och macOS (alla programmeringsspråk): GStreamer behövs inte längre för att stödja nätverk med begränsad bandbredd. SpeechSynthesizer använder nu operativsystemets ljudavkodningsfunktioner för att avkoda komprimerat ljud som strömmas från text till taltjänst.
Alla programmeringsspråk: SpeechSynthesizer har nu stöd för tre nya Opus-format för råutdata (utan container), som ofta används i scenarier med liveuppspelning.
JavaScript: Api:et getVoicesAsync() har lagts till i SpeechSynthesizer för att hämta listan över syntesröster som stöds (GitHub-nummer 1350)
JavaScript: Api:et getWaveFormat() har lagts till i AudioStreamFormat för att stödja icke-PCM-vågformat (GitHub-problem 452)
JavaScript: Volym getter/setter och mute()/unmute() API:er har lagts till i SpeakerAudioDestination (GitHub-nummer 463)

Felkorrigeringar

C++, C#, Java, JavaScript, Objective-C och Swift: Åtgärda för att ta bort en 10-sekunders fördröjning när du stoppar en taligenkänning som använder en PushAudioInputStream. Detta gäller för de fall då inget nytt ljud skickas in efter att StopContinuousRecognition anropats (GitHub-problem 1318, 331)
Unity på Android och UWP: Unity-metafiler har åtgärdats för UWP, Android ARM64 och Windows-undersystem för Android (WSA) ARM64 (GitHub-problem 1360)
iOS: Kompilera ditt Speech SDK-program på valfri iOS-enhet när du använder CocoaPods är nu åtgärdat (GitHub-problem 1320)
iOS: När SpeechSynthesizer har konfigurerats för att mata ut ljud direkt till en högtalare stoppades uppspelningen i början under sällsynta förhållanden. Det här har åtgärdats.
JavaScript: Använd tillbakafall för skriptprocessor för mikrofonindata om ingen ljudarbetspunkt hittas (GitHub-problem 455)
JavaScript: Lägg till protokoll till agenten för att åtgärda buggar som hittats med Sentry-integrering (GitHub-problem 465)

Exempel på GitHub

C++-, C#-, Python- och Java-exempel som visar hur du får detaljerade igenkänningsresultat. Informationen omfattar alternativa igenkänningsresultat, konfidenspoäng, lexikalt formulär, Normaliserat formulär, Maskerat normaliserat formulär, med tidsinställning på ordnivå för var och en.
iOS-exempel har lagts till med AVFoundation som extern ljudkälla.
Java-exempel har lagts till för att visa hur du hämtar SRT-format (SubRip Text) med hjälp av WordBoundary-händelsen.
Android-exempel för uttalsutvärdering.
C++, C# som visar användningen av de nya diagnostikloggningsklasserna.

Speech SDK 1.19.0: 2021-Nov-version

Höjdpunkter

Tjänsten för talarigenkänning är allmänt tillgänglig (GA) nu. Speech SDK-API:er är tillgängliga på C++, C#, Java och JavaScript. Med talarigenkänning kan du korrekt verifiera och identifiera talare med hjälp av deras unika röstegenskaper. Mer information om det här avsnittet finns i dokumentationen.
Vi har tagit bort stödet för Ubuntu 16.04 tillsammans med Azure DevOps och GitHub. Ubuntu 16.04 nådde slutet av livet redan i april 2021. Migrera dina Ubuntu 16.04-arbetsflöden till Ubuntu 18.04 eller senare.
OpenSSL-länkning i Linux-binärfiler har ändrats till dynamisk. Binär Linux-storlek har minskat med cirka 50 %.
Stöd för Mac M1 ARM-baserat kisel har lagts till.

Nya funktioner

C++/C#/Java: Nya API:er har lagts till för att aktivera stöd för ljudbearbetning för talinmatning med Microsoft Audio Stack. Dokumentation här.
C++: Nya API:er för avsiktsigenkänning för att underlätta mer avancerad mönstermatchning. Detta inkluderar entiteter för list- och fördefinierade heltal samt stöd för gruppering av avsikter och entiteter som modeller (dokumentation, uppdateringar och exempel är under utveckling och kommer att publiceras inom en snar framtid).
Mac: Stöd för ARM64-baserade (M1) kisel för CocoaPod-, Python-, Java- och NuGet-paket relaterade till GitHub-problem 1244.
iOS/Mac: iOS- och macOS-binärfiler paketeras nu i xcframework relaterade till GitHub-problem 919.
iOS/Mac: Stöd för Mac-katalysator som rör GitHub-problem 1171.
Linux: Nytt tjärpaket har lagts till för CentOS7 Om Speech SDK. Linux-.tar-paketet innehåller nu specifika bibliotek för RHEL/CentOS 7 i lib/centos7-x64. Speech SDK-bibliotek i lib/x64 gäller fortfarande för alla andra Linux x64-distributioner som stöds (inklusive RHEL/CentOS 8) och fungerar inte på RHEL/CentOS 7.
JavaScript: VoiceProfile & SpeakerRecognizer API:er har gjorts asynkrona/väntande.
JavaScript: Stöd har lagts till för azure-regioner för amerikanska myndigheter.
Windows: Stöd har lagts till för uppspelning på Universell Windows-plattform (UWP).

Felkorrigeringar

Android: OpenSSL-säkerhetsuppdatering (uppdaterad till version 1.1.1l) för Android-paket.
Python: Åtgärdat fel där det inte går att välja högtalarenhet i Python.
Kärna: Återanslut automatiskt när ett anslutningsförsök misslyckas.
iOS: Ljudkomprimering inaktiveras på iOS-paket på grund av instabilitet och problem med bitkodsgenerering när du använder GStreamer. Information finns tillgänglig via GitHub-problem 1209.

Exempel på GitHub

Mac/iOS: Uppdaterade exempel och snabbstarter för att använda xcframework-paketet.
.NET: Exempel har uppdaterats för att använda .NET Core 3.1-versionen.
JavaScript: Ett exempel har lagts till för röstassistenter.

Speech SDK 1.18.0: 2021–juli

Obs! Kom igång med Speech SDK här.

Sammanfattning av markeringar

Ubuntu 16.04 nådde slutet av livet i april 2021. Med Azure DevOps och GitHub släpper vi supporten för 16.04 i september 2021. Migrera ubuntu-16.04-arbetsflöden till ubuntu-18.04 eller senare innan dess.

Nya funktioner

C++: Enkel språkmönstermatchning med intent recognizer gör det nu enklare att implementera enkla scenarier för avsiktsigenkänning.
C++/C#/Java: Vi har lagt till ett nytt API i GetActivationPhrasesAsync() klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
- Viktigt: Funktionen talarigenkänning finns i förhandsversion. Alla röstprofiler som skapats i förhandsversionen upphör 90 dagar efter att funktionen Talarigenkänning har flyttats från förhandsversionen till Allmän tillgänglighet. Då slutar röstprofilerna för förhandsversionen att fungera.
Python: Stöd har lagts till för kontinuerlig språkidentifiering (LID) för befintliga SpeechRecognizer objekt och TranslationRecognizer objekt.
Python: Lade till ett nytt Python-objekt med namnet SourceLanguageRecognizer för att göra enstaka eller kontinuerlig LID (utan igenkänning eller översättning).
JavaScript: getActivationPhrasesAsync API har lagts till i klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
JavaScriptsVoiceProfileClientenrollProfileAsync API är nu asynkront. Se den här oberoende identifieringskoden, till exempel användning.

Förbättringar

Java: AutoCloseable-stöd har lagts till i många Java-objekt. Nu stöds try-with-resources-modellen för att frigöra resurser. Se det här exemplet som använder try-with-resources. Se även dokumentationsguiden för Oracle Java för instruktionen try-with-resources för att lära dig mer om det här mönstret.
Diskavtrycket har minskat avsevärt för många plattformar och arkitekturer. Exempel för Microsoft.CognitiveServices.Speech.core binärfilen: x64 Linux är 475 KB mindre (8,0 % minskning); ARM64 Windows UWP är 464 KB mindre (11,5 % minskning); x86 Windows är 343 KB mindre (17,5 % minskning); och x64 Windows är 451 KB mindre (19,4 % minskning).

Felkorrigeringar

Java: Åtgärdat syntesfel när syntestexten innehåller surrogattecken. Information här.
JavaScript: Ljudbearbetning i webbläsarens mikrofon används AudioWorkletNode nu i stället för inaktuell ScriptProcessorNode. Information här.
JavaScript: Håll konversationerna vid liv under långvariga scenarier för konversationsöversättning. Information här.
JavaScript: Åtgärdat problem med att identifieraren återansluter till en mediastream i kontinuerlig igenkänning. Information här.
JavaScript: Åtgärdat problem med att identifieraren återansluter till en pushStream i kontinuerlig igenkänning. Information här.
JavaScript: Korrigerad förskjutningsberäkning på ordnivå i detaljerade igenkänningsresultat. Information här.

Exempel

Java-snabbstartsexempel uppdaterade här.
JavaScript-talarigenkänningsexempel har uppdaterats för att visa ny användning av enrollProfileAsync(). Se exempel här.

Speech SDK 1.17.0: 2021-may release

Kommentar

Kom igång med Speech SDK här.

Sammanfattning av markeringar

Mindre fotavtryck – vi fortsätter att minska minnet och diskavtrycket för Speech SDK och dess komponenter.
Med ett nytt fristående API för språkidentifiering kan du känna igen vilket språk som talas.
Utveckla talaktiverade appar för mixad verklighet och spel med Unity på macOS.
Nu kan du använda Text till tal utöver taligenkänning från programmeringsspråket Go.
Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!

Nya funktioner

C++/C#: Ny fristående at-start och kontinuerlig språkidentifiering via API:et SourceLanguageRecognizer . Om du bara vill identifiera språk som talas i ljudinnehåll är detta API:et för att göra det. Mer information finns i C++ och C#.
C++/C#: Taligenkänning och översättningsigenkänning stöder nu både start- och kontinuerlig språkidentifiering så att du programmatiskt kan avgöra vilka språk som talas innan de transkriberas eller översätts. Se dokumentationen här för Taligenkänning och här för Talöversättning.
C#: Stöd för Unity-stöd för macOS (x64) har lagts till. Detta låser upp användningsfall för taligenkänning och talsyntes i mixad verklighet och spel!
Go: Vi har lagt till stöd för talsyntestext till tal till programmeringsspråket Go för att göra talsyntes tillgänglig i ännu fler användningsfall. Se vår snabbstart eller vår referensdokumentation.
C++/C#/Java/Python/Objective-C/Go: Talsyntesen stöder nu objektet connection . Detta hjälper dig att hantera och övervaka anslutningen till Speech-tjänsten och är särskilt användbart för att föransluta för att minska svarstiden. Se dokumentationen här.
C++/C#/Java/Python/Objective-C/Go: Nu exponerar vi svarstiden och underkörningstiden för SpeechSynthesisResult att hjälpa dig att övervaka och diagnostisera problem med svarstid för talsyntes. Mer information finns i C++, C#, Java, Python, Objective-C och Go.
C++/C#/Java/Python/Objective-C: Text till tal använder nu neurala röster som standard när du inte anger en röst som ska användas. Detta ger dig högre återgivningsutdata som standard, men ökar även standardpriset. Du kan ange någon av våra över 70 standardröster eller över 130 neurala röster för att ändra standardvärdet.
C++/C#/Java/Python/Objective-C/Go: Vi har lagt till en könsegenskap i röstinformationen för syntes för att göra det enklare att välja röster baserat på kön. Detta åtgärdar GitHub-problem #1055.
C++, C#, Java, JavaScript: Vi stöder retrieveEnrollmentResultAsyncnu , getAuthorizationPhrasesAsyncoch getAllProfilesAsync() i talarigenkänning för att underlätta användarhanteringen av alla röstprofiler för ett visst konto. Se dokumentationen för C++, C#, Java, JavaScript. Detta åtgärdar GitHub-problem #338.
JavaScript: Vi har lagt till ett nytt försök för anslutningsfel som gör dina JavaScript-baserade talprogram mer robusta.

Förbättringar

Linux- och Android Speech SDK-binärfiler har uppdaterats för att använda den senaste versionen av OpenSSL (1.1.1k)
Förbättringar av kodstorlek:
- Language Understanding är nu uppdelat i ett separat "lu"-bibliotek.
- Binär storlek för Windows x64-kärnor minskade med 14,4 %.
- Android ARM64 core binary size minskade med 13,7 %.
- andra komponenter minskade också i storlek.

Felkorrigeringar

Alla: GitHub-problem #842 för ServiceTimeout har åtgärdats. Nu kan du transkribera långa ljudfiler med hjälp av Speech SDK utan att anslutningen till tjänsten avslutas med det här felet. Vi rekommenderar dock fortfarande att du använder batch-transkription för långa filer.
C#: GitHub-problemet #947 har åtgärdats där inga talindata kunde lämna appen i ett felaktigt tillstånd.
Java: GitHub-problem #997 har åtgärdats där Speech SDK för Java 1.16 kraschar när du använder DialogService Anslut eller utan nätverksanslutning eller en ogiltig prenumerationsnyckel.
En krasch har åtgärdats när taligenkänningen plötsligt stoppades (till exempel genom att använda CTRL+C i konsolappen).
Java: En korrigering har lagts till för att ta bort temporära filer i Windows när du använder Speech SDK för Java.
Java: GitHub-problem #994 har åtgärdats där anrop DialogServiceConnector.stopListeningAsync kan resultera i ett fel.
Java: Ett kundproblem har åtgärdats i snabbstarten för den virtuella assistenten.
JavaScript: GitHub-problemet #366 har åtgärdats där ConversationTranslator ett felmeddelande om att "this.cancelSpeech inte är en funktion".
JavaScript: GitHub-problemet #298 har åtgärdats där exemplet "Get result as an in-memory stream" spelades upp högt.
JavaScript: GitHub-problem #350 har åtgärdats där anrop AudioConfig kan resultera i att "ReferenceError: MediaStream inte har definierats".
JavaScript: En UnhandledPromiseRejection-varning har åtgärdats i Node.js för långvariga sessioner.

Exempel

Dokumentationen om Unity-exempel för macOS har uppdaterats här.
Ett React Native-exempel för Azure AI Speech-igenkänningstjänsten är nu tillgängligt här.

Speech SDK 1.16.0: 2021–mars

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Nya funktioner

C++/C#/Java/Python: Flyttade till den senaste versionen av GStreamer (1.18.3) för att lägga till stöd för transkribering av medieformat i Windows, Linux och Android. Se dokumentationen här.
C++/C#/Java/Objective-C/Python: Stöd har lagts till för avkodning av komprimerat TTS/syntetiserat ljud till SDK. Om du ställer in utdataljudformatet på PCM och GStreamer är tillgängligt i systemet begär SDK automatiskt komprimerat ljud från tjänsten för att spara bandbredd och avkoda ljudet på klienten. Du kan ställa in SpeechServiceConnection_SynthEnableCompressedAudioTransmission på för att false inaktivera den här funktionen. Information om C++, C#, Java, Objective-C, Python.
JavaScript: Node.js användare kan nu använda API:etAudioConfig.fromWavFileInput. Detta åtgärdar GitHub-problem #252.
C++/C#/Java/Objective-C/Python: Metoden för TTS har lagts GetVoicesAsync() till för att returnera alla tillgängliga syntesröster. Information om C++, C#, Java, Objective-C och Python.
C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till VisemeReceived för TTS/talsyntes för att returnera synkron viseme-animering. Se dokumentationen här.
C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till BookmarkReached för TTS. Du kan ange bokmärken i indata-SSML och få ljudförskjutningar för varje bokmärke. Se dokumentationen här.
Java: Stöd för API:er för talarigenkänning har lagts till. Information här.
C++/C#/Java/JavaScript/Objective-C/Python: Lade till två nya utdataljudformat med WebM-container för TTS (Webm16Khz16BitMonoOpus och Webm24Khz16BitMonoOpus). Det här är bättre format för direktuppspelning av ljud med Opus codec. Information om C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Stöd har lagts till för att hämta röstprofilen för scenariot talarigenkänning. Information om C++, C#och Java.
C++/C#/Java/Objective-C/Python: Stöd har lagts till för separat delat bibliotek för ljudmikrofon och talarkontroll. På så sätt kan utvecklaren använda SDK:t i miljöer som inte har nödvändiga beroenden för ljudbibliotek.
Objective-C/Swift: Stöd har lagts till för modulramverk med paraplyrubrik. På så sätt kan utvecklaren importera Speech SDK som en modul i iOS/Mac Objective-C/Swift-appar. Detta åtgärdar GitHub-problem #452.
Python: Stöd för Python 3.9 har lagts till och stöd för Python 3.5 har tagits bort per Pythons livslängd för 3,5.

Kända problem

C++/C#/Java: DialogServiceConnector kan inte använda en CustomCommandsConfig för att komma åt ett program för anpassade kommandon och kommer i stället att stöta på ett anslutningsfel. Du kan kringgå detta genom att manuellt lägga till ditt program-ID i begäran med config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Det förväntade beteendet CustomCommandsConfig för återställs i nästa version.

Förbättringar

Som en del av vårt arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskfotavtryck är Android-binärfiler nu 3 till 5 % mindre.
Förbättrad noggrannhet, läsbarhet och se-även-avsnitt i vår C#-referensdokumentation här.

Felkorrigeringar

JavaScript: Stora WAV-filhuvuden parsas nu korrekt (ökar rubriksegmentet till 512 byte). Detta åtgärdar GitHub-problem #962.
JavaScript: Korrigerat problem med mikrofontidsinställning om mikrofonströmmen slutar att fungera innan igenkänningen stoppas, vilket åtgärdar ett problem med att taligenkänning inte fungerar i Firefox.
JavaScript: Vi hanterar nu initieringslöftet korrekt när webbläsaren tvingar mikrofonen av innan turnOn slutförs.
JavaScript: Vi ersatte URL-beroendet med url-parse. Detta åtgärdar GitHub-problem #264.
Android: Fasta återanrop fungerar inte när minifyEnabled är inställt på sant.
C++/C#/Java/Objective-C/Python: TCP_NODELAY är korrekt inställt på underliggande socket-I/O för TTS för att minska svarstiden.
C++/C#/Java/Python/Objective-C/Go: Åtgärdade en tillfällig krasch när identifieraren förstördes strax efter att en igenkänning påbörjats.
C++/C#/Java: En tillfällig krasch i förstörelsen av talarigenkänningen har åtgärdats.

Exempel

JavaScript: Webbläsarexempel kräver inte längre separat nedladdning av JavaScript-biblioteksfil.

Speech SDK 1.15.0: 2021–januari

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Sammanfattning av markeringar

Mindre minne och diskfotavtryck gör SDK:et mer effektivt.
Utdataformat med högre återgivning är tillgängliga för privat förhandsversion av anpassad neural röst.
Avsiktsigenkänning kan nu få mer avkastning än den främsta avsikten, vilket ger dig möjlighet att göra en separat utvärdering av kundens avsikt.
Röstassistenter och robotar är nu enklare att konfigurera, och du kan få det att sluta lyssna direkt och utöva större kontroll över hur det svarar på fel.
Förbättrad enhetsprestanda genom att göra komprimering valfritt.
Använd Speech SDK på Windows ARM/ARM64.
Förbättrad felsökning på låg nivå.
Uttalsbedömningsfunktionen är nu mer allmänt tillgänglig.
Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!

Förbättringar

Speech SDK är nu effektivare och enklare. Vi har påbörjat ett arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskavtryck. Som ett första steg gjorde vi betydande filstorleksminskningar i delade bibliotek på de flesta plattformar. Jämfört med 1.14-versionen:
- 64-bitars UWP-kompatibla Windows-bibliotek är cirka 30 % mindre.
- 32-bitars Windows-bibliotek ser ännu ingen storleksförbättring.
- Linux-bibliotek är 20–25 % mindre.
- Android-bibliotek är 3–5 % mindre.

Nya funktioner

Alla: Nya utdataformat på 48 KHz som är tillgängliga för den privata förhandsversionen av anpassad neural röst via TTS-talsyntes-API:et: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Alla: Anpassad röst är också enklare att använda. Stöd har lagts till för att ställa in anpassad röst via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Innan den här ändringen behövde anpassade röstanvändare ange slutpunkts-URL:en via FromEndpoint -metoden. Nu kan kunderna använda FromSubscription metoden precis som fördefinierade röster och sedan ange distributions-ID:t genom att ange EndpointId. Detta förenklar konfigurationen av anpassade röster.
C++/C#/Java/Objective-C/Python: Hämta mer än den främsta avsikten frånIntentRecognizer. Nu har den stöd för att konfigurera JSON-resultatet som innehåller alla avsikter och inte bara avsikten med högsta poäng via LanguageUnderstandingModel FromEndpoint metoden med hjälp av URI-parametern verbose=true . Detta åtgärdar GitHub-problem #880. Se uppdaterad dokumentation här.
C++/C#/Java: Gör så att röstassistenten eller roboten slutar lyssna direkt. DialogServiceConnector (C++, C#, Java) har nu en StopListeningAsync() metod att följa med ListenOnceAsync(). Detta stoppar omedelbart ljudinspelningen och väntar graciöst på ett resultat, vilket gör det perfekt för användning med knapptryckningsscenarier "stoppa nu".
C++/C#/Java/JavaScript: Få röstassistenten eller roboten att reagera bättre på underliggande systemfel. DialogServiceConnector (C++, C#, Java, JavaScript) har nu en ny TurnStatusReceived händelsehanterare. Dessa valfria händelser motsvarar varje ITurnContext lösning på roboten och rapporterar körningsfel när de inträffar, till exempel som ett resultat av ett ohanterat undantag, en timeout eller en nätverksminskning mellan Direct Line Speech och roboten. TurnStatusReceived gör det enklare att svara på feltillstånd. Om en robot till exempel tar för lång tid på en serverdelsdatabasfråga (till exempel om du letar upp en produkt), TurnStatusReceived kan klienten veta att den kan reprompt med "ledsen, jag fick inte riktigt det, kan du försöka igen" eller något liknande.
C++/C#: Använd Speech SDK på fler plattformar. NuGet-paketet för Speech SDK stöder nu inbyggda binärfiler för Windows ARM/ARM64 desktop (UWP stöds redan) för att göra Speech SDK mer användbart för fler datortyper.
Java: DialogServiceConnector har nu en setSpeechActivityTemplate() metod som oavsiktligt exkluderades från språket tidigare. Detta motsvarar att ange Conversation_Speech_Activity_Template egenskapen och begär att alla framtida Bot Framework-aktiviteter som kommer från Direct Line Speech-tjänsten sammanfogar det angivna innehållet i deras JSON-nyttolaster.
Java: Förbättrad felsökning på låg nivå. Klassen Connection har nu en MessageReceived händelse som liknar andra programmeringsspråk (C++, C#). Den här händelsen ger åtkomst på låg nivå till inkommande data från tjänsten och kan vara användbar för diagnostik och felsökning.
JavaScript: Enklare installation för röstassistenter och robotar via BotFrameworkConfig, som nu har fromHost() och fromEndpoint() fabriksmetoder som förenklar användningen av anpassade tjänstplatser jämfört med att ange egenskaper manuellt. Vi har också standardiserat valfri specifikation för botId att använda en robot som inte är standard i konfigurationsfabrikerna.
JavaScript: Förbättrad enhetsprestanda genom att lägga till strängkontrollegenskap för websocket-komprimering. Av prestandaskäl inaktiverade vi websocket-komprimering som standard. Detta kan återanvändas för scenarier med låg bandbredd. Mer information finns här. Detta åtgärdar GitHub-problem #242.
JavaScript: Stöd för lPronunciation Assessment har lagts till för att möjliggöra utvärdering av tal uttal. Se snabbstarten här.

Felkorrigeringar

Alla (utom JavaScript): Korrigerade en regression i version 1.14, där för mycket minne allokerades av identifieraren.
C++: Ett problem med skräpinsamling har åtgärdats med DialogServiceConnector, vilket åtgärdar GitHub-problemet #794.
C#: Åtgärdat ett problem med trådavstängning som gjorde att objekt blockerades i ungefär en sekund när de kasserades.
C++/C#/Java: Ett undantag som hindrar ett program från att ange token för talauktorisering eller aktivitetsmall mer än en gång på en DialogServiceConnector.
C++/C#/Java: En identifieringskrasch har åtgärdats på grund av ett konkurrenstillstånd i teardown.
JavaScript: DialogServiceConnector uppfyllde inte tidigare den valfria botId parametern som anges i BotFrameworkConfigfabrikerna. Detta gjorde det nödvändigt att ange botId frågesträngsparametern manuellt för att använda en robot som inte är standard. Buggen har korrigerats och botId värden som tillhandahålls till BotFrameworkConfig"s fabriker kommer att respekteras och användas, inklusive nya fromHost() och fromEndpoint() tillägg. Detta gäller även för parametern applicationId för CustomCommandsConfig.
JavaScript: GitHub-problem #881 har åtgärdats, vilket tillåter återanvändning av identifierarobjekt.
JavaScript: Ett problem där SKD skickades speech.config flera gånger i en TTS-session har åtgärdats och bandbredden slösats bort.
JavaScript: Förenklad felhantering vid mikrofonauktorisering, vilket gör att mer beskrivande meddelande kan bubbla upp när användaren inte har tillåtit mikrofoninmatning i webbläsaren.
JavaScript: GitHub-problem #249 har åtgärdats där typfel i ConversationTranslator och ConversationTranscriber orsakade ett kompileringsfel för TypeScript-användare.
Objective-C: Åtgärdade ett problem där GStreamer-versionen misslyckades för iOS på Xcode 11.4 och åtgärdade GitHub-problem #911.
Python: GitHub-problemet #870 har åtgärdats, vilket tar bort "DeprecationWarning: the imp module is deprecated in favor of importlib".

Exempel

Exempel från fil för JavaScript-webbläsaren använder nu filer för taligenkänning. Detta åtgärdar GitHub-problem #884.

Speech SDK 1.14.0: 2020–oktober

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Nya funktioner

Linux: Stöd har lagts till för Debian 10 och Ubuntu 20.04 LTS.
Python/Objective-C: Stöd har lagts till för API:et KeywordRecognizer . Dokumentationen kommer att finnas här.
C++/Java/C#: Stöd har lagts till för att ange valfri HttpHeader nyckel/värde via ServicePropertyChannel::HttpHeader.
JavaScript: Stöd för API:et har lagts till ConversationTranscriber . Läs dokumentationen här.
C++/C#: Ny metod har lagts till AudioDataStream FromWavFileInput (för att läsa . WAV-filer) här (C++) och här (C#).
C++/C#/Java/Python/Objective-C/Swift: Lade till en stopSpeakingAsync() metod för att stoppa text till talsyntes. Läs referensdokumentationen här (C++), här (C#), här (Java), här (Python)och här (Objective-C/Swift).
C#, C++, Java: En funktion har lagts FromDialogServiceConnector() till i Connection klassen som kan användas för att övervaka anslutnings- och frånkopplingshändelser för DialogServiceConnector. Läs referensdokumentationen här (C#), här (C++), och här (Java).
C++/C#/Java/Python/Objective-C/Swift: Stöd för uttalsbedömning har lagts till, vilket utvärderar tal uttal och ger talare feedback om noggrannhet och flyt i talat ljud. Läs dokumentationen här.

Icke-bakåtkompatibel ändring

JavaScript: PullAudioOutputStream.read() har en returtypsändring från ett internt promise till ett internt JavaScript-löfte.

Felkorrigeringar

Alla: Fast 1,13-regression där SetServiceProperty värden med vissa specialtecken ignorerades.
C#: Windows-konsolexempel på Visual Studio 2019 kunde inte hitta interna DLL:er.
C#: En krasch med minneshantering har åtgärdats om dataström används som KeywordRecognizer indata.
ObjectiveC/Swift: En krasch med minneshantering har åtgärdats om dataström används som indata för identifierare.
Windows: Problem med samexistens med BT HFP/A2DP på UWP har åtgärdats.
JavaScript: Fast mappning av sessions-ID:er för att förbättra loggning och hjälp vid interna felsöknings-/tjänstkorrelationer.
JavaScript: Korrigering har lagts till för DialogServiceConnector att inaktivera ListenOnce anrop efter att det första anropet har gjorts.
JavaScript: Ett problem har åtgärdats där resultatutdata bara skulle vara "enkla".
JavaScript: Problem med kontinuerlig igenkänning har åtgärdats i Safari på macOS.
JavaScript: Processorbelastningsreducering för scenario med dataflöde med höga begäranden.
JavaScript: Tillåt åtkomst till information om röstprofilregistreringsresultat.
JavaScript: Korrigering har lagts till för kontinuerlig igenkänning i IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Korrigerade felaktig URL för australiaeast och brazilsouth i IntentRecognizer.
C++/C#: Har lagts till VoiceProfileType som ett argument när ett VoiceProfile objekt skapas.
C++/C#/Java/Python/Swift/ObjectiveC: Fast potential SPX_INVALID_ARG vid försök att läsa AudioDataStream från en viss position.
IOS: En krasch med taligenkänning på Unity har åtgärdats

Exempel

ObjectiveC: Exempel för nyckelordsigenkänning har lagts till här.
C#/JavaScript: Snabbstart för konversationstranskription har lagts till här (C#) och här (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Exempel för uttalsutvärdering har lagts till här
Xamarin: Uppdaterade snabbstarten till den senaste Visual Studio-mallen här.

Känt problem

DigiCert Global Root G2-certifikat stöds inte som standard i HoloLens 2 och Android 4.4 (KitKat) och måste läggas till i systemet för att Speech SDK ska fungera. Certifikatet läggs till i HoloLens 2 OS-avbildningar inom en snar framtid. Android 4.4-kunder måste lägga till det uppdaterade certifikatet i systemet.

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.13.0: 2020–juli

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned och installera den härifrån.

Nya funktioner

C#: Stöd för asynkron konversationstranskription har lagts till. Se dokumentationen här.
JavaScript: Stöd för talarigenkänning har lagts till för både webbläsare och Node.js.
JavaScript: Stöd för språkidentifiering/språk-ID har lagts till. Se dokumentationen här.
Objective-C: Stöd har lagts till för konversation och konversationstranskription med flera enheter.
Python: Stöd för komprimerat ljud har lagts till för Python i Windows och Linux. Se dokumentationen här.

Felkorrigeringar

Alla: Åtgärdat ett problem som gjorde att KeywordRecognizer inte gick vidare med strömmarna efter en igenkänning.
Alla: Ett problem som gjorde att dataströmmen från keywordRecognitionResult inte innehöll nyckelordet har åtgärdats.
Alla: Åtgärdat ett problem som SendMessageAsync inte riktigt skickar meddelandet via tråden när användarna har väntat på det.
Alla: En krasch i API:er för talarigenkänning har åtgärdats när användare anropar Metoden VoiceProfileClient::SpeakerRecEnrollProfileAsync flera gånger och väntade inte på att anropen skulle slutföras.
Alla: Aktivera filloggning i VoiceProfileClient- och SpeakerRecognizer-klasser har åtgärdats.
JavaScript: Ett problem med begränsningen har åtgärdats när webbläsaren minimeras.
JavaScript: Ett problem med en minnesläcka har åtgärdats i strömmar.
JavaScript: Cachelagring har lagts till för OCSP-svar från NodeJS.
Java: Ett problem som gjorde att BigInteger-fält alltid returnerades 0 har åtgärdats.
iOS: Ett problem med att publicera Speech SDK-baserade appar i iOS App Store har åtgärdats.

Exempel

C++: Exempelkoden för talarigenkänning har lagts till här.

COVID-19-förkortad testning

Speech SDK 1.12.1: 2020–juni

Nya funktioner

C#, C++: Förhandsversion av talarigenkänning: Den här funktionen möjliggör talaridentifiering (vem talar?) och talarverifiering (är talaren den som de påstår sig vara?). Börja med en översikt, läs grunderna för talarigenkänning eller API-referensdokumenten.

Felkorrigeringar

C#, C++: Fast mikrofoninspelning fungerade inte i 1.12 i talarigenkänning.
JavaScript: Korrigeringar för text till tal i Firefox och Safari på macOS och iOS.
Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationstranskription vid användning av åttakanalsström.
Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationsöversättning med flera enheter.

Exempel

C#: Kodexempel för talarigenkänning.
C++: Kodexempel för talarigenkänning.
Java: Kodexempel för avsiktsigenkänning på Android.

COVID-19-förkortad testning

Speech SDK 1.12.0: 2020-may release

Nya funktioner

Go: Nytt Go-språkstöd för taligenkänning och anpassad röstassistent. Konfigurera utvecklingsmiljön här. Exempelkod finns i avsnittet Exempel nedan.
JavaScript: Stöd för text till tal har lagts till i webbläsaren. Se dokumentationen här.
C++, C#, Java: Nya KeywordRecognizer objekt och API:er som stöds på Windows-, Android-, Linux- och iOS-plattformar. Läs dokumentationen här. Exempelkod finns i avsnittet Exempel nedan.
Java: Konversation med flera enheter har lagts till med översättningsstöd. Se referensdokumentet här.

Förbättringar och optimeringar

JavaScript: Optimerad implementering av webbläsarens mikrofon förbättrar taligenkänningens noggrannhet.
Java: Omstrukturerade bindningar med direkt JNI-implementering utan SWIG. Den här ändringen minskar med 10 x bindningsstorleken för alla Java-paket som används för Windows, Android, Linux och Mac och underlättar ytterligare utveckling av Speech SDK Java-implementeringen.
Linux: Uppdaterad supportdokumentation med de senaste RHEL 7-specifika anteckningarna.
Förbättrad anslutningslogik för att försöka ansluta flera gånger när tjänst- och nätverksfel inträffar.
Uppdaterade snabbstartssidan för portal.azure.com Speech för att hjälpa utvecklare att ta nästa steg i Azure AI Speech-resan.

Felkorrigeringar

C#, Java: Åtgärdat ett problem med att läsa in SDK-bibliotek i Linux ARM (både 32-bitars och 64-bitars).
C#: Fast explicit bortskaffande av interna referenser för TranslationRecognizer, IntentRecognizer och Anslut ion-objekt.
C#: Livslängdshantering för fast ljudinmatning för ConversationTranscriber-objekt.
Ett problem där IntentRecognizer resultatorsaken inte angavs korrekt vid identifiering av avsikter från enkla fraser har åtgärdats.
Ett problem där SpeechRecognitionEventArgs resultatförskjutningen inte har angetts korrekt har åtgärdats.
Ett konkurrenstillstånd där SDK försökte skicka ett nätverksmeddelande innan websocket-anslutningen öppnades har åtgärdats. Var reproducerbar för TranslationRecognizer när deltagarna lades till.
Åtgärdade minnesläckor i nyckelordsigenkänningsmotorn.

Exempel

Go: Snabbstarter för taligenkänning och anpassad röstassistent har lagts till. Hitta exempelkod här.
JavaScript: Snabbstarter för text till tal, översättning och avsiktsigenkänning har lagts till.
Exempel på nyckelordsigenkänning för C# och Java (Android).

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. Om vi har missat något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.11.0: 2020–mars

Nya funktioner

Linux: Stöd har lagts till för Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 med instruktioner om hur du konfigurerar systemet för Speech SDK.
Linux: Stöd har lagts till för .NET Core C# på Linux ARM32 och ARM64. Läs mer här.
C#, C++: Har lagts till UtteranceId i ConversationTranscriptionResult, ett konsekvent ID för alla mellanliggande och slutligt taligenkänningsresultat. Information om C#, C++.
Python: Stöd har lagts till för Language ID. Se speech_sample.py i GitHub-lagringsplatsen.
Windows: Stöd för komprimerat ljudinmatningsformat har lagts till på Windows-plattformen för alla win32-konsolprogram. Information här.
JavaScript: Stöd för talsyntes (text till tal) i NodeJS. Läs mer här.
JavaScript: Lägg till nya API:er för att aktivera kontroll av alla skicka och mottagna meddelanden. Läs mer här.

Felkorrigeringar

C#, C++: Ett problem har åtgärdats, så SendMessageAsync nu skickas binärt meddelande som binär typ. Information om C#, C++.
C#, C++: Ett problem har åtgärdats där en händelse Connection MessageReceived kan orsaka krasch om Recognizer den tas bort före Connection objektet. Information om C#, C++.
Android: Ljudbuffertstorleken från mikrofonen minskade från 800 ms till 100 ms för att förbättra svarstiden.
Android: Ett problem med x86 Android-emulatorn i Android Studio har åtgärdats.
JavaScript: Stöd har lagts till för regioner i Kina med API:et fromSubscription . Information här.
JavaScript: Lägg till mer felinformation för anslutningsfel från NodeJS.

Exempel

Unity: Det offentliga exemplet för avsiktsigenkänning har åtgärdats, där LUIS json-importen misslyckades. Information här.
Python: Exempel har lagts till för Language ID. Information här.

Covid19-förkortad testning: På grund av fjärrarbete under de senaste veckorna kunde vi inte utföra så mycket manuell enhetsverifieringstestning som normalt. Vi kunde till exempel inte testa mikrofonindata och högtalarutdata i Linux, iOS och macOS. Vi har inte gjort några ändringar som vi tror kan ha brutit något på dessa plattformar, och våra automatiserade tester har alla godkänts. I det osannolika fallet att vi missade något meddelar du oss på GitHub.
Tack för ditt fortsatta stöd. Som alltid kan du skicka frågor eller feedback på GitHub eller Stack Overflow.
Håll dig frisk!

Speech SDK 1.10.0: 2020–februari

Nya funktioner

Python-paket har lagts till för att stödja den nya 3.8-versionen av Python.
Stöd för Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Kommentar

Kunder måste konfigurera OpenSSL enligt dessa instruktioner.
Linux ARM32-stöd för Debian och Ubuntu.
DialogService Anslut or stöder nu en valfri "bot ID"-parameter på BotFrameworkConfig. Den här parametern tillåter användning av flera Direct Line Speech-robotar med en enda Speech-resurs. Utan den angivna parametern används standardroboten (enligt konfigurationssidan för Direct Line Speech-kanalen).
DialogService Anslut or har nu en SpeechActivityTemplate-egenskap. Innehållet i den här JSON-strängen används av Direct Line Speech för att fylla i en mängd olika fält som stöds i alla aktiviteter som når en Direct Line Speech-robot, inklusive aktiviteter som genereras automatiskt som svar på händelser som taligenkänning.
TTS använder nu prenumerationsnyckel för autentisering, vilket minskar den första bytefördröjningen för det första syntesresultatet när du har skapat en synthesizer.
Uppdaterade taligenkänningsmodeller för 19 språk för en genomsnittlig minskning av ordfelfrekvensen med 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nya modellerna medför betydande förbättringar i flera domäner, inklusive diktering, callcenter-transkription och videoindexeringsscenarier.

Felkorrigeringar

En bugg har åtgärdats där konversationstranskriberaren inte väntade korrekt i JAVA-API:er
Android x86-emulatorkorrigering för Xamarin GitHub-problem
Lägg till saknas (Get|Ange)Egenskapsmetoder till AudioConfig
Åtgärda en TTS-bugg där audioDataStream inte kunde stoppas när anslutningen misslyckas
Att använda en slutpunkt utan en region skulle orsaka USP-fel för konversationsöversättaren
ID-generering i Universella Windows-program använder nu en lämpligt unik GUID-algoritm. det tidigare och oavsiktligt försummade en stubbad implementering som ofta orsakade kollisioner över stora uppsättningar interaktioner.

Exempel

Unity-exempel för användning av Speech SDK med Unity-mikrofon och direktuppspelning i push-läge

Andra ändringar

Dokumentation om OpenSSL-konfiguration uppdaterad för Linux

Speech SDK 1.9.0: 2020–januari

Nya funktioner

Konversation med flera enheter: Anslut flera enheter till samma tal- eller textbaserade konversation och om du vill översätta meddelanden som skickas mellan dem. Läs mer i den här artikeln.
Stöd för nyckelordsigenkänning har lagts till för Android-paket .aar och stöd för x86- och x64-smaker har lagts till.
Objective-C: SendMessage och SetMessageProperty metoder som lagts till Connection i objektet. Se dokumentationen här.
TTS C++ api stöder std::wstring nu som syntestextindata, vilket tar bort behovet av att konvertera en wstring till sträng innan den skickas till SDK:n. Mer information finns här
C#: Språk-ID och källspråkkonfiguration är nu tillgängliga.
JavaScript: Lade till en funktion i Connection objektet för att skicka anpassade meddelanden från Speech-tjänsten som motringning receivedServiceMessage.
JavaScript: Stöd har lagts till för FromHost API att underlätta användningen med lokala containrar och nationella moln. Se dokumentationen här.
JavaScript: Vi hedrar NODE_TLS_REJECT_UNAUTHORIZED nu tack vare ett bidrag från orgads. Mer information finns här

Icke-bakåtkompatibla ändringar

OpenSSL har uppdaterats till version 1.1.1b och är statiskt länkad till Speech SDK-kärnbiblioteket för Linux. Detta kan orsaka avbrott om inkorgen OpenSSL inte har installerats i /usr/lib/ssl katalogen i systemet. Läs vår dokumentation under Speech SDK-dokument för att lösa problemet.
Vi har ändrat datatypen som returneras för C# WordLevelTimingResult.Offset från int till long för att tillåta åtkomst till WordLevelTimingResults när taldata är längre än 2 minuter.
PushAudioInputStream och PullAudioInputStream skicka nu wav-rubrikinformation till Speech-tjänsten baserat på AudioStreamFormat, som du kan ange när de skapades. Kunder måste nu använda det ljudinmatningsformat som stöds. Andra format får resultat av ooptimal igenkänning eller kan orsaka andra problem.

Felkorrigeringar

OpenSSL Se uppdateringen under Icke-bakåtkompatibla ändringar ovan. Vi har åtgärdat både en tillfällig krasch och ett prestandaproblem (låskonkurration under hög belastning) i Linux och Java.
Java: Förbättrade objektstängning i scenarier med hög samtidighet.
Omstrukturerade vårt NuGet-paket. Vi har tagit bort de tre kopiorna av Microsoft.CognitiveServices.Speech.core.dll och Microsoft.CognitiveServices.Speech.extension.kws.dll under lib-mappar, vilket gör NuGet-paketet mindre och snabbare att ladda ned, och vi har lagt till rubriker som behövs för att kompilera vissa C++-interna appar.
Snabbstartsexempel har åtgärdats här. Dessa avslutades utan att visa undantaget "mikrofon hittades inte" i Linux, macOS, Windows.
SDK-krasch med långa taligenkänningsresultat har åtgärdats på vissa kodsökvägar som det här exemplet.
SDK-distributionsfel har åtgärdats i Azure Web App-miljön för att åtgärda det här kundproblemet.
Ett TTS-fel har åtgärdats vid användning av flera <voice> taggar eller <audio> taggar för att åtgärda det här kundproblemet.
Ett TTS 401-fel har åtgärdats när SDK:t återställs från paus.
JavaScript: En cirkulär import av ljuddata har åtgärdats tack vare ett bidrag från euirim.
JavaScript: stöd har lagts till för att ange tjänstegenskaper, som lagts till i 1.7.
JavaScript: Åtgärdade ett problem där ett anslutningsfel kan leda till kontinuerliga, misslyckade websocket-återanslutningsförsök.

Exempel

Exempel på nyckelordsigenkänning har lagts till för Android här.
TTS-exempel har lagts till för serverscenariot här.
Snabbstarter för konversationer med flera enheter har lagts till för C# och C++ här.

Andra ändringar

Optimerad SDK-kärnbiblioteksstorlek på Android.
SDK i 1.9.0 och senare stöder både int och string typer i fältet version av röstsignatur för Conversation Transcriber.

Speech SDK 1.8.0: 2019–november

Nya funktioner

Lade till ett FromHost() API för att underlätta användningen med lokala containrar och nationella moln.
Källspråksidentifiering har lagts till för taligenkänning (i Java och C++)
Objekt har lagts SourceLanguageConfig till för taligenkänning som används för att ange förväntade källspråk (i Java och C++)
Stöd har lagts till KeywordRecognizer för Windows (UWP), Android och iOS via NuGet- och Unity-paketen
Java-API:et för fjärrkonversation har lagts till för att göra konversationstranskription i asynkrona batchar.

Icke-bakåtkompatibla ändringar

Funktioner för konversationstranskriberare som flyttas under namnområdet Microsoft.CognitiveServices.Speech.Transcription.
Delar av metoderna för konversationstranskribering flyttas till en ny Conversation klass.
Stöd för 32-bitars (ARMv7 och x86) iOS har tagits bort

Felkorrigeringar

Korrigering för krasch om lokal KeywordRecognizer används utan en giltig prenumerationsnyckel för Speech-tjänsten

Exempel

Xamarin-exempel för KeywordRecognizer
Unity-exempel för KeywordRecognizer
C++ och Java-exempel för automatisk källspråkidentifiering.

Speech SDK 1.7.0: 2019–september

Nya funktioner

Betastöd har lagts till för Xamarin på Universell Windows-plattform (UWP), Android och iOS
IOS-stöd har lagts till för Unity
Stöd för indata har lagts till Compressed för ALaw, Mulaw, FLAC, på Android, iOS och Linux
Har lagts till SendMessageAsync i Connection klassen för att skicka ett meddelande till tjänsten
Har lagts till SetMessageProperty i Connection klassen för att ange egenskapen för ett meddelande
TTS har lagt till bindningar för Java (JRE och Android), Python, Swift och Objective-C
TTS har lagt till uppspelningsstöd för macOS, iOS och Android.
Information om "ordgräns" har lagts till för TTS.

Felkorrigeringar

Problem med IL2CPP-build på Unity 2019 för Android har åtgärdats
Åtgärdat problem med felaktiga rubriker i wav-filindata som bearbetas felaktigt
Problem med att UUID:erna inte är unika i vissa anslutningsegenskaper har åtgärdats
Några varningar om nullabilitetsspecificerare i Swift-bindningar har åtgärdats (kan kräva små kodändringar)
Åtgärdade en bugg som gjorde att websocket-anslutningar stängdes felaktigt under nätverksbelastning
Åtgärdat ett problem på Android som ibland resulterar i duplicerade visnings-ID:t som används av DialogServiceConnector
Förbättringar av anslutningens stabilitet i interaktioner med flera svängar och rapportering av fel (via Canceled händelser) när de inträffar med DialogServiceConnector
DialogServiceConnector sessionsstarter tillhandahåller nu händelser korrekt, inklusive när du anropar ListenOnceAsync() under en aktiv StartKeywordRecognitionAsync()
Åtgärdat en krasch som är associerad med DialogServiceConnector aktiviteter som tas emot

Exempel

Snabbstart för Xamarin
Uppdaterad CPP-snabbstart med Linux ARM64-information
Uppdaterad Unity-snabbstart med iOS-information

Speech SDK 1.6.0: 2019–juni

Exempel

Snabbstartsexempel för Text till tal på UWP och Unity
Snabbstartsexempel för Swift i iOS
Unity-exempel för tal- och avsiktsigenkänning och översättning
Uppdaterade snabbstartsexempel för DialogServiceConnector

Förbättringar/ändringar

Dialognamnområde:
- SpeechBotConnector har bytt namn till DialogServiceConnector
- BotConfig har bytt namn till DialogServiceConfig
- BotConfig::FromChannelSecret() har mappats om till DialogServiceConfig::FromBotSecret()
- Alla befintliga Direct Line Speech-klienter fortsätter att stödjas efter namnbytet
Uppdatera TTS REST-adaptern för att stödja proxy, beständig anslutning
Förbättra felmeddelandet när en ogiltig region skickas
Swift/Objective-C:
- Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett NSError objekt för felhantering och en som skapar ett undantag. Den förra är exponerad för Swift. Den här ändringen kräver anpassningar av befintlig Swift-kod.
- Förbättrad händelsehantering

Felkorrigeringar

Korrigering för TTS: där SpeakTextAsync framtiden returnerades utan att vänta tills ljudet har slutfört renderingen
Korrigering för att konvertera strängar i C# för att aktivera fullständigt språkstöd
Korrigering för problem med .NET Core-appen för att läsa in kärnbibliotek med net461-målramverk i exempel
Korrigering för tillfälliga problem med att distribuera interna bibliotek till utdatamappen i exempel
Korrigering för att stänga web socket på ett tillförlitligt sätt
Korrigering för eventuell krasch när du öppnar en anslutning under hög belastning på Linux
Korrigering för saknade metadata i ramverkspaketet för macOS
Åtgärda problem med pip install --user i Windows

Speech SDK 1.5.1

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigeringar

Åtgärda FromSubscription när det används med konversationstranskription.
Åtgärda bugg i nyckelordsfläckar för röstassistenter.

Speech SDK 1.5.0: 2019-may release

Nya funktioner

KWS (Keyword Spotting) är nu tillgängligt för Windows och Linux. KWS-funktioner kan fungera med alla mikrofontyper, men det officiella KWS-stödet är för närvarande begränsat till mikrofonmatriserna som finns i Azure Kinect DK-maskinvaran eller Speech Devices SDK.
Funktioner för frastips är tillgängliga via SDK. Mer information finns här.
Funktionen för transkription av konversationer är tillgänglig via SDK:et.
Lägg till stöd för röstassistenter med hjälp av Direct Line Speech-kanalen.

Exempel

Exempel har lagts till för nya funktioner eller nya tjänster som stöds av SDK.

Förbättringar/ändringar

Olika egenskaper för identifierare har lagts till för att justera tjänstens beteende eller tjänstresultat (till exempel maskering av svordomar och andra).
Nu kan du konfigurera identifieraren via standardkonfigurationsegenskaperna, även om du har skapat identifieraren FromEndpoint.
Objective-C: OutputFormat egenskapen lades till i SPXSpeechConfiguration.
SDK stöder nu Debian 9 som en Linux-distribution.

Felkorrigeringar

Ett problem där talarresursen förstördes för tidigt i text till tal har åtgärdats.

Speech SDK 1.4.2

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Speech SDK 1.4.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

Förhindra att webbpaketet läser in https-proxy-agent.

Speech SDK 1.4.0: 2019–april

Nya funktioner

SDK stöder nu text till tal-tjänsten som en betaversion. Det stöds i Windows och Linux Desktop från C++ och C#. Mer information finns i översikten text till tal.
SDK stöder nu MP3- och Opus/OGG-ljudfiler som strömma indatafiler. Den här funktionen är endast tillgänglig i Linux från C++ och C# och är för närvarande i betaversion (mer information här).
Speech SDK för Java, .NET Core, C++ och Objective-C har fått stöd för macOS. Objective-C-stödet för macOS är för närvarande i betaversion.
iOS: Speech SDK för iOS (Objective-C) publiceras nu också som en CocoaPod.
JavaScript: Stöd för mikrofon som inte är standard som indataenhet.
JavaScript: Proxystöd för Node.js.

Exempel

Exempel för att använda Speech SDK med C++ och Objective-C på macOS har lagts till.
Exempel som visar användningen av text-till-tal-tjänsten har lagts till.

Förbättringar/ändringar

Python: Ytterligare egenskaper för igenkänningsresultat exponeras nu via egenskapen properties .
Om du vill ha ytterligare stöd för utveckling och felsökning kan du omdirigera SDK-loggning och diagnostikinformation till en loggfil (mer information här).
JavaScript: Förbättra prestanda för ljudbearbetning.

Felkorrigeringar

Mac/iOS: En bugg som ledde till lång väntan när en anslutning till Speech-tjänsten inte kunde upprättas har åtgärdats.
Python: Förbättra felhanteringen för argument i Python-motringningar.
JavaScript: Fel tillståndsrapportering för tal avslutades på RequestSession.

Speech SDK 1.3.1: uppdatering 2019–februari

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigering

En minnesläcka har åtgärdats vid användning av mikrofonindata. Dataströmbaserade indata eller filindata påverkas inte.

Speech SDK 1.3.0: 2019–februari

Nya funktioner

Speech SDK stöder val av indatamikrofon via AudioConfig klassen. På så sätt kan du strömma ljuddata till Speech-tjänsten från en mikrofon som inte är standard. Mer information finns i dokumentationen som beskriver valet av ljudinmatningsenhet. Den här funktionen är ännu inte tillgänglig från JavaScript.
Speech SDK stöder nu Unity i en betaversion. Ge feedback via avsnittet med problem i GitHub-exempellagringsplatsen. Den här versionen stöder Unity i Windows x86 och x64 (skrivbords- eller Universell Windows-plattform-program) och Android (ARM32/64, x86). Mer information finns i vår Unity-snabbstart.
Filen Microsoft.CognitiveServices.Speech.csharp.bindings.dll (som levererades i tidigare versioner) behövs inte längre. Funktionerna är nu integrerade i SDK:et.

Exempel

Följande nya innehåll är tillgängligt i vår exempellagringsplats:

Ytterligare exempel för AudioConfig.FromMicrophoneInput.
Ytterligare Python-exempel för avsiktsigenkänning och översättning.
Ytterligare exempel för att använda objektet Connection i iOS.
Ytterligare Java-exempel för översättning med ljudutdata.
Nytt exempel för användning av REST-API:et för Batch-transkription.

Förbättringar/ändringar

Python
- Förbättrad parameterverifiering och felmeddelanden i SpeechConfig.
- Lägg till stöd för objektet Connection .
- Stöd för 32-bitars Python (x86) i Windows.
- Speech SDK för Python är inte beta.
Ios
- SDK:n har nu skapats mot iOS SDK version 12.1.
- SDK stöder nu iOS-versionerna 9.2 och senare.
- Förbättra referensdokumentationen och åtgärda flera egenskapsnamn.
JavaScript
- Lägg till stöd för objektet Connection .
- Lägg till typdefinitionsfiler för paketerade JavaScript
- Inledande stöd och implementering för frastips.
- Returnera egenskapssamling med tjänst-JSON för igenkänning
Windows DLL:er innehåller nu en versionsresurs.
Om du skapar en identifierare FromEndpointkan du lägga till parametrar direkt till slutpunkts-URL:en. Med hjälp av FromEndpoint kan du inte konfigurera identifieraren via standardkonfigurationsegenskaperna.

Felkorrigeringar

Tomt proxyanvändarnamn och proxylösenord hanterades inte korrekt. Med den här versionen, om du anger proxyanvändarnamn och proxylösenord till en tom sträng, skickas de inte när du ansluter till proxyn.
SessionId som skapats av SDK:t var inte alltid slumpmässigt för vissa språk/miljöer. Slumpmässig generatorinitiering har lagts till för att åtgärda problemet.
Förbättra hanteringen av auktoriseringstoken. Om du vill använda en auktoriseringstoken anger du i SpeechConfig och lämnar prenumerationsnyckeln tom. Skapa sedan identifieraren som vanligt.
I vissa fall Connection släpptes inte objektet korrekt. Det här problemet har åtgärdats.
JavaScript-exemplet har åtgärdats för att stödja ljudutdata för översättningssyntes även i Safari.

Speech SDK 1.2.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

Utlös strömmens slut på turn.end, inte på speech.end.
Åtgärda bugg i ljudpumpen som inte schemalagt nästa sändning om den aktuella sändningen misslyckades.
Åtgärda kontinuerlig igenkänning med autentiseringstoken.
Felkorrigering för olika identifierare/slutpunkter.
Dokumentationsförbättringar.

Speech SDK 1.2.0: 2018–december

Nya funktioner

Python
- Betaversionen av Python-stöd (3.5 och senare) är tillgänglig med den här versionen. Mer information finns här](.. /.. /quickstart-python.md).
JavaScript
- Speech SDK för JavaScript har öppen källkod. Källkoden är tillgänglig på GitHub.
- Vi stöder nu Node.js, mer information finns här.
- Längdbegränsningen för ljudsessioner har tagits bort, återanslutning sker automatiskt under omslaget.
Connection Objekt
- RecognizerFrån kan du komma åt ett Connection objekt. Med det här objektet kan du uttryckligen initiera tjänstanslutningen och prenumerera på anslutnings- och frånkopplingshändelser. (Den här funktionen är ännu inte tillgänglig från JavaScript och Python.)
Stöd för Ubuntu 18.04.
Android
- ProGuard-stöd har aktiverats under APK-genereringen.

Förbättringar

Förbättringar i den interna trådanvändningen, vilket minskar antalet trådar, lås, mutexes.
Förbättrad felrapportering/information. I flera fall har felmeddelanden inte spridits hela vägen ut.
Uppdaterade utvecklingsberoenden i JavaScript för att använda aktuella moduler.

Felkorrigeringar

Minnesläckor har åtgärdats på grund av en typmatchningsfel i RecognizeAsync.
I vissa fall läckte undantag ut.
Åtgärda minnesläcka i översättningshändelseargument.
Ett låsningsproblem har åtgärdats vid återanslutning i långvariga sessioner.
Ett problem som kan leda till att slutresultatet för misslyckade översättningar saknas har åtgärdats.
C#: Om en async åtgärd inte väntades i huvudtråden var det möjligt att identifieraren kunde tas bort innan asynkroniseringsuppgiften slutfördes.
Java: Ett problem som resulterade i en krasch på den virtuella Java-datorn har åtgärdats.
Objective-C: Fast uppräkningsmappning; RecognizedIntent returnerades i stället för RecognizingIntent.
JavaScript: Ange standardutdataformatet till "enkelt" i SpeechConfig.
JavaScript: Ta bort inkonsekvens mellan egenskaper på konfigurationsobjektet i JavaScript och andra språk.

Exempel

Uppdaterade och fixade flera exempel (till exempel utdataröster för översättning osv.).
Lade till Node.js exempel på exempellagringsplatsen.

Speech SDK 1.1.0

Nya funktioner

Stöd för Android x86/x64.
Proxysupport: I SpeechConfig objektet kan du nu anropa en funktion för att ange proxyinformationen (värdnamn, port, användarnamn och lösenord). Den här funktionen är ännu inte tillgänglig i iOS.
Förbättrad felkod och meddelanden. Om en igenkänning returnerade ett fel har detta redan angett Reason (i avbruten händelse) eller CancellationDetails (i igenkänningsresultatet) till Error. Den avbrutna händelsen innehåller nu ytterligare två medlemmar och ErrorCodeErrorDetails. Om servern returnerade ytterligare felinformation med det rapporterade felet blir den nu tillgänglig i de nya medlemmarna.

Förbättringar

Ytterligare verifiering har lagts till i konfigurationen av identifieraren och ytterligare felmeddelande har lagts till.
Förbättrad hantering av långvarig tystnad mitt i en ljudfil.
NuGet-paket: För .NET Framework-projekt förhindrar det att du skapar med AnyCPU-konfiguration.

Felkorrigeringar

Flera undantag hittades i identifierare. Dessutom fångas undantag och konverteras till Canceled händelse.
Åtgärda en minnesläcka i egenskapshantering.
Ett fel har åtgärdats där en ljudindatafil kan krascha igenkänningen.
En bugg där händelser kunde tas emot efter en sessionsstopphändelse har åtgärdats.
Vissa tävlingsförhållanden i trådning har åtgärdats.
Ett iOS-kompatibilitetsproblem som kan leda till en krasch har åtgärdats.
Stabilitetsförbättringar för Stöd för Android-mikrofon.
En bugg där en identifierare i JavaScript skulle ignorera igenkänningsspråket har åtgärdats.
En bugg som förhindrade inställningen EndpointId (i vissa fall) i JavaScript har åtgärdats.
Parameterordningen ändrades i AddIntent i JavaScript och JavaScript-signaturen saknades AddIntent .

Exempel

C++ och C#-exempel har lagts till för användning av pull- och push-dataström på exempellagringsplatsen.

Speech SDK 1.0.1

Tillförlitlighetsförbättringar och felkorrigeringar:

Åtgärdat potentiellt allvarligt fel på grund av konkurrenstillstånd i disponerande identifierare
Ett potentiellt allvarligt fel har åtgärdats när oeterade egenskaper inträffar.
Ytterligare fel- och parameterkontroll har lagts till.
Objective-C: Åtgärdat möjligt allvarligt fel som orsakats av att namnet åsidosätts i NSString.
Objective-C: Justerad synlighet för API
JavaScript: Åtgärdat gällande händelser och deras nyttolaster.
Dokumentationsförbättringar.

I vår exempellagringsplats lades ett nytt exempel för JavaScript till.

Azure AI Speech SDK 1.0.0: 2018–september

Nya funktioner

Stöd för Objective-C på iOS. Kolla in vår Objective-C-snabbstart för iOS.
Stöd för JavaScript i webbläsaren. Kolla in vår JavaScript-snabbstart.

Icke-bakåtkompatibla ändringar

Med den här versionen introduceras ett antal icke-bakåtkompatibla ändringar. Mer information finns på den här sidan .

Azure AI Speech SDK 0.6.0: 2018–augusti

Nya funktioner

UWP-appar som skapats med Speech SDK kan nu skicka Windows App Certification Kit (WACK). Kolla in UWP-snabbstarten.
Stöd för .NET Standard 2.0 på Linux (Ubuntu 16.04 x64).
Experimentell: Stöd för Java 8 i Windows (64-bitars) och Linux (Ubuntu 16.04 x64). Läs snabbstarten för Java Runtime Environment.

Funktionsändring

Visa ytterligare information om felinformation om anslutningsfel.

Icke-bakåtkompatibla ändringar

I Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate kräver funktionen inte längre en sökvägsparameter. Nu identifieras sökvägen automatiskt på alla plattformar som stöds.
Get-accessor för egenskapen EndpointUrl i Java och C# har tagits bort.

Felkorrigeringar

I Java implementeras ljudsyntesresultatet på översättningsigenkänningen nu.
En bugg som kan orsaka inaktiva trådar och ett ökat antal öppna och oanvända socketar har åtgärdats.
Ett problem har åtgärdats, där en långvarig igenkänning kunde avslutas mitt i överföringen.
Ett konkurrenstillstånd har åtgärdats vid avstängning av igenkännare.

Azure AI Speech SDK 0.5.0: 2018–juli

Nya funktioner

Stöd för Android-plattform (API 23: Android 6.0 Marshmallow eller senare). Kolla in Android-snabbstarten.
Stöd för .NET Standard 2.0 i Windows. Kolla in .NET Core-snabbstarten.
Experimentell: Stöd för UWP i Windows (version 1709 eller senare).
- Kolla in UWP-snabbstarten.
- Observera att UWP-appar som skapats med Speech SDK ännu inte klarar Windows App Certification Kit (WACK).
Stöd för långvarig igenkänning med automatisk återanslutning.

Funktionella ändringar

StartContinuousRecognitionAsync() stöder långvarig igenkänning.
Igenkänningsresultatet innehåller fler fält. De förskjuts från ljudstarten och varaktigheten (båda i tick) för den identifierade texten och ytterligare värden som representerar igenkänningsstatus, InitialSilenceTimeout till exempel och InitialBabbleTimeout.
Support AuthorizationToken för att skapa fabriksinstanser.

Icke-bakåtkompatibla ändringar

Igenkänningshändelser: NoMatch händelsetypen sammanfogades till Error händelsen.
SpeechOutputFormat i C# har bytt namn till för OutputFormat att hålla sig i linje med C++.
Returtypen för vissa metoder i AudioInputStream gränssnittet ändrades något:
- I Java read returnerar long metoden nu i stället intför .
- I C# Read returnerar uint metoden nu i stället intför .
- I C++returnerar size_t metoderna och GetFormat nu i stället för int.Read
C++: Instanser av ljudindataströmmar kan nu endast skickas som en shared_ptr.

Felkorrigeringar

Korrigerade felaktiga returvärden i resultatet när RecognizeAsync() tidsgränsen överskrids.
Beroendet av media foundation-bibliotek i Windows har tagits bort. SDK använder nu Core Audio API:er.
Dokumentationskorrigering: En regionssida har lagts till för att beskriva de regioner som stöds.

Känt problem

Speech SDK för Android rapporterar inte talsyntesresultat för översättning. Det här problemet åtgärdas i nästa version.

Azure AI Speech SDK 0.4.0: 2018–juni

Funktionella ändringar

AudioInputStream

En identifierare kan nu använda en ström som ljudkälla. Mer information finns i den relaterade instruktioner-guiden.
Detaljerat utdataformat

När du skapar ett SpeechRecognizerkan du begära Detailed eller Simple utdataformat. Innehåller DetailedSpeechRecognitionResult en konfidenspoäng, igenkänd text, rå lexikal form, normaliserad form och normaliserat formulär med maskerade svordomar.

Icke-bakåtkompatibel ändring

Har ändrats till SpeechRecognitionResult.Text från SpeechRecognitionResult.RecognizedText i C#.

Felkorrigeringar

Ett möjligt återanropsproblem har åtgärdats i USP-lagret under avstängningen.
Om en identifierare förbrukade en ljudindatafil höll den fast vid filhandtaget längre än nödvändigt.
Flera dödlägen mellan meddelandepumpen och identifieraren har tagits bort.
Utlös ett NoMatch resultat när svaret från tjänsten överskrids.
Media Foundation-biblioteken i Windows är fördröjda. Det här biblioteket krävs endast för mikrofoninmatning.
Uppladdningshastigheten för ljuddata är begränsad till ungefär dubbelt så mycket som den ursprungliga ljudhastigheten.
I Windows är C# .NET-sammansättningar nu starka med namnet.
Dokumentationskorrigering: Region krävs information för att skapa en identifierare.

Fler exempel har lagts till och uppdateras ständigt. Den senaste uppsättningen exempel finns i GitHub-lagringsplatsen för Speech SDK-exempel.

Azure AI Speech SDK 0.2.12733: 2018–maj

Den här versionen är den första offentliga förhandsversionen av Azure AI Speech SDK.

Speech CLI 1.37.0: April 2024-versionen

Har uppdaterats för att använda Speech SDK 1.37.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.36.0: version mars 2024

Har uppdaterats för att använda Speech SDK 1.36.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.35.0: Version februari 2024

Har uppdaterats för att använda Speech SDK 1.35.0

Nya funktioner

inget

Felkorrigeringar

Uppdatera JMESPath-beroendet till senaste

Speech CLI 1.34.0: November 2023

Har uppdaterats för att använda Speech SDK 1.34.0

Speech CLI 1.33.0: Oktober 2023

Har uppdaterats för att använda Speech SDK 1.34.0

Speech CLI 1.31.0: Augusti 2023

Har uppdaterats för att använda Speech SDK 1.31.0

Speech CLI 1.30.0: Juli 2023-versionen

Har uppdaterats för att använda Speech SDK 1.30.0

Speech CLI 1.29.0: Juni 2023

Har uppdaterats för att använda Speech SDK 1.29.0

Speech CLI 1.28.0: maj 2023

Har uppdaterats för att använda Speech SDK 1.28.0

Speech CLI 1.27.0: April 2023

Uppdateringar

Har uppdaterats för att använda Speech SDK 1.27.0
Uppdatera standardslutpunkten så att v3.1 REST-API:er används för anpassad taligenkänning och Batch-taligenkänning.

Felkorrigeringar

Korrigeringar som rör hur frågeparametrar parsas/konfigureras.

Speech CLI 1.26.0: version mars 2023

Har uppdaterats för att använda Speech SDK 1.26.0.

Speech CLI 1.25.0: Januari 2023

Har uppdaterats för att använda Speech SDK 1.25.0.

Speech CLI 1.24.0: Oktober 2022

Använder Speech SDK 1.24.0.

Nya funktioner

Utökad "spx-kontroll" för att stödja JMESPath-frågor mot alla spx-händelser

Felkorrigeringar

Olika förbättringar av robusthet mot JMESPath-frågeutvärderingar
Korrigering för trunkeringar till filskrivningar som kan inträffa på resursbegränsade datorer

Speech CLI 1.23.0: Juli 2022-version

Använder Speech SDK 1.23.0.

Nya funktioner

Bättre bildtext (--output vtt och --output srt) stor resultatdelning (37 tecken max, 3 rader)
spx synthesize--format Dokumenterade alternativ (se spx help synthesize format)
Dokumenterade de flesta spx csr kommandon/alternativ (se spx help csr)
Kommandot har lagts till spx csr model copy (se spx help csr model copy)
Alternativet med JMES-frågor har lagts till --check result (se spx help check result)
Förbättrade felmeddelanden när ogiltiga kommandoalternativ angavs
Flyttade från .NET Core 3.1 till .NET 6.0. För att kunna köra Speech CLI måste du installera .NET 6.0 Runtime (eller senare).

Felkorrigeringar

Uppdaterade alla URL:er för att ta bort språk (till exempel "en-US")
Versionsinformationen har åtgärdats för att rapportera korrekt i alla fall (tidigare visade den ibland ett tomt värde)

Speech CLI 1.22.0: Juni 2022

Använder Speech SDK 1.22.0.

Nya funktioner

Kommandot har lagts spx init till för att vägleda användarna genom skapande av talresursnyckeln utan att gå till Azure-webbportalen.
Speech Docker-containrar har nu Azure CLI inkluderat, så spx init kommandot fungerar direkt.
Tidsstämpeln har lagts till som ett alternativ för händelseutdata för att göra SPX mer användbart vid beräkning av svarstider.

Speech CLI 1.21.0: April 2022-version

Använder Speech SDK 1.21.0.

Nya funktioner

Generering av WEBVTT-undertext
- --output vtt-stöd har lagts till för spx translate
- Stöd --output vtt file FILENAME för att åsidosätta standard-VTT FILENAME
- Stöd --output vtt file - för att skriva till standardutdata
- Enskilda VTT-filer skapas för varje målspråk (till exempel --target en;de;fr)
Generering av SRT-bildtext
- Stöd har lagts --output srt till för spx recognize, spx intentoch spx translate
- Stöd --output srt file FILENAME för att åsidosätta standard-SRT FILENAME
- Stöd --output srt file - för att skriva till standardutdata
- För spx translateskapas enskilda SRT-filer för varje målspråk (till exempel --target en;de;fr)

Felkorrigeringar

Korrigerade WEBVTT-tidsintervallutdata för korrekt användning av hh:mm:ss.fff format

Speech CLI 1.20.0: Januari 2022-version

Nya funktioner

Talarigenkänning
- spx profile enroll och spx speaker [identify/verify] stöder nu mikrofoninmatning
Avsiktsigenkänning (spx intent)
- --keyword FILE.table
- --pattern och --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (kontinuerlig nu standard)
- --output all/each connection EVENT
- --output all/each connection message (till exempel text, path)
CLI-konsolens förväntningar på kontroll/redigering av utdata:
- --expect PATTERN och --not expect PATTERN stöd för alla kommandon
- --auto expect för att hjälpa till med redigering av förväntade mönster
SDK-loggning utdataförväntningskontroll/redigering
- --log expect PATTERN och --not log expect PATTERN stöd för alla kommandon
- --log auto expect [FILTER] stöd för alla kommandon
- --log FILE support på spx profile och spx speaker
Ljudfilsindata
- --format ANY stöd för alla kommandon
- --file - support (läsa från standardindata, aktivera pipe-scenarier)
Utdata för ljudfil
- --audio output - Skriva till standardutdata, aktivera pipe-scenarier
Utdatafiler
- --output all/each file - Skriva till standardutdata
- --output batch file - Skriva till standardutdata
- --output vtt file - Skriva till standardutdata
- --output json file - Skriva till standardutdata, för spx csr och spx batch kommandon
Utdataegenskaper
- --output […] result XXX property (PropertyId eller sträng)
- --output […] connection message received XXX property (PropertyId eller sträng)
- --output […] recognizer XXX property (PropertyId eller sträng)
Azure WebJob-integrering
- spx webjob följer nu underkommandomönstret
- WebJob-hjälpen har uppdaterats för att återspegla underkommandomönstret (se spx help webjob)

Felkorrigeringar

Fel har åtgärdats när både --output vtt FILE och --output batch FILE används samtidigt
spx [...] --zip ZIPFILENAME innehåller nu alla binärfiler som krävs för alla scenarier (om sådana finns)
spx profile och spx speaker kommandon returnerar nu detaljerad felinformation om annullering

Version 2021-maj

Nya funktioner

Stöd har lagts till för profil-, talar-ID- och talarverifiering – Försök spx profile och spx speaker från kommandoraden.
Vi har också lagt till dialogstöd – Prova spx dialog från kommandoraden.
Förbättrad spx hjälp. Ge oss feedback om hur detta fungerar för dig genom att öppna ett GitHub-problem.
Vi har minskat storleken på .NET-verktygsinstallationen.

COVID-19-förkortad testning

Eftersom den pågående pandemin fortsätter att kräva att våra tekniker arbetar hemifrån har manuella verifieringsskript före pandemin minskat avsevärt. Vi testar på färre enheter med färre konfigurationer och sannolikheten för att miljöspecifika buggar glider igenom kan öka. Vi validerar fortfarande noggrant med en stor uppsättning automatisering. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Version 2021-mars

Nya funktioner

Kommandot för avsiktsigenkänning har lagts till spx intent , vilket spx recognize intentersätter .
Identifiera och avsikt kan nu använda Azure-funktioner för att beräkna ordfelfrekvens med hjälp av spx recognize --wer url <URL>.
Recognize kan nu mata ut resultat som VTT-filer med hjälp av spx recognize --output vtt file <FILENAME>.
Känslig nyckelinformation döljs nu i felsökning/utförliga utdata.
URL-kontroll och felmeddelande har lagts till för innehållsfält i batch-transkriptionsskapande.

COVID-19-förkortad testning

Utgåva 2021–januari

Nya funktioner

Speech CLI är nu tillgängligt som ett NuGet-paket och kan installeras via .NET CLI som ett globalt .NET-verktyg som du kan anropa från gränssnittet/kommandoraden.
Lagringsplatsen devops-mall för anpassat tal har uppdaterats för att använda Speech CLI för sina anpassade talarbetsflöden.

COVID-19-förkortad testning

Version 2020-oktober

SPX är kommandoradsgränssnittet för att använda Speech-tjänsten utan att skriva kod. Ladda ned den senaste versionen här.

Nya funktioner

spx csr dataset upload --kind audio|language|acoustic – skapa datauppsättningar från lokala data, inte bara från URL:er.
spx csr evaluation create|status|list|update|delete – jämföra nya modeller med baslinje sanning/andra modeller.
spx * list – stöder icke-sidiga funktioner (kräver inte --top X --skip X).
spx * --http header A=B – stöd för anpassade rubriker (läggs till för Office för anpassad autentisering).
spx help – förbättrad text- och back-tick-textfärg kodad (blå).

Version 2020-juni

In-CLI-hjälpsökningsfunktioner har lagts till:
- spx help find --text TEXT
- spx help find --topic NAME
Har uppdaterats för att fungera med nyligen distribuerade v3.0 Batch- och anpassade tal-API:er:
- spx help batch examples
- spx help csr examples

COVID-19-förkortad testning

Speech CLI (även kallat SPX): 2020-maj-version

SPX är ett nytt kommandoradsverktyg som gör att du kan utföra igenkänning, syntes, översättning, batch-transkription och anpassad talhantering från kommandoraden. Använd den för att testa Speech-tjänsten eller för att skripta de Speech-tjänstuppgifter som du behöver utföra. Ladda ned verktyget och läs dokumentationen här.

April 2024-version

Text till tal-avatar

Nu kan du ange en statisk bakgrundsbild för dina avatarer. Om du vill använda den här funktionen använder avatarConfig.backgroundImage du bara egenskapen och anger en URL som pekar på den önskade bilden. Information om detialer finns i Så här redigerar du bakgrunden.

Version mars 2024

Fördefinierad neural röst

9 flerspråkiga röster är allmänt tillgängliga i alla regioner: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeuraloch zh-CN-XiaoxiaoMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .
Introduktion till en ny flerspråkig röst för offentlig förhandsversion: ja-JP-MasaruMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .
Ytterligare uppdateringar:
- en-US-RyanMultilingualNeural är allmänt tillgänglig i alla regioner.
- en-US-JennyMultilingualV2Neural är allmänt tillgängligt i alla regioner, sammanfogat med en-US-JennyMultilingualNeural.
- Förhandsversion tillgänglig för uppdaterade en-IN-NeerjaNeural och hi-IN-SwaraNeural med 3 nya formatmallar i USA, östra, Europa, västra och Asien, sydöstra.
- Förhandsversion tillgänglig för nya kvinnliga röster i centrala Indien: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeuraloch hi-IN-AnanyaNeural.

Text till tal-avatar

Tog bort beroendet av AZURE Communication Services (ACS) TURN för realtidsavatar. Exempelkoden har uppdaterats i enlighet med detta för att återspegla den här ändringen.
Publicerade priser för text till talavatar. Mer information finns på prissidan. Observera att avatarpriser endast visas för tjänstregioner där funktionen är tillgänglig, inklusive USA, västra 2, Europa, västra och Sydostasien.

Version februari 2024

OpenAI-röster

Azure AI Speech-tjänsten stöder OpenAI-text till talröster i följande regioner: USA, norra centrala och Sverige, centrala. Precis som Azure AI Speech-röster levererar OpenAI-text till talröster högkvalitativ talsyntes för att konvertera skriven text till naturligt talat ljud. Detta låser upp en mängd olika möjligheter för uppslukande och interaktiva användarupplevelser. Mer information finns i Vad är OpenAI-text till talröster?.

Kommentar

OpenAI-text till talröster är också tillgängliga i Azure OpenAI Service.
Med den här uppdateringen har vi justerat prissättningen för fördefinierade neurala röster med Azure AI Speech. Kontrollera den uppdaterade prissättningen här.

Personlig röst

Den personliga röstfunktionen har nu stöd DragonLatestNeural för och PhoenixLatestNeural modeller. Dessa nya modeller förbättrar naturaliteten hos syntetiserade röster, vilket bättre liknar röstens talegenskaper i prompten. Mer information finns i Integrera personlig röst i ditt program.

Version december 2023

Anpassat röst-API

Det anpassade röst-API:et är tillgängligt för att skapa och hantera professionella och personliga anpassade neurala röstmodeller.

Anpassad neural röst

De nytränade röstmodellerna stöder nu 48 kHz-exempelfrekvens, oavsett modellversion. För tidigare tränade röstmodeller är det nödvändigt att uppgradera motorversionen till minst 2023.11.13.0-versionen för att förbättra exempelfrekvensen till 48 kHz.

Fördefinierad neural röst

Introduktion till nya flerspråkiga röster för offentlig förhandsversion:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`de-DE`	Tyska (Tyskland)	`de-DE-FlorianMultilingualNeural` (Hane)
`de-DE`	Tyska (Tyskland)	`de-DE-SeraphinaMultilingualNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-AvaMultilingualNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-EmmaMultilingualNeural` (Kvinna)
`fr-FR`	Franska (Frankrike)	`fr-FR-RemyMultilingualNeural` (Hane)
`en-US`	Engelska (USA)	`en-US-BrianMultilingualNeural` (Hane)
`en-US`	Engelska (USA)	`en-US-AndrewMultilingualNeural` (Hane)
`fr-FR`	Franska (Frankrike)	`fr-FR-VivienneMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaoxiaoMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaochenMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-YunyiMultilingualNeural` (Hane)

Introduktion till nya zh-CN-XiaoxiaoDialectsNeural röster för offentlig förhandsversion som stöder flera kinesiska dialekter och accenter:

Röstnamn	Sekundärt språk	Dialekt/dekorfärg
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Kinesiska (Zhongyuan Mandarin Shaanxi, förenklad)
	`zh-CN-sichuan`	Kinesiska (sydvästra mandarin, förenklad)
	`zh-CN-shanxi`	Kinesiska (Shanxi Accent Mandarin, förenklad)
	`nan-CN`	Kinesiska (södra min, förenklad)
	`zh-CN-anhui`	Kinesiska (Jianghuai Mandarin Anhui, förenklad)
	`zh-CN-hunan`	Kinesiska (hunan accent mandarin, förenklad)
	`zh-CN-gansu`	Kinesiska (Lanyin Mandarin Gansu, förenklad)
	`zh-CN-shandong`	Kinesiska (jilu mandarin, förenklad)
	`zh-CN-henan`	Kinesiska (Zhongyuan Mandarin Henan, förenklad)
	`zh-CN-liaoning`	Kinesiska (nordöstra mandarin, förenklad)
	`zh-TW`	Kinesiska (taiwanesisk mandarin, traditionell)

November 2023-version

Personlig röst

Personlig röst är tillgänglig som förhandsversion i följande regioner: Europa, västra, USA, östra och Sydostasien. Med personlig röst (förhandsversion) kan du få AI-genererad replikering av din röst (eller användare av ditt program) på några sekunder. Du anger ett talexempel på en minut som ljudprompt och använder det sedan för att generera tal på något av de mer än 90 språk som stöds på fler än 100 språk.

Mer information finns i personlig röst.

Text till tal-avatar

Text till tal-avatar finns i förhandsversion i följande regioner: USA, västra 2, Europa, västra och Sydostasien.

Text till tal-avatar konverterar text till en digital video av en fotorealistisk människa (antingen en fördefinierad avatar eller en anpassad text till talavatar) som talar med en naturligt klingande röst. Videon text till tal-avatar kan syntetiseras asynkront eller i realtid. Utvecklare kan skapa program som är integrerade med text till tal-avatar via ett API eller använda ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.

Mer information finns i text till talavatar, transparensanteckningar och avslöjande för röst- och avatartalanger.

Anpassad neural röst

Stöd har lagts till för de 24 nya nationella lokaliseringarna för korsspråkig röst. Mer information finns i den fullständiga språklistan .

Fördefinierad neural röst

Introduktion till nya röster för offentlig förhandsversion:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`de-DE`	Tyska (Tyskland)	`SeraphinaNeural` (Kvinna)
`es-ES`	Spanska (Spanien)	`XimenaNeural` (Kvinna)
`fr-CA`	Franska (Kanada)	`ThierryNeural` (Hane)
`fr-FR`	Franska (Frankrike)	`VivienneNeural` (Kvinna)
`it-IT`	Italienska (Italien)	`GiuseppeNeural` (Hane)
`ko-KR`	Koreanska (Korea)	`HyunsuNeural` (Hane)
`pt-BR`	Portugisiska (Brasilien)	`ThalitaNeural` (Kvinna)

Modeller uppdaterade med buggar och kvalitetsförbättringar:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`es-ES`	Spanska (Spanien)	`AlvaroNeural` (Hane)
`en-GB`	Engelska (Storbritannien)	`RyanNeural` (Hane)
`ko-KR`	Koreanska (Korea)	`InjoonNeural` (Hane)

Mer information finns i den fullständiga språk- och röstlistan .

Version oktober 2023

Anpassad neural röst

Stöd har lagts till för de 12 nya språken med anpassad neural röst Pro. Mer information finns i den fullständiga språklistan .

September 2023 utgiven

Fördefinierad neural röst

Introduktion till nya röster för offentlig förhandsversion:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`en-US`	Engelska (USA)	`en-US-EmmaNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-AndrewNeural` (Hane)
`en-US`	Engelska (USA)	`en-US-BrianNeural` (Hane)

Mer information finns i den fullständiga språk- och röstlistan .

Inbäddad neural röst

Alla 147 nationella inställningar här (utom fa-IR, persiska (Iran)) är tillgängliga ur kartong med antingen 1 vald kvinna och/eller 1 valda manliga röster.

Augusti 2023 version

Anpassad neural röst

Den senaste CNV Lite-träningsreceptversionen har släppts nu. Den här versionen ger flera förbättringar av kvaliteten på dina språkmodeller. Prova Speech Studio.

Juli 2023 utgåva

Anpassad neural röst

Röst i flera format är allmänt tillgängligt.
Två nya nationella inställningar har lagts till i offentlig förhandsversion för röst i flera format: ja-JP och zh-CN. Mer information finns i den fullständiga språk- och röstlistan . Se listan med förinställda formatmallar för olika språk.
Korsspråkig röst är allmänt tillgänglig.
Lade till två nya nationella inställningar för korsspråkig röst: id-ID och nl-NL. Mer information finns i den fullständiga språk- och röstlistan .

Fördefinierade neurala TTS-röster

Introduktion till ny en-US könsneutral röst för offentlig förhandsversion:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`en-US`	Engelska (USA)	`en-US-BlueNeural` (Neutral)

Introduktion till nya flerspråkiga röster för offentlig förhandsversion:

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`en-US`	Engelska (USA)	`en-US-JennyMultilingualV2Neural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-RyanMultilingualNeural` (Hane)

Flerspråkiga röster en-US-JennyMultilingualV2Neural och en-US-RyanMultilingualNeural identifiera språket i indatatexten automatiskt. Du kan dock fortfarande använda elementet <lang> för att justera talarspråket för dessa röster.

Dessa nya flerspråkiga röster kan tala på 41 språk och accenter: Arabic (Egypt), , Czech (Czechia)Danish (Denmark)Arabic (Saudi Arabia)Catalan, German (Austria)German (Switzerland), German (Germany), French (Canada)Spanish (Mexico)English (United Kingdom)English (Canada)English (Hong Kong SAR)English (United States)English (India)Spanish (Spain)English (Ireland)English (Australia)Finnish (Finland)French (Belgium)French (Switzerland), French (France), , Hindi (India), Hungarian (Hungary), Indonesian (Indonesia)Italian (Italy)Japanese (Japan)Korean (Korea), Norwegian Bokmål (Norway), . Chinese (Taiwanese Mandarin, Traditional)Dutch (Belgium)Dutch (Netherlands)Polish (Poland)Portuguese (Brazil)Portuguese (Portugal)Russian (Russia)Swedish (Sweden)Thai (Thailand)Turkish (Türkiye)Chinese (Mandarin, Simplified)Chinese (Cantonese, Traditional)

Dessa flerspråkiga röster stöder inte helt vissa SSML-element, till exempel paus, betoning, tystnad och sub.

Viktigt!

Rösten en-US-JennyMultilingualV2Neural tillhandahålls tillfälligt i den offentliga förhandsversionen av soley i utvärderingssyfte. Den kommer att tas bort i framtiden.

För att kunna tala på ett annat språk än engelska kräver den aktuella implementeringen av en-US-JennyMultilingualNeural rösten att du anger elementet <lang xml:lang> . Vi räknar med att rösten under Q4-kalenderåret en-US-JennyMultilingualNeural 2023 uppdateras för att tala på indatatextens språk utan elementet <lang xml:lang> . Detta kommer att vara i paritet med en-US-JennyMultilingualV2Neural rösten.

Introduktion till nya funktioner i offentlig förhandsversion för röster nedan:

Lade till latinska indata för serbiska (Serbien) sr-RS röster: sr-latn-RS-SophieNeural och sr-latn-RS-NicholasNeural.
Lade till engelskt uttalsstöd för albanska (albanska) sq-AL röster: sq-AL-AnilaNeural och sq-AL-IlirNeural.

Maj 2023 utgåva

Skapa ljudinnehåll

Alla fördefinierade röster med talstilar och anpassade röster i flera format stöder stiljustering.
Nu kan du åtgärda uttalet av ett ord genom att tala ordet och spela in det. Fonem kan identifieras automatiskt från inspelningen. Funktionen Identifiera genom att tala finns nu i offentlig förhandsversion.

April 2023 utgåva

Fördefinierade neurala TTS-röster

Följande funktioner i dessa röster har flyttats från offentlig förhandsversion till GA:

Format	Text till tal-röster
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`, och `it-IT-IsabellaNeural`
style="glad"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`, och `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` och `fr-FR-HenriNeural`

Förbättra det engelska uttalet för hi-IN, ta-IN och te-IN röster, är nu på flykt i offentliga förhandsversionsregioner

Mer information finns i språk- och röstlistan.

Mars 2023 version

Nya funktioner

Speech Synthesis Markup Language (SSML) har uppdaterats för att stödja processorelement för ljudeffekter som optimerar kvaliteten på de syntetiserade talutdata för specifika scenarier på enheter. Läs mer på markering för talsyntes.

Anpassad neural röst

Stöd har lagts till för språkvarianten nl-BE med Anpassad neural röst Pro. Mer information finns i den fullständiga språk- och röstlistan .

Fördefinierade neurala TTS-röster

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`en-AU`	Engelska (Australien)	`en-AU-AnnetteNeural` (Kvinna) `en-AU-CarlyNeural` (Kvinna) `en-AU-DarrenNeural` (Hane) `en-AU-DuncanNeural` (Hane) `en-AU-ElsieNeural` (Kvinna) `en-AU-FreyaNeural` (Kvinna) `en-AU-JoanneNeural` (Kvinna) `en-AU-KenNeural` (Hane) `en-AU-KimNeural` (Kvinna) `en-AU-NeilNeural` (Hane) `en-AU-TimNeural` (Hane) `en-AU-TinaNeural` (Kvinna) `en-AU-WilliamNeural` (Hane)
`en-GB`	Engelska (Storbritannien)	`en-GB-RyanNeural` (Hane) `en-GB-SoniaNeural` (Kvinna)
`es-ES`	Spanska (Spanien)	`es-ES-AbrilNeural` (Kvinna) `es-ES-ArnauNeural` (Hane) `es-ES-DarioNeural` (Hane) `es-ES-EliasNeural` (Hane) `es-ES-EstrellaNeural` (Kvinna) `es-ES-IreneNeural` (Kvinna) `es-ES-LaiaNeural` (Kvinna) `es-ES-LiaNeural` (Kvinna) `es-ES-NilNeural` (Hane) `es-ES-SaulNeural` (Hane) `es-ES-TeoNeural` (Hane) `es-ES-TrianaNeural` (Kvinna) `es-ES-VeraNeural` (Kvinna)
`es-MX`	Spanska (Mexiko)	`es-MX-JorgeNeural` (Hane)
`fr-FR`	Franska (Frankrike)	`fr-FR-HenriNeural` (Hane)
`it-IT`	Italienska (Italien)	`it-IT-IsabellaNeural` (Kvinna)
`ja-JP`	Japanska (Japan)	`ja-JP-AoiNeural` (Kvinna) `ja-JP-DaichiNeural` (Hane) `ja-JP-MayuNeural` (Kvinna) `ja-JP-NaokiNeural` (Hane) `ja-JP-ShioriNeural` (Kvinna)

Stöd har lagts till cheerful för formatet med de-DE-ConradNeural rösten.

Version februari 2023

Fördefinierade neurala TTS-röster

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaomengNeural` (Kvinna) `zh-CN-XiaoyiNeural` (Kvinna) `zh-CN-XiaozhenNeural` (Kvinna) `zh-CN-YunfengNeural` (Hane) `zh-CN-YunhaoNeural` (Hane) `zh-CN-YunjianNeural` (Hane) `zh-CN-YunxiaNeural` (Hane) `zh-CN-YunzeNeural` (Hane)
`zh-CN-henan`	Kinesiska (Zhongyuan Mandarin Henan, förenklad)	`zh-CN-henan-YundengNeural` (Hane)

Version december 2022

REST API för batchsyntes (förhandsversion)

Batch-syntes-API:et finns för närvarande i offentlig förhandsversion. När det är allmänt tillgängligt är API:et för långt ljud inaktuellt. Mer information finns i Migrera till batchsyntes-API.

November 2022-versionen

Fördefinierade neurala TTS-röster (GA)

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`es-MX`	Spanska (Mexiko)	`es-MX-BeatrizNeural` (Kvinna) `es-MX-CandelaNeural` (Kvinna) `es-MX-CarlotaNeural` (Kvinna) `es-MX-CecilioNeural` (Hane) `es-MX-GerardoNeural` (Hane) `es-MX-LarissaNeural` (Kvinna) `es-MX-LibertoNeural` (Hane) `es-MX-LucianoNeural` (Hane) `es-MX-MarinaNeural` (Kvinna) `es-MX-NuriaNeural` (Kvinna) `es-MX-PelayoNeural` (Hane) `es-MX-RenataNeural` (Kvinna) `es-MX-YagoNeural` (Hane)
`it-IT`	Italienska (Italien)	`it-IT-BenignoNeural` (Hane) `it-IT-CalimeroNeural` (Hane) `it-IT-CataldoNeural` (Hane) `it-IT-FabiolaNeural` (Kvinna) `it-IT-FiammaNeural` (Kvinna) `it-IT-GianniNeural` (Hane) `it-IT-ImeldaNeural` (Kvinna) `it-IT-IrmaNeural` (Kvinna) `it-IT-LisandroNeural` (Hane) `it-IT-PalmiraNeural` (Kvinna) `it-IT-PierinaNeural` (Kvinna) `it-IT-RinaldoNeural` (Hane)
`pt-BR`	Portugisiska (Brasilien)	`pt-BR-BrendaNeural` (Kvinna) `pt-BR-DonatoNeural` (Hane) `pt-BR-ElzaNeural` (Kvinna) `pt-BR-FabioNeural` (Hane) `pt-BR-GiovannaNeural` (Kvinna) `pt-BR-HumbertoNeural` (Hane) `pt-BR-JulioNeural` (Hane) `pt-BR-LeilaNeural` (Kvinna) `pt-BR-LeticiaNeural` (Kvinna) `pt-BR-ManuelaNeural` (Kvinna) `pt-BR-NicolauNeural` (Hane) `pt-BR-ValerioNeural` (Hane) `pt-BR-YaraNeural` (Kvinna)

Anpassad neural röst

Följande språkstöd läggs till för anpassad neural röst. Mer information finns i den fullständiga språk- och röstlistan .

Stöd har lagts till för språkvarianten fr-BE med anpassad neural röst Pro.
Stöd har lagts till för språkvarianten es-ES med anpassad neural röstlitter.

Oktober 2022-version

Fördefinierade neurala TTS-röster (GA)

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`eu-ES`	Baskiska	`eu-ES-AinhoaNeural` (Kvinna) `eu-ES-AnderNeural` (Hane)
`hy-AM`	Armeniska (Armenien)	`hy-AM-AnahitNeural` (Kvinna) `hy-AM-HaykNeural` (Hane)

Fördefinierade neurala TTS-röster (förhandsversion)

Följande röster är nu tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språk- och röstlistan .

Nationella inställningar (BCP-47)	Språk	Text till tal-röster
`en-AU`	Engelska (Australien)	`en-AU-AnnetteNeural`(Kvinna) `en-AU-CarlyNeural`(Kvinna) `en-AU-DarrenNeural`(Hane) `en-AU-DuncanNeural`(Hane) `en-AU-ElsieNeural`(Kvinna) `en-AU-FreyaNeural`(Kvinna) `en-AU-JoanneNeural`(Kvinna) `en-AU-KenNeural`(Hane) `en-AU-KimNeural`(Kvinna) `en-AU-NeilNeural`(Hane) `en-AU-TimNeural`(Hane) `en-AU-TinaNeural`(Kvinna)
`es-ES`	Spanska (Spanien)	`es-ES-AbrilNeural`(Kvinna) `es-ES-AlvaroNeural`(Hane) `es-ES-ArnauNeural`(Hane) `es-ES-DarioNeural`(Hane) `es-ES-EliasNeural`(Hane) `es-ES-EstrellaNeural`(Kvinna) `es-ES-IreneNeural`(Kvinna) `es-ES-LaiaNeural`(Kvinna) `es-ES-LiaNeural`(Kvinna) `es-ES-NilNeural`(Hane) `es-ES-SaulNeural`(Hane) `es-ES-TeoNeural`(Hane) `es-ES-TrianaNeural`(Kvinna) `es-ES-VeraNeural`(Kvinna)
`ja-JP`	Japanska (Japan)	`ja-JP-AoiNeural`(Kvinna) `ja-JP-DaichiNeural`(Hane) `ja-JP-MayuNeural`(Kvinna) `ja-JP-NaokiNeural`(Hane) `ja-JP-ShioriNeural`(Kvinna)
`ko-KR`	Koreanska (Korea)	`ko-KR-BongJinNeural`(Hane) `ko-KR-GookMinNeural`(Hane) `ko-KR-JiMinNeural`(Kvinna) `ko-KR-SeoHyeonNeural`(Kvinna) `ko-KR-SoonBokNeural`(Kvinna) `ko-KR-YuJinNeural`(Kvinna)
`wuu-CN`	Kinesiska (Wu, förenklad)	`wuu-CN-XiaotongNeural` (Kvinna) `wuu-CN-YunzheNeural` (Hane)
`yue-CN`	Kinesiska (kantonesiska, förenklad)	`yue-CN-XiaoMinNeural` (Kvinna) `yue-CN-YunSongNeural` (Hane)

Allmänna TTS-röstuppdateringar

Förbättrad kvalitet för fil-PH-AngeloNeural och fil-PH-BlessicaNeural röster.
Regler för textnormalisering uppdateras för röster med de es-CL spanska (Chile) och uz-UZ uzbekiska språken (Uzbekistan).
Lade till engelska bokstäver stavning för röster med albanska sq-AL (Albanien) och az-AZ azerbajdzjanska (Azerbajdzjan) språk.
Förbättrat engelskt uttal för zh-HK-WanLungNeural rösten.
Förbättrad frågeton för nl-NL-MaartenNeural och pt-BR-AntonioNeural röster.
Stöd har lagts till för taggen <lang ="en-US"> för bättre engelskt uttal med följande röster: de-DE-ConradNeural, , es-ES-AlvaroNeuralde-DE-KatjaNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeuraloch it-IT-IsabellaNeural.
Stöd för taggen har lagts till style="chat" med följande röster: en-GB-RyanNeural, es-MX-JorgeNeuraloch it-IT-IsabellaNeural.
Stöd för taggen style="cheerful" har lagts till med följande röster: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeuraloch it-IT-IsabellaNeural.
Stöd för taggen har lagts till style="sad" med följande röster: en-GB-SoniaNeural, fr-FR-DeniseNeural och fr-FR-HenriNeural.

Version september 2022

Fördefinierad neural TTS-röst

Alla fördefinierade neurala röster har uppgraderats till hög återgivningsröster med 48kHz-exempelfrekvens.

Augusti 2022

Fördefinierad neural TTS-röst

Släppte nya röster i offentlig förhandsversion:

Röster för engelska (USA): en-US-AIGenerate1Neural och en-US-AIGenerate2Neural.
Röster för kinesiska regionala språk: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuraloch zh-CN-shandong-YunxiangNeural.

Mer information finns i språk- och röstlistan.

Juli 2022-versionen

Fördefinierad neural TTS-röst

Lade till 5 nya röster från zh-CN kinesiska (mandarin, förenklad) och 1 ny röst på en-US engelska (USA) i public preview. Se fullständig språk- och röstlista.

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaomengNeural`^New	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaoyiNeural`^New	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaozhenNeural`^New	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Man	`zh-CN-YunxiaNeural`^New	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Man	`zh-CN-YunzeNeural`^New	Allmänt, flera format som är tillgängliga med SSML
Engelska (USA)	`en-US`	Man	`en-US-RogerNeural`^New	Allmänt

Format och roller som stöds för de tillagda neurala rösterna.

Röst	Format	Formatmall	Roller
zh-CN-XiaomengNeural ^{Offentlig förhandsversion}	`chat`	Stöds
zh-CN-XiaoyiNeural ^{Offentlig förhandsversion}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, , `gentle`, , `sadserious`	Stöds
zh-CN-XiaozhenNeural ^{Offentlig förhandsversion}	`angry`, `cheerful`, `disgruntled`, `fearful`, , , `sadserious`	Stöds
zh-CN-YunxiaNeural ^{Offentlig förhandsversion}	`angry`, `calm`, `cheerful`, , , `fearfulsad`	Stöds
zh-CN-YunzeNeural ^{Offentlig förhandsversion}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, , `fearful`, , `sadserious`	Stöds	Stöds

Få ansiktsposition med viseme

Stöd har lagts till för blandningsformer för att driva ansiktsrörelserna i ett 3D-tecken som du har utformat. Lär dig mer om hur du får ansiktsposition med viseme.
SSML har uppdaterats för att stödja viseme-element. Se pålägg för talsyntes.

Version juni 2022

Fördefinierad neural TTS-röst

9 nya språk och varianter har lagts till för neural text till tal:

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Arabiska (Libanon)	`ar-LB`	Kvinna	`ar-LB-LaylaNeural`^New	Allmänt
Arabiska (Libanon)	`ar-LB`	Man	`ar-LB-RamiNeural`^New	Allmänt
Arabiska (Oman)	`ar-OM`	Kvinna	`ar-OM-AyshaNeural`^New	Allmänt
Arabiska (Oman)	`ar-OM`	Man	`ar-OM-AbdullahNeural`^New	Allmänt
Azerbajdzjan (Azerbajdzjan)	`az-AZ`	Kvinna	`az-AZ-BabekNeural`^New	Allmänt
Azerbajdzjan (Azerbajdzjan)	`az-AZ`	Man	`az-AZ-BanuNeural`^New	Allmänt
Bosniska (Bosnien och Hercegovina)	`bs-BA`	Kvinna	`bs-BA-VesnaNeural`^New	Allmänt
Bosniska (Bosnien och Hercegovina)	`bs-BA`	Man	`bs-BA-GoranNeural`^New	Allmänt
Georgiska (Georgien)	`ka-GE`	Kvinna	`ka-GE-EkaNeural`^New	Allmänt
Georgiska (Georgien)	`ka-GE`	Man	`ka-GE-GiorgiNeural`^New	Allmänt
Mongoliska (Mongoliet)	`mn-MN`	Kvinna	`mn-MN-YesuiNeural`^New	Allmänt
Mongoliska (Mongoliet)	`mn-MN`	Man	`mn-MN-BataaNeural`^New	Allmänt
Nepali (Nepal)	`ne-NP`	Kvinna	`ne-NP-HemkalaNeural`^New	Allmänt
Nepali (Nepal)	`ne-NP`	Man	`ne-NP-SagarNeural`^New	Allmänt
Albanska (Albanien)	`sq-AL`	Kvinna	`sq-AL-AnilaNeural`^New	Allmänt
Albanska (Albanien)	`sq-AL`	Man	`sq-AL-IlirNeural`^New	Allmänt
Tamil (Malaysia)	`ta-MY`	Kvinna	`ta-MY-KaniNeural`^New	Allmänt
Tamil (Malaysia)	`ta-MY`	Man	`ta-MY-SuryaNeural`^New	Allmänt

GA 36 röster från Public Preview för en-GB engelska (Storbritannien), fr-FR franska (Frankrike) och de-DE tyska (Tyskland):

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-AbbiNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-BellaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-HollieNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-MaisieNeural`	Allmän, underordnad röst
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-OliviaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-SoniaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-AlfieNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ElliotNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-EthanNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-NoahNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-OliverNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ThomasNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-BrigitteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CelesteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CoralieNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-EloiseNeural`	Allmän, underordnad röst
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JacquelineNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JosephineNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-YvetteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-AlainNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-ClaudeNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-JeromeNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-MauriceNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-YvesNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-AmalaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-ElkeNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-GiselaNeural`	Allmän, underordnad röst
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-KlarissaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-LouisaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-MajaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-TanjaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-BerndNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-ChristophNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KasperNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KillianNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KlausNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-RalfNeural`	Allmänt

Lade till 40 nya röster från es-MX spanska (Mexiko), it-IT italienska (Italien), pt-BR portugisiska (Brasilien) och 2 accenter för zh-CN kinesiska (mandarin, förenklad) i offentlig förhandsversion:

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-BeatrizNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-CarlotaNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-NuriaNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-RenataNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-LarissaNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-CandelaNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-MarinaNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-FiammaNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-IrmaNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-FabiolaNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-PalmiraNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-ImeldaNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-PierinaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-ElzaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-ManuelaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-BrendaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-LeilaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-YaraNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-GiovannaNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-LeticiaNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-CecilioNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-LibertoNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-LucianoNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-PelayoNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-YagoNeural`^New	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-GerardoNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-BenignoNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-CataldoNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-LisandroNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-CalimeroNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-RinaldoNeural`^New	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-GianniNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-DonatoNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-HumbertoNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-FabioNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-JulioNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-ValerioNeural`^New	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-NicolauNeural`^New	Allmänt
Kinesiska (mandarin, förenklad)	`zh-CN-sichuan`	Man	`zh-CN-sichuan-YunxiSichuanNeural`^New	Allmänt, Sichuan accent
Kinesiska (mandarin, förenklad)	`zh-CN-liaoning`	Kvinna	`zh-CN-liaoning-XiaobeiNeural`^New	Allmänt, Liaoning-accent

Förbättrad kvalitet för en-SG-LunaNeural och en-SG-WayneNeural
Stöd för 48kHz-utdata för offentlig förhandsversion med en-US-JennyNeural, en-US-AriaNeural och zh-CN-XiaoxiaoNeural

Anpassad neural röst

Aktiverad för att åtgärda dataproblem online. Läs mer om hur du löser dataproblem i Speech Studio.
Lade till träningsreceptversion. Läs mer om hur du väljer träningsreceptversionen för din röstmodell.

Verktyg för att skapa ljudinnehåll

Sidnumrering som stöds.
Aktiverad för att sortera globalt efter namn, filtyp och uppdateringstid på arbetsfilsidan.

Version maj 2022

Fördefinierad neural TTS-röst

Släppte 5 nya röster i offentlig förhandsversion med flera stilar för att berika sorten på amerikansk engelska. Se fullständig språk- och röstlista.
Stöd för dessa nya format , AngryExcited, Friendly, Hopeful, Sad, Shouting, TerrifiedUnfriendlyoch Whispering i offentlig förhandsversion för en-US-AriaNeural.
Stöd för dessa nya format , AngryCheerful, Excited, Friendly, Hopeful, Sad, Shouting, TerrifiedUnfriendlyoch Whispering i offentlig förhandsversion för en-US-GuyNeural, en-US-JennyNeural.
Stöd för dessa nya format , ExcitedFriendly, Hopeful, Shouting, TerrifiedUnfriendlyoch Whispering i offentlig förhandsversion för en-US-SaraNeural. Se röstformat och roller.
Nya röster zh-CN-YunjianNeural, zh-CN-YunhaoNeuraloch zh-CN-YunfengNeural i offentlig förhandsversion släpptes. Se fullständig språk- och röstlista.
Stöd för 2 nya format , sports-commentarysports-commentary-excited i offentlig förhandsversion för zh-CN-YunjianNeural. Se röstformat och roller.
Stöd för 1 nytt format advertisement-upbeat i offentlig förhandsversion för zh-CN-YunhaoNeural. Se röstformat och roller.
Formaten cheerful och sad för fr-FR-DeniseNeural är allmänt tillgängliga i alla regioner.
SSML har uppdaterats för att stödja MathML-element för en-US- och en-AU-röster. Läs mer på markering för talsyntes.

Anpassad neural röst

Aktiverad för att avbryta träningen under träningsröstmodellen. Läs mer om hur du avbryter träningen.
Aktiverad för att klona modellen (byt namn på röstmodell). Läs mer om hur du byter namn på din röstmodell.
Aktiverad för att testa din röstmodell genom att lägga till ett eget testskript. Läs mer om hur du laddar upp testskriptet.
Aktiverad för att uppdatera motorversionen för din röstmodell. Läs mer om hur du uppdaterar modellmotorversionen.
Stöd för fler träningsregioner. Se regionstöd.
10 språk som stöds för anpassad neural röstlitter (förhandsversion). Se språkstöd.

Verktyg för att skapa ljudinnehåll

Aktiverad för att testa verktyget För att skapa ljudinnehåll utan att logga in.
Förbättrad layout för att justera fonem.
Förbättrad prestanda: Det maximala antalet (200) filer som ska laddas upp samtidigt har angetts.
Förbättrad prestanda: Angav den maximala katalogdjupsnivån (5 nivåer).

Version mars 2022

Fördefinierad neural TTS-röst

Stöd har lagts till i offentlig förhandsversion för formatmallarna Cheerful och Sad med fr-FR-DeniseNeural. Se röstformat och roller.
Frisläppt frånkopplade containrar för fördefinierade neurala TTS-röster i offentlig förhandsversion. Se Använda Docker-containrar i frånkopplade miljöer.

Anpassad neural röst

Rollbaserad åtkomstkontroll som stöds. Läs mer om rollbaserad åtkomstkontroll i Azure i Speech Studio
Privata slutpunkter och tjänstslutpunkter för virtuella nätverk som stöds. Läs mer om hur du använder privata slutpunkter med taltjänsten.

Verktyg för att skapa ljudinnehåll

Uppdaterade filstorleken och samtidighetsgränsen för F0-resurser (free-tier) för att göra upplevelsen konsekvent med Speech SDK och API:er. Se kvoter och gränser för taltjänsten.

Version februari 2022

Anpassad neural röst

Släppte anpassad neural röst lite i offentlig förhandsversion. Läs mer om vad som är anpassad neural röstlitter.
Utökat språkstöd till 49 språk. Se språkstöd.
Stöd för fler regioner/datacenter. Se regionstöd.

Verktyg för att skapa ljudinnehåll

Tog bort utdatalängdsgränsen för att ladda ned ljud.

Version januari 2022

Nya språk och röster

10 nya språk och varianter har lagts till för neural text till tal:

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Bengali (Indien)	`bn-IN`	Kvinna	`bn-IN-TanishaaNeural`^New	Allmänt
Bengali (Indien)	`bn-IN`	Man	`bn-IN-BashkarNeural`^New	Allmänt
Isländska (Island)	`is-IS`	Kvinna	`is-IS-GudrunNeural`^New	Allmänt
Isländska (Island)	`is-IS`	Man	`is-IS-GunnarNeural`^New	Allmänt
Kannada (Indien)	`kn-IN`	Kvinna	`kn-IN-SapnaNeural`^New	Allmänt
Kannada (Indien)	`kn-IN`	Man	`kn-IN-GaganNeural`^New	Allmänt
Kazakiska (Kazakstan)	`kk-KZ`	Kvinna	`kk-KZ-AigulNeural`^New	Allmänt
Kazakiska (Kazakstan)	`kk-KZ`	Man	`kk-KZ-DauletNeural`^New	Allmänt
Lao (Laos)	`lo-LA`	Kvinna	`lo-LA-KeomanyNeural`^New	Allmänt
Lao (Laos)	`lo-LA`	Man	`lo-LA-ChanthavongNeural`^New	Allmänt
Makedonien (Republiken Nordmakedonien)	`mk-MK`	Kvinna	`mk-MK-MarijaNeural`^New	Allmänt
Makedonien (Republiken Nordmakedonien)	`mk-MK`	Man	`mk-MK-AleksandarNeural`^New	Allmänt
Malayalam (Indien)	`ml-IN`	Kvinna	`ml-IN-SobhanaNeural`^New	Allmänt
Malayalam (Indien)	`ml-IN`	Man	`ml-IN-MidhunNeural`^New	Allmänt
Pashto (Afghanistan)	`ps-AF`	Kvinna	`ps-AF-LatifaNeural`^New	Allmänt
Pashto (Afghanistan)	`ps-AF`	Man	`ps-AF-GulNawazNeural`^New	Allmänt
Serbiska (Serbien, kyrillisk)	`sr-RS`	Kvinna	`sr-RS-SophieNeural`^New	Allmänt
Serbiska (Serbien, kyrillisk)	`sr-RS`	Man	`sr-RS-NicholasNeural`^New	Allmänt
Sinhala (Sri Lanka)	`si-LK`	Kvinna	`si-LK-ThiliniNeural`^New	Allmänt
Sinhala (Sri Lanka)	`si-LK`	Man	`si-LK-SameeraNeural`^New	Allmänt

En fullständig lista över tillgängliga röster finns i Språkstöd.

Nya röster i förhandsversionen

Nya röster har lagts till för förhandsversionen av en-GB, fr-FR och de-DE:

Språk	Nationella inställningar	Kön	Röstnamn	Formatstöd
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-AbbiNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-BellaNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-HollieNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-OliviaNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Flicka	`en-GB-MaisieNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-AlfieNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ElliotNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-EthanNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-NoahNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-OliverNeural`^New	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ThomasNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-BrigitteNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CelesteNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CoralieNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JacquelineNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JosephineNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-YvetteNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Flicka	`fr-FR-EloiseNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-AlainNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-ClaudeNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-JeromeNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-MauriceNeural`^New	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-YvesNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-AmalaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-ElkeNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-KlarissaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-LouisaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-MajaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-TanjaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Flicka	`de-DE-GiselaNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-BerndNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-ChristophNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KasperNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KillianNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KlausNeural`^New	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-RalfNeural`^New	Allmänt

En fullständig lista över tillgängliga röster finns i Språkstöd.

Uttalsprecision

Förbättrat uttal av engelska för alla he-IL röster.
Förbättrad uttalsprecision på ordnivå för cs-CZ och da-DK.
Förbättrad arabisk diakritisk och hebreisk nikudhantering.
Förbättrad entitetsläsning för ja-JP

Speech Studio

Anpassad neural röst: aktiverad ytterligare modelltestning med batch-API:et (långt ljud-API)
Skapande av ljudinnehåll: fler utdataformat har aktiverats

Oktober 2021-version

Nya språk och röster

Lade till 49 nya språk och 98 röster för neural text till tal:

Adri i af-ZA Afrikaans (Sydafrika), Willem i af-ZA Afrikaans (Sydafrika), Mekdes i am-ET Amhariska (Etiopien), Ameha i am-ET Amhariska (Etiopien), Fatima på ar-AE arabiska (Förenade Arabemiraten), Hamdan på ar-AE arabiska (Förenade Arabemiraten), Laila på ar-BH arabiska (Bahrain), Ali på ar-BH arabiska (Bahrain), Amina på ar-DZ arabiska (Algeriet), Ismael på ar-DZ arabiska (Algeriet), Rana på ar-IQ arabiska (Irak), Bassel på ar-IQ arabiska (Irak), Sana på ar-JO arabiska (Jordanien), Taim på ar-JO arabiska (Jordanien), Noura på ar-KW arabiska (Kuwait), Fahed på ar-KW arabiska (Kuwait), Iman på ar-LY arabiska (Libyen), Omar på ar-LY arabiska (Libyen), Mouna på ar-MA arabiska (Marocko), Jamal på ar-MA arabiska (Marocko), Amal på ar-QA arabiska (Qatar), Moaz på ar-QA arabiska (Qatar), Amany på ar-SY arabiska (Syrien), Laith på ar-SY arabiska (Syrien), Reem på ar-TN arabiska (Tunisien), Hedi på ar-TN arabiska (Tunisien), Maryam på ar-YE arabiska (Jemen), Saleh på ar-YE arabiska (Jemen), Nabanita i bn-BD Bangla (Bangladesh), Pradeep i bn-BD Bangla (Bangladesh), Asilia på en-KE engelska (Kenya), Chilemba på en-KE engelska (Kenya), Ezinne på en-NG engelska (Nigeria), Abeo på en-NG engelska (Nigeria), Imani på en-TZ engelska (Tanzania), Elimu på en-TZ engelska (Tanzania), Sofia på es-BO spanska (Bolivia), Marcelo på es-BO spanska (Bolivia), Catalina på es-CL spanska (Chile), Lorenzo på es-CL spanska (Chile), Maria i es-CR Spanska (Costa Rica), Juan på es-CR spanska (Costa Rica), Belkys på es-CU spanska (Kuba), Manuel på es-CU spanska (Kuba), Ramona på es-DO spanska (Dominikanska republiken), Emilio på es-DO spanska (Dominikanska republiken), Andrea på es-EC spanska (Ecuador), Luis på es-EC spanska (Ecuador), Teresa på es-GQ spanska (Ekvatorialguinea), Javier på es-GQ spanska (Ekvatorialguinea), Marta på es-GT spanska (Guatemala), Andres på es-GT spanska (Guatemala), Karla i es-HN Spanien Spanska (Honduras), Carlos på es-HN spanska (Honduras), Yolanda på es-NI spanska (Nicaragua), Federico på es-NI spanska (Nicaragua), Margarita på es-PA spanska (Panama), Roberto på es-PA spanska (Panama), Camila på es-PE spanska (Peru), Alex på es-PE spanska (Peru), Karina på es-PR spanska (Puerto Rico), Victor på es-PR spanska (Puerto Rico), Tania på spanska (Paraguay), Mario på spanska (Paraguay), Lorena på spanska (El Salvador), Rodrigo i Spanska (Puerto Rico), Tania på es-PY spanska (Paraguay), Mario på es-PY spanska (Paraguay), Lorena på es-SV spanska (El Salvador), Rodrigo i es-SV Spanska (El Salvador), Valentina på es-UY spanska (Uruguay), Mateo på es-UY spanska (Uruguay), Paola på es-VE spanska (Venezuela), Sebastian på es-VE spanska (Venezuela), Dilara på fa-IR persiska (Iran), Farid på fa-IR persiska (Iran), Blessica i fil-PH Filippinska (Filippinerna), Angelo i fil-PH filippinska (Filippinerna), Sabela i gl-ES Galiciska, Roi i gl-ES Galiciska, Siti i jv-ID Javanese (Indonesien), Dimas i jv-ID Javanes (Indonesien), Sreymom i km-KH Khmer (Kambodja), Piseth i km-KH Khmer (Kambodja), Nilar i my-MM Burmesiska (Myanmar), Thiha i my-MM Burmese (Myanmar), Ubax i so-SO Somaliska (Somalia), Muuse i so-SO Somali (Somalia), Tuti i su-ID Sundanese (Indonesien), Jajang i su-ID Sundanese (Indonesien), Rehema i sw-TZ Swahili (Tanzania ), Daudi i sw-TZ Swahili (Tanzania), Saranya i ta-LK Tamil (Sri Lanka), Kumar i ta-LK Tamil (Sri Lanka), Venba i ta-SG Tamil (Singapore), Anbu i ta-SG tamil (Singapore), Gul i ur-IN Urdu (Indien), Salman i ur-IN Urdu (Indien), Madina i uz-UZ Uzbekiska (Uzbekistan), Sardor i uz-UZ Uzbekiska (Uzbekistan), Thando i zu-ZA Zulu (Sydafrika), Themba i zu-ZA Zulu (Sydafrika).

Version september 2021

Ny chattrobotröst på en-US engelska (USA): Sara representerar en ung kvinnlig vuxen som pratar mer avslappnat och passar bäst för chattrobotscenarierna.
Nya stilar har lagts till för ja-JP den japanska rösten Nanami: Tre nya stilar är nu tillgängliga med Nanami: chatt, kundservice och glad.
Övergripande uttal förbättring: Ardi i id-ID, Premwadee i th-TH, Christel i da-DK, HoaiMy och NamMinh i vi-VN.
Två nya röster på zh-CN kinesiska (mandarin, Kina) i förhandsversion: Xiaochen & Xiaoyan, optimerad för spontana tal- och kundtjänstscenarier.

Juli 2021-versionen

Neural text till taluppdateringar

Minskade uttalsfel på hebreiska med 20 %.

Speech Studio-uppdateringar

Anpassad neural röst: Uppdaterade träningspipelinen till UniTTSv3 med vilken modellkvaliteten förbättras medan träningstiden minskas med 50 % för akustiska modeller.
Skapande av ljudinnehåll: Åtgärdade prestandaproblemet "Exportera" och buggen vid val av anpassad neural röst.

Version juni 2021

Speech Studio-uppdateringar

Anpassad neural röst: Anpassad neural röstträning utökad för att stödja Sydostasien. Nya funktioner som har släppts för att stödja statuskontroll för datauppladdning.
Skapande av ljudinnehåll: Släppte en ny funktion för att stödja anpassat lexikon. Med den här funktionen kan användarna enkelt skapa sina lexikonfiler och definiera det anpassade uttalet för sina ljudutdata.

Version maj 2021

Nya språk och röster har lagts till för neural TTS

Tio nya språk introducerade - 20 nya röster på 10 nya språk läggs till i den neurala TTS-språklistan: Yan på en-HK engelska (Hongkong), Sam på en-HK engelska (Hongkong), Molly på en-NZ engelska (Nya Zeeland), Mitchell på en-NZ engelska (Nya Zeeland), Luna på en-SG engelska (Singapore), Wayne på en-SG engelska (Singapore), Leah på en-ZA engelska (Sydafrika), Luke på en-ZA engelska (Sydafrika), Dhwani i gu-IN Gujarati (Indien), Niranjan i gu-IN Gujarati (Indien), Aarohi i mr-IN Marathi (Indien), Manohar i mr-IN Marathi (Indien), Elena på es-AR spanska (Argentina), Tomas på es-AR spanska (Argentina), Salome på es-CO spanska (Colombia), Gonzalo på es-CO spanska (Colombia), Paloma på es-US spanska (USA), Alonso på es-US spanska (USA), Zuri i sw-KE Swahili (Kenya), Rafiki i sw-KE Swahili (Kenya).
Elva nya en-US-röster i förhandsversion - 11 nya en-US-röster i förhandsversion läggs till amerikansk engelska, de är Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Fem zh-CN kinesiska (mandarin, förenklade) röster är allmänt tillgängliga - 5 kinesiska (mandarin, förenklade) röster ändras från förhandsversion till allmänt tillgängliga. De är Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Nu är dessa röster tillgängliga i alla regioner. Yunxi läggs till med en ny "assistent"-stil, som är lämplig för chattrobot och röstagent. Xiaomos röststilar förfinas för att vara mer naturliga och aktuella.

April 2021-version

Neural text till tal är tillgängligt i 21 regioner

Tolv nya regioner har lagts till – Neural text till tal är nu tillgängligt i dessa nya 12 regioner: Japan East, , Japan WestKorea Central, North Central US, North EuropeSouth Central US, , Southeast Asia, UK South, west Central US, West Europe, . West US 2West US Här finns en fullständig lista över 21 regioner som stöds.

Version mars 2021

Nya språk och röster har lagts till för neural TTS

Sex nya språk introduceras - 12 nya röster på 6 nya språk läggs till i den neurala TTS-språklistan: Nia på cy-GB walesiska (Storbritannien), Aled på cy-GB walesiska (Storbritannien), Rosa på en-PH engelska (Filippinerna), James på en-PH engelska (Filippinerna), Charline på fr-BE franska (Belgien), Gerard på fr-BE franska (Belgien), Dena på nl-BE nederländska (Belgien), Arnaud på nl-BE nederländska (Belgien), Polina på uk-UA ukrainska (Ukraina), Ostap i uk-UA Ukrainska (Ukraina), Uzma i ur-PK Urdu (Pakistan), Asad i ur-PK Urdu (Pakistan).
Fem språk från förhandsversion till GA - 10 röster på 5 språk som introducerades i november är nu GA: Kert i et-EE estniska (Estland), Colm på ga-IE irländska (Irland), Nils på lv-LV lettiska (Lettland), Leonas i lt-LT Litauiska (Litauen), Joseph på mt-MT maltesiska (Malta).
Ny manlig röst tillagd för franska (Kanada) - En ny röst Antoine är tillgänglig för fr-CA franska (Kanada).
Kvalitetsförbättring – Minskning av uttalsfelfrekvens på hu-HU ungerska - 48,17 %, nb-NO norska - 52,76 %, nl-NL nederländska (Nederländerna) - 22,11 %.

Med den här versionen stöder vi nu totalt 142 neurala röster på 60 språk/språk. Dessutom finns över 70 standardröster tillgängliga på 49 språk/språk. Besök Språkstöd för den fullständiga listan.

Hämta ansiktsställningshändelser för att animera tecken

Neural text till tal innehåller nu viseme-händelsen. Viseme-händelser gör det möjligt för användare att få en sekvens av ansiktsställningar tillsammans med syntetiserat tal. Visemes kan användas för att styra förflyttningen av 2D- och 3D-avatarmodeller, som matchar munrörelser till syntetiserat tal. Viseme-händelser är endast tillgängliga för en-US-AriaNeural röst just nu.

Lägg till bokmärkeselementet i Speech Synthesis Markup Language (SSML)

Med bokmärkeselementet kan du infoga anpassade markörer i SSML för att få förskjutningen av varje markör i ljudströmmen. Den kan användas för att referera till en specifik plats i text- eller taggsekvensen.

Version februari 2021

Anpassad neural röst-GA

Anpassad neural röst är GA i februari på 13 språk: kinesiska (mandarin, förenklad), engelska (Australien), engelska (Indien), engelska (Storbritannien), engelska (USA), franska (Kanada), franska (Frankrike), tyska (Tyskland), italienska (Italien), japanska (Japan), koreanska (Korea), portugisiska (Brasilien), spanska (Mexiko) och spanska (Spanien). Läs mer om vad som är anpassad neural röst och hur du använder den på ett ansvarsfullt sätt. Anpassad neural röstfunktion kräver registrering och Microsoft kan begränsa åtkomsten baserat på Microsofts berättigandekriterier. Läs mer om begränsad åtkomst.

Version december 2020

Nya neurala röster i GA och förhandsversion

Släppte 51 nya röster för totalt 129 neurala röster på 54 språk/språk:

46 nya röster i GA-språk: Shakir på ar-EG arabiska (Egypten), Hamed på ar-SA arabiska (Saudiarabien), Borislav på bg-BG bulgariska (Bulgarien), Joana på ca-ES katalanska, Antonin i cs-CZ Tjeckien, Jeppe på da-DK danska (Danmark), Jonas på de-AT tyska (Österrike), Jan på de-CH tyska (Schweiz), Nestoras på el-GR grekiska (Grekland), Liam på en-CA engelska (Kanada), Connor på en-IE engelska (Irland), Madhur i en-IN Hindi (Indien), Mohan i en-IN Telugu (Indien), Prabhat på en-IN engelska (Indien), Valluvar i en-IN Tamil (Indien), Enric på es-ES katalanska, Kert på et-EE estniska (Estland), Harri på fi-FI finska (Finland), Selma på fi-FI finska (Finland), Fabrice på fr-CH franska (Schweiz), Colm på ga-IE irland (Irland), Avri på he-IL hebreiska (Israel), Srecko i hr-HR Kroatiska (Kroatien), Tamas på hu-HU ungerska (Ungern), Gadis på id-ID indonesiska (Indonesien), Leonas i lt-LT Litauen (Litauen), Nils in lv-LV Lettiska (Lettland), Osman i ms-MY Malajiska (Malaysia), Joseph på mt-MT maltesiska (Malta), finländare på nb-NO norska, Bokmål (Norge), Pernille på nb-NO norska, Bokmål (Norge), Fenna på nl-NL nederländska (Nederländerna), Maarten på nl-NL nederländska (Nederländerna), Agnieszka på pl-PL polska (Polen), Marek på pl-PL polska (Polen), Duarte på pt-BR portugisiska (Brasilien), Raquel på pt-PT portugisiska (Potugal), Emil på ro-RO rumänska (Rumänien), Dmitry på ru-RU ryska (Ryssland), Svetlana i ru-RU Ryska (Ryssland), Lukas i sk-SK Slovakiska (Slovakien), Rok i sl-SI slovenska (Slovenien), Mattias på sv-SE svenska (Sverige), Sofie på sv-SE svenska (Sverige), Niwat på th-TH thailändska (Thailand), Ahmet på tr-TR turkiska (Türkiye), NamMinh på vi-VN vietnamesiska (Vietnam), HsiaoChen på zh-TW taiwanesisk mandarin (Taiwan), YunJhe på zh-TW taiwanesisk mandarin (Taiwan), HiuMaan på zh-HK kinesiska kantonesiska (Hongkongs särskilda administrativa region), WanLung på zh-HK kinesiska kantonesiska (Hongkong SAR).
5 nya röster i förhandsgranskningsspråk: Kert i et-EE estniska (Estland), Colm på ga-IE irländska (Irland), Nils i lv-LV lettiska (Lettland), Leonas på lt-LT litauiska (Litauen), Joseph på mt-MT maltesiska (Malta).

Med den här versionen har vi nu stöd för totalt 129 neurala röster på 54 språk/språk. Dessutom finns över 70 standardröster tillgängliga på 49 språk/språk. Besök Språkstöd för den fullständiga listan.

Uppdateringar för att skapa ljudinnehåll

Förbättrat användargränssnitt för röstval med röstkategorier och detaljerade röstbeskrivningar.
Aktiverad innationsjustering för alla neurala röster på olika språk.
Automatiserad UI-lokalisering baserat på språket i webbläsaren.
Aktiverade StyleDegree kontroller för alla zh-CN neurala röster. Gå till verktyget Skapa ljudinnehåll för att se de nya funktionerna.

Uppdateringar för zh-CN-röster

Uppdaterade alla zh-CN neurala röster för att stödja engelsktalande.
Aktiverade alla zh-CN neurala röster för att stödja intonationsjustering. Verktyget SSML eller skapande av ljudinnehåll kan användas för att justera för bästa intonation.
Uppdaterade alla zh-CN neurala röster i flera format för att stödja StyleDegree kontroll. Känslointensitet (mjuk eller stark) är justerbar.
Har uppdaterats zh-CN-YunyeNeural för att stödja flera stilar som kan utföra olika känslor.

November 2020-versionen

Nya nationella inställningar och röster i förhandsversionen

Fem nya röster och språk introduceras i portföljen neural text till tal. De är: Grace på maltesiska (Malta), Ona på litauiska (Litauen), Anu i estniska (Estland), Orla på irländska (Irland) och Everita på lettiska (Lettland).
Fem nya zh-CN röster med flera stilar och roller stöder: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan och Yunxi.

Dessa röster är tillgängliga i offentlig förhandsversion i tre Azure-regioner: EastUS, SouthEastAsia och WestEurope.

Neural text till talContainer GA

Med neural text till tal-container kan utvecklare köra talsyntes med de mest naturliga digitala rösterna i sin egen miljö för specifika krav på säkerhet och datastyrning. Kontrollera hur du installerar Speech Containers.

Nya funktioner

Anpassad röst: gjorde det möjligt för användare att kopiera en röstmodell från en region till en annan, slutpunktsavstängning och återupptagning som stöds. Gå till portalen här.
Stöd för SSML-tystnadstagg .
Allmänna förbättringar av TTS-röstkvaliteten: Förbättrad uttalsprecision på ordnivå i nb-NO. Uttalsfel på 53 % minskade.

Läs mer på den här techbloggen.

Oktober 2020-versionen

Nya funktioner

Jenny har stöd för en ny newscast stil. Se hur du använder talformaten i SSML.
Neurala röster uppgraderade till HiFiNet vocoder, med högre ljudåtergivning och snabbare synteshastighet. Detta gynnar kunder vars scenario förlitar sig på hi-fi-ljud eller långa interaktioner, inklusive videodubbning, ljudböcker eller onlineutbildningsmaterial. Läs mer om berättelsen och hör röstexempel på vår tech community-blogg
Anpassad röst - och ljudinnehållsskapande Studio lokaliserad till 17 språk. Användarna kan enkelt växla användargränssnittet till ett lokalt språk för en mer användarvänlig upplevelse.
Skapande av ljudinnehåll: Stilkontroll har lagts till för XiaoxiaoNeural; Förfinade den anpassade break-funktionen så att den innehåller inkrementella pauser på 50 ms.

Allmänna förbättringar av TTS-röstkvaliteten

Förbättrad uttalsprecision på ordnivå i pl-PL (felfrekvensminskning: 51 %) och fi-FI (felfrekvensminskning: 58 %)
Förbättrad ja-JP enkel ordläsning för ordlistescenariot. Uttalsfelet minskade med 80 %.
zh-CN-XiaoxiaoNeural: Förbättrad attityd/CustomerService/Newscast/Glad/Arg stil röstkvalitet.
zh-CN: Förbättrad Erhua uttal och ljus ton och raffinerad utrymme prosody, vilket avsevärt förbättrar begriplighet.

Version september 2020

Nya funktioner

Neural text till tal
- Utökad för att stödja 18 nya språk/nationella inställningar. De är bulgariska, tjeckiska, tyska (Österrike), tyska (Schweiz), grekiska, engelska (Irland), franska (Schweiz), hebreiska, kroatiska, ungerska, indonesiska, malay, rumänska, slovakiska, slovenska, tamilska, telugu och vietnamesiska.
- Släppte 14 nya röster för att berika variationen i de befintliga språken. Se fullständig språk- och röstlista.
- Nya talstilar för en-US och zh-CN röster. Jenny, den nya rösten på engelska (USA), har stöd för chattrobotar, kundtjänst och assistentstilar. 10 nya talstilar är tillgängliga med vår zh-CN röst, XiaoXiao. Dessutom stöder StyleDegree den neurala XiaoXiao-rösten justering. Se hur du använder talformaten i SSML.
Containrar: Neural text till talContainer som släppts i offentlig förhandsversion med 16 röster tillgängliga på 14 språk. Läs mer om hur du distribuerar talcontainrar för neural text till tal

Läs det fullständiga tillkännagivandet av TTS-uppdateringarna för Ignite 2020

Augusti 2020-versionen

Nya funktioner

Neural text till tal: ny talande stil för en-US Aria-röst. AriaNeural kan låta som en nyhetskastare när du läser nyheter. Den "newscast-formella" stilen låter allvarligare, medan "newscast-casual"-stilen är mer avslappnad och informell. Se hur du använder talformaten i SSML.
Anpassad röst: en ny funktion släpps för att automatiskt kontrollera kvaliteten på träningsdata. När du laddar upp dina data kommer systemet att undersöka olika aspekter av dina ljud- och transkriptionsdata och automatiskt åtgärda eller filtrera problem för att förbättra kvaliteten på röstmodellen. Detta täcker volymen av ditt ljud, ljudnivån, uttalsprecisionen av tal, justeringen av tal med normaliserad text, tystnad i ljudet, förutom ljud- och skriptformatet.
Skapande av ljudinnehåll: en uppsättning nya funktioner för att möjliggöra kraftfullare funktioner för röstjustering och ljudhantering.
- Uttal: uttalsjusteringsfunktionen uppdateras till den senaste fonetikuppsättningen. Du kan välja rätt phoneme-element från biblioteket och förfina uttalet av de ord som du har valt.
- Ladda ned: Funktionen "Ladda ned"/"Exportera" har förbättrats för att ge stöd för att generera ljud per stycke. Du kan redigera innehåll i samma fil/SSML samtidigt som du genererar flera ljudutdata. Filstrukturen för "Download" förfinas också. Nu kan du enkelt hämta alla ljudfiler i en mapp.
- Uppgiftsstatus: Exportupplevelsen för flera filer har förbättrats. Om en av filerna har misslyckats misslyckas hela aktiviteten när du exporterar flera filer tidigare. Men nu exporteras alla andra filer. Aktivitetsrapporten utökas med mer detaljerad och strukturerad information. Du kan kontrollera loggarna för alla misslyckade filer och meningar nu med rapporten.
- SSML-dokumentation: länkad till SSML-dokument som hjälper dig att kontrollera reglerna för hur du använder alla justeringsfunktioner.
API:et för röstlista har uppdaterats så att det innehåller ett användarvänligt visningsnamn och de talformat som stöds för neurala röster.

Allmänna förbättringar av TTS-röstkvaliteten

Minskat uttalsfel på ordnivå % för ru-RU (fel minskade med 56 %) och sv-SE (fel minskade med 49 %)
Förbättrad polyfoni ordläsning på en-US neurala röster med 40%. Exempel på polyfoniska ord är "read", "live", "content", "record", "object" osv.
Förbättrade naturligheten i frågetonen i fr-FR. MOS(Mean Opinion Score) vinst: +0,28
Uppdaterade vocoders för följande röster, med återgivningsförbättringar och övergripande prestanda med 40 %.

Nationella inställningar Röst

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sol-Hej

Nationella inställningar	Röst
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sol-Hej

Felkorrigeringar

Ett antal buggar har åtgärdats med verktyget Skapa ljudinnehåll
- Problem med automatisk uppdatering har åtgärdats.
- Problem med röstformat har åtgärdats i zh-CN i regionen Sydostasien.
- Ett problem med fast stabilitet, inklusive ett exportfel med taggen "break" och fel i skiljetecken.

April 2024-version

Automatisk flerspråkig talöversättning (förhandsversion)

Automatisk flerspråkig talöversättning är tillgänglig i offentlig förhandsversion. Den här innovativa funktionen revolutionerar hur språkbarriärer övervinns och erbjuder oöverträffade funktioner för sömlös kommunikation över olika språkliga landskap.

Viktiga markeringar

Ospecificerat indataspråk: Flerspråkig talöversättning kan ta emot ljud på en mängd olika språk och det finns inget behov av att ange vad det förväntade indataspråket är. Det gör det till en ovärderlig funktion att förstå och samarbeta i globala kontexter utan att behöva förinställa.
Språkväxling: Flerspråkig talöversättning gör att flera språk kan talas under samma session och få dem översatta till samma målspråk. Du behöver inte starta om en session när indataspråket ändras eller andra åtgärder utförs av dig.

Hur det fungerar

Resetolkare: flerspråkig talöversättning kan förbättra upplevelsen för turister som besöker utländska destinationer genom att ge dem information och hjälp på det språk de föredrar. Hotellets conciergetjänster, guidade turer och besökscenter kan använda denna teknik för att tillgodose olika språkbehov.
Internationella konferenser: flerspråkig talöversättning kan underlätta kommunikationen mellan deltagare från olika regioner som kan tala olika språk med hjälp av liveöversatta bildtext. Deltagarna kan tala på sina egna språk utan att behöva ange dem, vilket säkerställer sömlös förståelse och samarbete.
Utbildningsmöten: I flerkulturella klassrum eller i utbildningsmiljöer online kan flerspråkig talöversättning stödja språklig mångfald bland elever och lärare. Det möjliggör sömlös kommunikation och deltagande utan att behöva ange varje elevs eller lärares språk.

Så här kommer du åt

En detaljerad introduktion finns i Översikt över talöversättning. Dessutom kan du läsa kodexemplen om hur du översätter tal. Den här nya funktionen stöds fullt ut av alla SDK-versioner från 1.37.0 och senare.

Tal till text i realtid med diariazation (GA)

Tal till text i realtid med diariazation är nu allmänt tillgängligt.

Du kan skapa tal till text-program som använder diarisering för att skilja mellan de olika talare som deltar i konversationen. Mer information om diarisering i realtid finns i snabbstarten för realtidsdiarisering.

Uppdatering av tal till textmodell

Tal till text i realtid har släppt nya modeller med tvåspråkiga funktioner. Modellen en-IN stöder nu tvåspråkiga scenarier på både engelska och hindi och ger bättre noggrannhet. Arabiska språk (ar-AE, , ar-BHar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, , ar-OM, , ar-QAar-PS, , ar-SA, ar-SY, ar-TN, ar-YE) är nu utrustade med tvåspråkigt stöd för engelska, förbättrad noggrannhet och support för callcenter.

Batch-transkription ger modeller med ny arkitektur för dessa nationella inställningar: es-ES, es-MX, fr-FR, , ja-JPit-IT, ko-KR, pt-BRoch zh-CN. Dessa modeller förbättrar avsevärt läsbarheten och entitetsigenkänningen.

Version mars 2024

Allmän tillgänglighet för Whisper (GA)

Whisper speech to text-modellen med Azure AI Speech är nu allmänt tillgänglig.

Ta en titt på Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI Service.

Version februari 2024

Uttalsbedömning

Speech Pronunciation Assessment har nu stöd för 23 språk som är allmänt tillgängliga (med 5 nya språk tillagda), och ytterligare 3 språk är tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

Språk	Nationella inställningar (BCP-47)
Arabiska (Egypten)	`ar-EG`¹
Arabiska (Saudiarabien)	`ar-SA`
Kinesiska (kantonesiska, traditionella)	`zh-HK`¹
Kinesiska (mandarin, förenklad)	`zh-CN`
Nederländska (Nederländerna)	`nl-NL`¹
Engelska (Australien)	`en-AU`
Engelska (Kanada)	`en-CA`
Engelska (Indien)	`en-IN`
Engelska (Storbritannien)	`en-GB`
Engelska (USA)	`en-US`
Franska (Kanada)	`fr-CA`
Franska (Frankrike)	`fr-FR`
Tyska (Tyskland)	`de-DE`
Hindi (Indien)	`hi-IN`
Italienska (Italien)	`it-IT`
Japanska (Japan)	`ja-JP`
Koreanska (Korea)	`ko-KR`
Malajiska (Malaysia)	`ms-MY`
Norska, bokmål (Norge)	`nb-NO`
Portugisiska (Brasilien)	`pt-BR`
Ryska (Ryssland)	`ru-RU`
Spanska (Mexiko)	`es-MX`
Spanska (Spanien)	`es-ES`
Svenska (Sverige)	`sv-SE`
Tamiliska (Indien)	`ta-IN`
Vietnamesiska (Vietnam)	`vi-VN`

¹ Språket är i offentlig förhandsversion för uttalsbedömning.

Fraslista

Stöd för fraslista har lagts till för följande språk: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

November 2023-version

Introduktion till tvåspråkig talmodellering!

Vi är glada över att kunna presentera ett banbrytande tillägg till vår talmodellering i realtid – tvåspråkig talmodellering. Med den här betydande förbättringen kan vår talmodell sömlöst stödja tvåspråkiga språkpar, till exempel engelska och spanska, samt engelska och franska. Den här funktionen gör det möjligt för användare att enkelt växla mellan språk under realtidsinteraktioner, vilket markerar ett avgörande ögonblick i vårt åtagande att förbättra kommunikationsupplevelserna.

Viktiga markeringar:

Tvåspråkig support: Med vår senaste version kan användarna sömlöst växla mellan engelska och spanska eller mellan engelska och franska under talinteraktioner i realtid. Den här funktionen är skräddarsydd för tvåspråkiga talare som ofta övergår mellan dessa två språk.
Förbättrad användarupplevelse: Tvåspråkiga talare, oavsett om de är på jobbet, hemma eller i olika communityinställningar, kommer att finna den här funktionen oerhört fördelaktig. Modellens förmåga att förstå och svara på både engelska och spanska i realtid öppnar nya möjligheter för effektiv och flytande kommunikation.

Så här använder du:

Välj es-US (spanska och engelska) eller fr-CA (franska och engelska) när du anropar Speech Service-API:et eller provar det i Speech Studio. Du kan tala något av språken eller blanda dem – modellen är utformad för att anpassas dynamiskt, vilket ger korrekta och sammanhangsmedvetna svar på båda språken.

Det är dags att höja ditt kommunikationsspel med vår senaste funktionsversion – sömlös, flerspråkig kommunikation till hands!

Uppdatering av tal till textmodeller

Vi är glada över att kunna introducera en betydande uppdatering av våra talmodeller med förbättrad noggrannhet, förbättrad läsbarhet och förfinad entitetsigenkänning. Den här uppgraderingen levereras med en robust ny struktur, förstärkt av en utökad träningsdatauppsättning, vilket säkerställer en markant förbättring av övergripande prestanda. Den innehåller nyligen släppta modeller för en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE och he-IL.

Höjdpunkter:

Bättre noggrannhet med ny modellstruktur: Den omdefinierade modellstrukturen, tillsammans med en rikare träningsdatauppsättning, höjer noggrannhetsnivåerna och lovar mer exakta talutdata.
Läsbarhetsförbättring: Vår senaste modell ger en betydande ökning av läsbarheten, vilket ökar enhetligheten och tydligheten i talat innehåll.
Avancerad entitetsigenkänning: Entitetsigenkänning får en omfattande uppgradering, vilket resulterar i mer exakta och nyanserade resultat.

Potentiella effekter: Trots dessa framsteg är det viktigt att tänka på potentiella effekter:

Anpassad timeout-funktion för tystnad: Användare som använder anpassad tidsgräns för tystnad, särskilt med låga inställningar, kan stöta på översegmentering och potentiella utelämnanden av fraser med ett ord.
Den nya modellen kan ha kompatibilitetsproblem med funktionen Nyckelordsprefix och användarna uppmanas att utvärdera dess prestanda i sina specifika program.
Minskade disfluensord eller fraser: Användare kan märka en minskning av disfluensord eller fraser som "um" eller "uh" i talutdata.
Felaktigheter i ordtidsstämpelns varaktighet: Vissa disfluency-ord kan visa felaktigheter i tidsstämpelns varaktighet, vilket kräver uppmärksamhet i program som är beroende av exakt tidsinställning.
Distributionsavvikelse för konfidenspoäng: Användare som förlitar sig på konfidenspoäng och tillhörande tröskelvärden bör vara medvetna om potentiella variationer i distributionen, vilket kräver justeringar för optimal prestanda.
Precisionsförbättringen av fraslistfunktionen kan påverkas av feltolkning av vissa fraser.

Vi rekommenderar att du utforskar dessa förbättringar och överväger potentiella problem för en sömlös övergång, och som alltid är din feedback avgörande för att förfina och utveckla våra tjänster.

Uttalsbedömning

Speech Pronunciation Assessment stöder nu 18 språk som är allmänt tillgängliga, och ytterligare sex språk är tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språklistan för utvärdering av uttal.
Vi är glada över att kunna meddela att Uttalsutvärdering introducerar nya funktioner från och med den 1 november 2023: Prosody, Grammatik, Vokabulär och Ämne. Dessa förbättringar syftar till att ge en ännu mer omfattande språkinlärningsupplevelse för både läs- och talutvärderingar. Uppgradera till SDK version 1.35.0 eller senare för att utforska ytterligare information i utvärdering och uttalsutvärdering i Speech Studio.

September 2023 utgiven

Viska offentlig förhandsversion

Azure AI Speech stöder nu OpenAI:s Whisper-modell via batch-transkriptions-API:et. Mer information finns i guiden Skapa en batch-transkription .

Kommentar

Azure OpenAI Service stöder även OpenAI:s Whisper-modell för tal till text med ett synkront REST-API. Mer information finns i snabbstarten.

Ta en titt på Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI Service.

Tal till text REST API v3.2 offentlig förhandsversion

Tal till text REST API v3.2 är tillgängligt i förhandsversionen. Tal till text REST API v3.1 är allmänt tillgängligt. Tal till text REST API v3.0 dras tillbaka den 1 april 2026. Mer information finns i migreringsguiderna Tal till text REST API v3.0 till v3.1 och v3.1 till v3.2 .

Augusti 2023 version

Nytt tal till textspråk:

Tal till text stöder två nya språk som visas i följande tabell. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`pa-IN`	Punjabi (Indien)
`ur-IN`	Urdu (Indien)

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare tre språk som är allmänt tillgängliga på engelska (Kanada), engelska (Indien) och franska (Kanada), med ytterligare tre språk tillgängliga i förhandsversionen. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

Maj 2023 utgåva

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare tre språk som är allmänt tillgängliga på tyska (Tyskland), japanska (Japan) och spanska (Mexiko), med ytterligare 4 språk tillgängliga i förhandsversionen. Mer information finns i den fullständiga språklistan för utvärdering av uttal.
Nu kan du använda standardnivån tal till text för uttalsbedömning i alla offentliga regioner. Om du köper en åtagandenivå för tal till standardtext går utgiften för uttalsbedömningen till att uppfylla åtagandet. Se priser på åtagandenivå.

Version februari 2023

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare 5 språk som är allmänt tillgängliga på engelska (Storbritannien), engelska (Australien), franska (Frankrike), spanska (Spanien) och kinesiska (mandarin, förenklad), med andra språk tillgängliga i förhandsversion.
Exempelkoder har lagts till som visar hur du använder Uttalsutvärdering i strömningsläge i ditt eget program.
- C#: Se exempelkod.
- C++: Se exempelkod.
- java: Se exempelkod.
- javascript: Se exempelkod.
- Objective-C: Se exempelkod.
- Python: Se exempelkod.
- Swift: Se exempelkod.

Anpassat tal

Stöd för ljud + mänskligt märkt avskrift läggs till för de-AT nationella inställningar.

Version januari 2023

Anpassat tal

Stöd för ljud + mänskligt märkt avskrift läggs till för ytterligare språkvarianter: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YEoch ja-JP.

Stöd för strukturerad textanpassning läggs till för nationella inställningar de-AT.

Version december 2022

REST API för tal till text

Rest API-version 3.1 för tal till text är allmänt tillgänglig. Version 3.0 av REST API för tal till text dras tillbaka. Mer information om hur du migrerar finns i guiden.

Oktober 2022-version

Nytt tal till textspråk

Stöd har lagts till för Malayalam (Indien) med nationella ml-IN inställningar. Se den fullständiga språklistan här.

Juli 2022-versionen

Nytt tal till textspråk:

7 nya nationella inställningar har lagts till enligt följande tabell. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`bs-BA`	Bosniska (Bosnien och Hercegovina)
`yue-CN`	Kinesiska (kantonesiska, förenklad)
`zh-CN-sichuan`	Kinesiska (sydvästra mandarin, förenklad)
`wuu-CN`	Kinesiska (Wu, förenklad)
`ps-AF`	Pashto (Afghanistan)
`so-SO`	Somaliska (Somalia)
`cy-GB`	Welsh (Storbritannien)

Version juni 2022

Nytt tal till textspråk:

10 nya nationella inställningar har lagts till enligt följande tabell. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`sq-AL`	Albanska (Albanien)
`hy-AM`	Armeniska (Armenien)
`az-AZ`	Azerbajdzjan (Azerbajdzjan)
`eu-ES`	Baskiska
`gl-ES`	Galiciska
`ka-GE`	Georgiska (Georgien)
`it-CH`	Italienska (Schweiz)
`kk-KZ`	Kazakiska (Kazakstan)
`mn-MN`	Mongoliska (Mongoliet)
`ne-NP`	Nepali (Nepal)

April 2022-versionen

Nytt tal till textspråk:

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`bn-IN`	Bengali (Indien)

Version januari 2022

Nytt tal till textspråk:

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`af-ZA`	Afrikaans (Sydafrika)
`am-ET`	Amhariska (Etiopien)
`de-CH`	Tyska (Schweiz)
`fr-BE`	Franska (Belgien)
`is-IS`	Isländska (Island)
`jv-ID`	Javanesiska (Indonesien)
`km-KH`	Khmer (Kambodja)
`kn-IN`	Kannada (Indien)
`lo-LA`	Lao (Laos)
`mk-MK`	Makedonska (Nordmakedonien)
`my-MM`	Burmesiska (Myanmar)
`nl-BE`	Nederländska (Belgien)
`si-LK`	Sinhala (Sri Lanka)
`sr-RS`	Serbiska (Serbien)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ukrainska (Ukraina)
`uz-UZ`	Uzbekiska (Uzbekistan)
`zu-ZA`	Zulu (Sydafrika)

Juli 2021-versionen

Nytt tal till textspråk:

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`ar-DZ`	Arabiska (Algeriet)
`ar-LY`	Arabiska (Libyen)
`ar-MA`	Arabiska (Marocko)
`ar-TN`	Arabiska (Tunisien)
`ar-YE`	Arabiska (Jemen)
`bg-BG`	Bulgariska (Bulgarien)
`el-GR`	Grekiska (Grekland)
`et-EE`	Estniska (Estland)
`fa-IR`	Persiska (Iran)
`ga-IE`	Iriska (Irland)
`hr-HR`	Kroatiska (Kroatien)
`lt-LT`	Litauiska (Litauen)
`lv-LV`	Lettiska (Lettland)
`mt-MT`	Maltesiska (Malta)
`ro-RO`	Rumänska (Rumänien)
`sk-SK`	Slovakiska (Slovakien)
`sl-SI`	Slovenska (Slovenien)
`sw-KE`	Swahili (Kenya)

Version januari 2021

Nytt tal till textspråk:

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`ar-AE`	Arabiska (Förenade Arabemiraten)
`ar-IL`	Arabiska (Israel)
`ar-IQ`	Arabiska (Irak)
`ar-OM`	Arabiska (Oman)
`ar-PS`	Arabiska (palestinska myndigheten)
`de-AT`	Tyska (Österrike)
`en-GH`	Engelska (Ghana)
`en-KE`	Engelska (Kenya)
`en-NG`	Engelska (Nigeria)
`en-TZ`	Engelska (Tanzania)
`es-GQ`	Spanska (Ekvatorialguinea)
`fil-PH`	Filippinska (Filippinerna)
`fr-CH`	Franska (Schweiz)
`he-IL`	Hebreiska (Israel)
`id-ID`	Indonesiska (Indonesien)
`ms-MY`	Malajiska (Malaysia)
`vi-VN`	Vietnamesiska (Vietnam)

Augusti 2020 Release

Nytt tal till textspråk:

Tal till text släppte 26 nya språk i augusti: 2 europeiska språk cs-CZ och hu-HU, 5 engelska språk och 19 spanska språk som täcker de flesta sydamerikanska länder/regioner. Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Nationella inställningar	Språk
`cs-CZ`	Tjeckiska (Tjeckien)
`en-HK`	Engelska (Hongkongs särskilda administrativa region)
`en-IE`	Engelska (Irland)
`en-PH`	Engelska (Filippinerna)
`en-SG`	Engelska (Singapore)
`en-ZA`	Engelska (Sydafrika)
`es-AR`	Spanska (Argentina)
`es-BO`	Spanska (Bolivia)
`es-CL`	Spanska (Chile)
`es-CO`	Spanska (Colombia)
`es-CR`	Spanska (Costa Rica)
`es-CU`	Spanska (Kuba)
`es-DO`	Spanska (Dominikanska republiken)
`es-EC`	Spanska (Ecuador)
`es-GT`	Spanska (Guatemala)
`es-HN`	Spanska (Honduras)
`es-NI`	Spanska (Nicaragua)
`es-PA`	Spanska (Panama)
`es-PE`	Spanska (Peru)
`es-PR`	Spanska (Puerto Rico)
`es-PY`	Spanska (Paraguay)
`es-SV`	Spanska (El Salvador)
`es-US`	Spanska (USA)
`es-UY`	Spanska (Uruguay)
`es-VE`	Spanska (Venezuela)
`hu-HU`	Ungerska (Ungern)

Utgåva 2024–februari

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.6.0
Tal till text 4.6.0
Neural text till tal 3.1.0

Uppgradera tal till textkomponenter till den senaste. Uppgradera alla es nationella modeller till den senaste. Öka medietransformeringsbufferten för användningsfall för tal till text.

Version 2023-november

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.5.0
Tal till text 4.5.0
Neural text till tal 2.19.0

Utgåva 2023-oktober

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.4.0
Tal till text 4.4.0
Neural text till tal 2.18.0

Åtgärda en massa problem med hög riskrisk.

Ta bort redundanta loggar i containrar.

Uppgradera den interna mediekomponenten till den senaste.

Lägg till stöd för röst en-IN-NeerjaNeural.

Version 2023-september

Lägg till stöd för de senaste modellversionerna:

Talspråksidentifiering 1.12.0
Anpassat tal till text 4.3.0
Tal till text 4.3.0
Neural text till tal 2.17.0

Uppgradera anpassat tal till text och tal till text till det senaste ramverket.

Åtgärda sårbarhetsproblem.

Lägg till stöd för röst ar-AE-FatimaNeural.

Version 2023-juli

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.1.0
Tal till text 4.1.0
Neural text till tal 2.15.0

Åtgärda problemet med att köra tal till textcontainer via docker monteringsalternativ med lokala anpassade modellfiler.

Åtgärda problemet att händelsen i vissa fall RECOGNIZING inte visas som svar via Speech SDK.

Åtgärda sårbarhetsproblem.

Utgåva 2023–juni

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.0.0
Tal till text 4.0.0
Neural text till tal 2.14.0

Lokalt tal till textbilder uppgraderas till .NET 6.0

Uppgradera visningsmodeller för nationella inställningar, inklusive en-us, ar-eg, ar-bhja-jp, och ko-krmycket mer.

Uppgradera komponenten tal till textcontainer för att åtgärda sårbarhetsproblem.

Lägg till stöd för språkvariantröster de-DE-AmalaNeural,de-AT-IngridNeuralde-AT-JonasNeural ochen-US-JennyMultilingualNeural

2023-maj-versionen

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.14.0
Tal till text 3.14.0
Neural text till tal 2.13.0

Åtgärda interpunktionsproblemet he-IL

Åtgärda sårbarhetsproblem

Lägg till ny språkinställningsröst en-US-MichelleNeuraloch es-MX-CandelaNeural

Version 2023-april

Uppdateringar

Åtgärda sårbarhetsproblem

Version 2023-mars

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.12.0
Tal till text 3.12.0
Talspråksidentifiering 1.11.0
Neural text till tal 2.11.0

Åtgärda sårbarhetsproblem

Åtgärda problemet med tr-TR versaler

Uppgradera tal till textvisningsmodeller en-US

Lägg till stöd för fördefinierad neural neural text till talspråksröst ar-AE-HamdanNeural

Utgåva 2023–februari

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.11.0
Tal till text 3.11.0
Neural text till tal 2.10.0

Åtgärda sårbarhetsproblem

Regelbunden uppgradering för talmodeller

Lägg till nya abraiska språk:

ar-IL
ar-PS

Uppgradera hebreiska och turkiska visningsmodeller

Utgåva 2023–januari

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.10.0
Tal till text 3.10.0
Neural text till tal 2.9.0

Åtgärda problem med hypotesläge

Åtgärda HTTP-proxyproblem

Frånkopplat läge för anpassad tal till textcontainer

Lägg till stöd för CNV-frånkopplad container i TTS-klientdelen

Lägg till stöd för dessa språkvariantröster:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Utgåva 2022-december

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.9.0
Tal till text 3.9.0
Neural text till tal 2.8.0

Åtgärda ipv4/ipv6-problem

Åtgärda sårbarhetsproblem

Version 2022-november

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.8.0
Tal till text 3.8.0
Neural text till tal 2.7.0

Utgåva 2022–oktober

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.7.0
Tal till text 3.7.0
Neural text till tal 2.6.0

Utgåva 2022-september

Tal till text 3.6.0-amd64

Lägg till stöd för de senaste modellversionerna.

Lägg till stöd för dessa nationella inställningar:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Anpassat tal till text 3.6.0-amd64

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Neural neural text till tal v2.5.0

Lägg till stöd för dessa fördefinierade neurala röster:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Version 2022-maj

Container för talspråksidentifiering v1.9.0-amd64-preview

Felkorrigeringar för identifiering av talspråk.

Utgåva 2022-mars

Anpassat tal till text Container v3.1.0

Lägg till stöd för att hämta visningsmodeller.

Utgåva 2022–januari

Tal till text Container v3.0.0

Lägg till stöd för att använda containrar i frånkopplade miljöer.

Tal till text Container v2.18.0

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Neural-neural text till talcontainer v1.12.0

Lägg till stöd för dessa fördefinierade neurala röster: am-et-amehaneural, am-et-mekdesneuraloch so-so-muuseneuralso-so-ubaxneural.

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.