Om Speech SDK

Speech Software development kit (SDK) exponerar många av speech-tjänstens funktioner, så att du kan utveckla talaktiverade program. Speech SDK är tillgängligt på många programmeringsspråk och på alla plattformar.

Programmeringsspråk Plattform SDK-referens
C# 1 Windows, Linux, macOS, mono, Xamarin. iOS, Xamarin. Mac, Xamarin. Android, UWP, Unity .NET SDK
C++ Windows, Linux, macOS C++ SDK
Go Linux Go SDK
Java 2 Android, Windows, Linux, macOS Java SDK
JavaScript Webbläsare, Node.js JavaScript SDK
Mål-C/Swift iOS, macOS Mål-C SDK
Python Windows, Linux, macOS Python SDK

1 .NET Speech SDK baseras på .NET standard 2,0 och stöder därför många plattformar. Mer information finns i support för .net-implementering .

2 java Speech SDK är också tillgängligt som en del av tal enheter SDK.

Scenariofunktioner

Speech SDK exponerar många funktioner från Speech-tjänsten, men inte alla. Funktionerna i Speech SDK är ofta associerade med scenarier. Speech SDK är perfekt för både realtidsscenarier och icke-realtidsscenarier, med hjälp av lokala enheter, filer, Azure Blob Storage och även indata- och utdataströmmar. Om ett scenario inte kan uppnås med Speech SDK letar du efter en REST API alternativ.

Tal till text

Tal till text (även kallat taligenkänning) transkriberar ljudströmmar till text som dina program, verktyg eller enheter kan använda eller visa. Använd tal till text med hjälp Language Understanding (LUIS) för att härleda användarens avsikter från transkriberat tal och agera på röstkommandon. Använd Talöversättning för att översätta talindata till ett annat språk med ett enda anrop. Mer information finns i Grunderna i tal till text.

Taligenkänning (SR), fraslista, avsikt, översättning och lokala containrar är tillgängliga på följande plattformar:

  • C++/Windows & Linux & macOS
  • C# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (Jre och Android)
  • JavaScript (webbläsare och NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go (endast SR)

Text till tal

Text till tal (även kallat talsyntes) konverterar text till människoliknande syntetiserat tal. Indatatexten är antingen stränglitteraler eller SSML (Speech Synthesis Markup Language). Mer information om standardröster eller neurala röster finns i Text till tal-språk och röststöd.

Text till tal (TTS) är tillgängligt på följande plattformar:

  • C++/Windows & Linux
  • C#/Windows & UWP & Unity
  • Java (Jre och Android)
  • Python
  • Swift
  • Objective-C
  • TTS REST API kan användas i alla andra situationer.

Röstassistenter

Röstassistenter med hjälp av Speech SDK gör att du kan skapa naturliga, människoliknande konversationsgränssnitt för dina program och upplevelser. Speech SDK ger snabb, tillförlitlig interaktion som innehåller tal till text, text till tal och konversationsdata på en enda anslutning. Implementeringen kan använda Bot Framework för Direct Line Speech eller den integrerade Anpassade kommandon tjänsten för slutförande av uppgifter. Dessutom kan röstassistenter använda anpassade röster som skapats i Anpassad röst portalen för att lägga till en unik röstutdataupplevelse.

Stöd för röstassistenten finns på följande plattformar:

  • C++/Windows & Linux & macOS
  • C#/Windows
  • Java/Windows & Linux & macOS & Android (Speech Devices SDK)
  • Go

Nyckelordsigenkänning

Begreppet nyckelordsigenkänning stöds i Speech SDK. Nyckelordsigenkänning är att identifiera ett nyckelord i tal, följt av en åtgärd när nyckelordet hörs. Till exempel skulle "Hej Cortana" aktivera Cortana assistenten.

Nyckelordsigenkänning är tillgängligt på följande plattformar:

  • C++/Windows & Linux
  • C#/Windows & Linux
  • Python/Windows & Linux
  • Java/Windows & Linux & Android

Mötesscenarier

Speech SDK är perfekt för att transkribera mötesscenarier, oavsett om det gäller en enda enhet eller en konversation med flera enheter.

Samtalstranskription

Samtalstranskribering möjliggör realtidsigenkänning (och asynkron) taligenkänning, talaridentifiering och meningsattribution för varje talare (kallas även diarisering). Det är perfekt för att transkribera personligt möten med möjligheten att särskilja talare.

Samtalstranskribering är tillgängligt på följande plattformar:

  • C++/Windows & Linux
  • C# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows & Linux & Android (Speech Devices SDK)

Konversation med flera enheter

Med Konversation för flera enheteransluter du flera enheter eller klienter i en konversation för att skicka tal- eller textbaserade meddelanden, med enkelt stöd för transkription och översättning.

Konversation med flera enheter är tillgängligt på följande plattformar:

  • C++/Windows
  • C# (Framework & .NET Core)/Windows

Anpassade scenarier/agentscenarier

Speech SDK kan användas för att transkribera kundtjänstscenarier, där telefonidata genereras.

Avskrifter av kundtjänst

Call Center Transcription är ett vanligt scenario för tal till text för att transkribera stora volymer telefonidata som kan komma från olika system, till exempel Interactive Voice Response (IVR). De senaste taligenkänningsmodellerna från Speech Service är bra på att transkribera dessa telefonidata, även om det är svårt för en människa att förstå data.

Kundtjänsttranskribering är tillgänglig via Batch Speech Service via dess REST API och kan användas i alla situationer.

Codec-komprimerad ljudindata

Flera av programmeringsspråken för Speech SDK stöder codec-komprimerade ljudindataströmmar. Mer information finns i Använda komprimerade ljudindataformat.

Codec-komprimerade ljudindata är tillgängliga på följande plattformar:

  • C++/Linux
  • C#/Linux
  • Java/Linux, Android och iOS

REST-API

Speech SDK omfattar många funktioner i Speech Service, men i vissa fall kanske du vill använda REST API.

Batch-transkription

Batch-transkription möjliggör asynkron tal-till-text-transkription av stora mängder data. Batch-transkription är endast möjligt från REST API. Förutom att konvertera talljud till text möjliggör batch-tal till text även diarisering och attitydanalys.

Anpassning

Speech Service ger fantastiska funktioner med sina standardmodeller för tal till text, text till tal och talöversättning. Ibland kanske du vill öka baslinjeprestandan så att den fungerar ännu bättre med ditt unika användningsfall. Taltjänsten har en mängd olika anpassningsverktyg utan kod som gör det enkelt och gör att du kan skapa en konkurrensfördel med anpassade modeller baserat på dina egna data. Dessa modeller är bara tillgängliga för dig och din organisation.

Anpassat tal till text

När du använder tal till text för igenkänning och transkription i en unik miljö kan du skapa och träna anpassade akustiska modeller, språkmodeller och uttalsmodeller för att hantera omgivande brus eller branschspecifik vokabulär. Skapande och hantering av anpassade talmodeller utan kod är tillgängliga via Custom Speech Portal. När Custom Speech-modellen har publicerats kan den användas av Speech SDK.

Anpassad text till tal

Anpassad text till tal, även kallat Anpassad röst, är en uppsättning onlineverktyg som gör att du kan skapa en identifierbar, en-av-en-typ-röst för ditt varumärke. Skapande och hantering av icke-kodbaserade Anpassad röst är tillgängligt via Anpassad röst portalen. När Anpassad röst modellen har publicerats kan den användas av Speech SDK.

Hämta Speech SDK

Tal-SDK: n stöder Windows 10 och Windows Server 2016 eller senare versioner. Tidigare versioner stöds inte officiellt. Det är möjligt att använda delar av talet SDK med tidigare versioner av Windows, även om det inte rekommenderas.


Windows

Systemkrav

Talet SDK i Windows kräver Microsoft Visual C++ Redistributable för Visual Studio 2019 i systemet.

C#

.NET Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET standard 2,0. mer information finns i Microsoft. CognitiveServices. Speech .


C#

C# NuGet-paket

.NET Speech SDK kan installeras från .net Core CLI med följande dotnet add kommando.

dotnet add package Microsoft.CognitiveServices.Speech

.NET Speech SDK kan installeras från Package Manager med följande Install-Package kommando.

Install-Package Microsoft.CognitiveServices.Speech

Ytterligare resurser

För inmatade mikrofoner måste Media Foundation-bibliotek installeras. Dessa bibliotek är en del av Windows 10 och Windows Server 2016. Det är möjligt att använda tal-SDK utan dessa bibliotek, så länge en mikrofon inte används som enhet för ljud inspelning.

De nödvändiga SDK-filerna för tal kan distribueras i samma katalog som ditt program. På så sätt kan ditt program komma åt biblioteken direkt. Kontrol lera att du väljer rätt version (x86/x64) som matchar ditt program.

Name Funktion
Microsoft.CognitiveServices.Speech.core.dll Core SDK, krävs för intern och hanterad distribution
Microsoft.CognitiveServices.Speech.csharp.dll Krävs för hanterad distribution

Anteckning

Från och med versionen av 1.3.0 Microsoft.CognitiveServices.Speech.csharp.bindings.dll behövs inte längre filen (levererades i tidigare versioner). Funktionerna är nu integrerade i Core SDK.

Viktigt

Se till att biblioteken ingår i projektets distributions inställningar för Windows Forms app (.NET Framework) C#-projekt. Du kan kontrol lera detta under Properties -> Publish Section . Klicka på Application Files knappen och hitta motsvarande bibliotek i listan rulla nedåt. Kontrol lera att värdet är inställt på Included . Visual Studio kommer att inkludera filen när projektet publiceras/distribueras.

C++

C++ Speech SDK är tillgänglig i Windows, Linux och macOS. Mer information finns i Microsoft. CognitiveServices. Speech .


C++

C++ NuGet-paket

Tal-SDK för C++ kan installeras från Package Manager med följande Install-Package kommando.

Install-Package Microsoft.CognitiveServices.Speech

Ytterligare resurser

Python

Python Speech SDK är tillgänglig som en PyPI-modul (python Package index). mer information finns i Azure-cognitiveservices-Speech . Python Speech SDK är kompatibel med Windows, Linux och macOS.


Python
pip install azure-cognitiveservices-speech

Tips

Om du använder macOS kan du behöva köra följande kommando för att hämta pip-kommandot ovan för att fungera:

python3 -m pip install --upgrade pip

Ytterligare resurser

Java

Java SDK för Android är paketerat som ett AAR (Android-bibliotek) , som innehåller nödvändiga bibliotek och nödvändiga Android-behörigheter. Den finns på en Maven-lagringsplats på https://csspeechstorage.blob.core.windows.net/maven/ som paket com.microsoft.cognitiveservices.speech:client-sdk:1.17.0 . (Kontrollera att 1.17.0 är den senaste versionen genom att söka på vår GitHub-lagringsplatsen.)


Java

Om du vill använda paketet från Android Studio-projektet gör du följande ändringar:

  1. I filen build.gradle på projektnivå lägger du till följande i repositories avsnittet :
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. Lägg till följande i avsnittet i filen build.gradledependencies modulnivå:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.17.0'

Java SDK är också en del av Speech Devices SDK.

Ytterligare resurser

Viktigt

Genom att hämta någon av Azure-Cognitive Services talet SDK: er bekräftar du dess licens. Mer information finns i:

Exempel käll kod

Talet SDK-teamet hanterar aktivt en stor uppsättning exempel i en databas med öppen källkod. För exempel käll kods lager finns besök Microsoft Cognitive Services Speech SDK på GitHub . Det finns exempel för C#, C++, Java, python, mål-C, Swift, Java Script, UWP, Unity och Xamarin.


GitHub

Nästa steg