A Speech SDK ismertetéseAbout the Speech SDK

A Speech szoftverfejlesztői készlet (SDK) számos Speech Service-képességet tesz elérhetővé, így lehetővé teszi a beszédfelismerésre képes alkalmazások fejlesztését.The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. A Speech SDK számos programozási nyelven és minden platformon elérhető.The Speech SDK is available in many programming languages and across all platforms.

Programozási nyelvProgramming language PlatformPlatform SDK-referenciaSDK reference
C# 1C# 1 Windows, Linux, macOS, mono, Xamarin. iOS, Xamarin. Mac, Xamarin. Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity .NET SDK.NET SDK
C++C++ Windows, Linux, macOSWindows, Linux, macOS C++ SDKC++ SDK
2 . JavaJava 2 Android, Windows, Linux, macOSAndroid, Windows, Linux, macOS Java SDKJava SDK
JavaScriptJavaScript Böngésző, Node.jsBrowser, Node.js JavaScript SDKJavaScript SDK
Objective-C/SwiftObjective-C / Swift iOS, macOSiOS, macOS Objective-C SDKObjective-C SDK
PythonPython Windows, Linux, macOSWindows, Linux, macOS Python SDKPython SDK

1 a .NET Speech SDK a .NET Standard 2,0-alapú, így számos platformot támogat. További információ: .net- implementáció támogatása .1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .

2 a Java Speech SDK a Speech Devices SDKrészeként is elérhető.2 The Java Speech SDK is also available as part of the Speech Devices SDK.

Forgatókönyv-képességekScenario capabilities

A Speech SDK számos funkciót tesz elérhetővé a beszédfelismerési szolgáltatásból, de nem mindegyiket.The Speech SDK exposes many features from the Speech service, but not all of them. A Speech SDK képességeit gyakran társítják forgatókönyvekhez.The capabilities of the Speech SDK are often associated with scenarios. A Speech SDK ideális a valós idejű és nem valós idejű forgatókönyvekhez, helyi eszközök, fájlok, Azure Blob Storage és akár bemeneti és kimeneti adatfolyamok használatával.The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Ha egy forgatókönyv nem érhető el a Speech SDK-val, keressen egy REST API alternatívát.When a scenario is not achievable with the Speech SDK, look for a REST API alternative.

DiktálásSpeech-to-text

A beszéd – szöveg (más néven beszédfelismerés) a hangstreameket olyan szöveggé írja át, amelyet az alkalmazások, eszközök vagy eszközök képesek felhasználni vagy megjeleníteni.Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. A beszéd-szöveg és a Language Understanding (Luis) használatával származtatott beszédből származó felhasználói leképezéseket származtathat, és hangparancsokat alkalmazhat.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. A beszédfelismerés használatával más nyelvre is lefordíthatja a hangbevitelt egyetlen hívással.Use Speech Translation to translate speech input to a different language with a single call. További információ: beszédfelismerés és szöveg közötti alapismeretek.For more information, see Speech-to-text basics.

A beszédfelismerés (SR), a kifejezések listája, a szándék, a fordítás és a helyszíni tárolók a következő platformokon érhetők el:Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:

  • C++/Windows & Linux & macOS rendszerhezC++/Windows & Linux & macOS
  • C# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (JRE és Android)Java (Jre and Android)
  • JavaScript (böngésző és NodeJS)JavaScript (Brower and NodeJS)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Go (csak SR)Go (SR only)

SzövegfelolvasásText-to-speech

A szöveg és a beszéd (más néven beszéd szintézis) szöveggé alakítja át a szöveget az emberi, például a szintetizált beszédbe.Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. A bemeneti szöveg karakterlánc-literál vagy a Speech szintézis Markup Language (SSML)használata.The input text is either string literals or using the Speech Synthesis Markup Language (SSML). A standard vagy neurális hangokkal kapcsolatos további információkért lásd: szöveg – beszéd nyelv és hangalapú támogatás.For more information on standard or neural voices, see Text-to-speech language and voice support.

A szöveg-beszéd (TTS) a következő platformokon érhető el:Text-to-speech (TTS) is available on the following platforms:

  • C++/Windows & Linux rendszerhezC++/Windows & Linux
  • C#/Windows & UWP & UnityC#/Windows & UWP & Unity
  • Java (JRE és Android)Java (Jre and Android)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • A TTS REST API minden más helyzetben használható.TTS REST API can be used in every other situation.

Hangvezérelt asszisztensekVoice assistants

A Speech SDK-t használó hangsegédek lehetővé teszik, hogy a fejlesztők természetes, emberi jellegű társalgási felületet hozzanak létre alkalmazásaikban és tapasztalataikban.Voice assistants using the Speech SDK enable developers to create natural, human-like conversational interfaces for their applications and experiences. A hangsegéd szolgáltatás gyors, megbízható interakciót biztosít egy eszköz és egy segéd között.The voice assistant service provides fast, reliable interaction between a device and an assistant. A megvalósítás a bot Framework közvetlen vonalas beszéd csatornáját vagy az integrált Custom commands szolgáltatást használja a feladatok befejezéséhez.The implementation uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. Emellett a hangsegédek az Egyéni Hangportálon létrehozott egyéni hangokat is felhasználhatják egy egyedi hangkimeneti élmény hozzáadásához.Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.

A hangsegédek a következő platformokon érhetők el:Voice assistants is available on the following platforms:

  • C++/Windows & Linux & macOS rendszerhezC++/Windows & Linux & macOS
  • C#/WindowsC#/Windows
  • Java/Windows & Linux & macOS & Android (Speech Devices SDK)Java/Windows & Linux & macOS & Android (Speech Devices SDK)

Kulcsszavas bepecsételésKeyword spotting

A beszédfelismerés fogalma támogatott a Speech SDK-ban.The concept of keyword spotting is supported in the Speech SDK. A kulcsszó-bepecsételés a kulcsszónak a beszédben való azonosítására szolgáló művelet, amelyet a kulcsszó meghallgatása után kell végezni.Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. A "Hey Cortana" például aktiválja a Cortana Segédet.For example, "Hey Cortana" would activate the Cortana assistant.

A következő platformokon érhető el a (z) kulcsszó-Felpecsételés (KWS) :Keyword Spotting (KWS) is available on the following platforms:

  • C++/Windows & Linux rendszerhezC++/Windows & Linux
  • C#/Windows & Linux rendszerhezC#/Windows & Linux
  • Python/Windows & LinuxPython/Windows & Linux
  • Java/Windows & Linux & Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)
  • A "a" kulcsszó-bepecsételés (KWS) funkció bármilyen mikrofonos típussal működhet, a hivatalos KWS-támogatás azonban jelenleg az Azure Kinect DK hardverben vagy a Speech Devices SDK-ban található mikrofon-tömbökre korlátozódik.Keyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK

Értekezleti forgatókönyvekMeeting scenarios

A Speech SDK kiválóan alkalmas az értekezlet-forgatókönyvek átírására, akár egyetlen eszközről, akár több eszközről is beszélget.The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.

BeszédátírásConversation Transcription

A beszélgetés átirata lehetővé teszi a valós idejű (és aszinkron) beszédfelismerést, a hangszórók azonosítását és a mondatok kiosztását az egyes hangszórókhoz (más néven diarization).Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). A személyes értekezletek átírása tökéletes választás a hangszórók megkülönböztetésére.It's perfect for transcribing in-person meetings with the ability to distinguish speakers.

A beszélgetés átírása a következő platformokon érhető el:Conversation Transcription is available on the following platforms:

  • C++/Windows & Linux rendszerhezC++/Windows & Linux
  • C# (Framework & .NET Core)/Windows & UWP & LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows & Linux & Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)

Több eszközre kiterjedő beszélgetésMulti-device Conversation

A többeszközes beszélgetésseltöbb eszköz vagy ügyfél összekapcsolásával beszéd-vagy szöveges üzeneteket küldhet az átíráshoz és a fordításhoz egyszerű támogatással.With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.

A multi-Device beszélgetés a következő platformokon érhető el:Multi-device Conversation is available on the following platforms:

  • C++/WindowsC++/Windows
  • C# (Framework & .NET Core)/WindowsC# (Framework & .NET Core)/Windows

Egyéni/ügynöki forgatókönyvekCustom / agent scenarios

A Speech SDK használható a Call Center-forgatókönyvek továbbítására, ahol a telefonos adatok jönnek létre.The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.

Telefonos ügyfélszolgálati felvételek átírásaCall Center Transcription

A Call Center átírása gyakori forgatókönyv a beszédek közötti kommunikációhoz, amely különböző rendszerekről származó, nagy mennyiségű telefonos adatok (például interaktív hangválasztó (IVR)) beolvasására használható.Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). A Speech Service Excel legújabb beszédfelismerési modelljei a telefonos adatok átírásakor, még abban az esetben is, ha az adatok nehezen érthetők.The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.

A Call Center átirata a Batch Speech szolgáltatáson keresztül érhető el a REST API használatával, és bármilyen helyzetben használható.Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.

Codec tömörített hangbemenetCodec compressed audio input

A Speech SDK programozási nyelvei közül több is támogatja a kodekkel tömörített hangbemeneti streameket.Several of the Speech SDK programming languages support codec compressed audio input streams. További információ: tömörített hangformátumok használata .For more information, see use compressed audio input formats .

A kodek tömörített hangbemenete a következő platformokon érhető el:Codec compressed audio input is available on the following platforms:

  • C++/LinuxC++/Linux
  • C#/LinuxC#/Linux
  • Java/Linux, Android és iOSJava/Linux, Android, and iOS

REST APIREST API

Míg a Speech SDK számos funkciót tartalmaz a Speech Service szolgáltatásban, bizonyos esetekben érdemes lehet használni a REST API.While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.

Kötegelt átírásBatch transcription

A Batch-átírás lehetővé teszi a nagy mennyiségű adatforgalom aszinkron beszéd-szöveggé átírását.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. A Batch átírása csak a REST API lehetséges.Batch transcription is only possible from the REST API. A beszédfelismerési hang szövegre való konvertálása mellett a Batch beszéd-szöveg is lehetővé teszi a diarization és a hangulat-elemzést.In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.

TestreszabásCustomization

A beszédfelismerési szolgáltatás kiváló funkcionalitást biztosít az alapértelmezett modelljeivel a beszéd-szöveg, a szöveg és a beszéd között, valamint a beszédfelismerési fordításban.The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. Esetenként érdemes lehet az alapkonfigurációt úgy megnövelni, hogy az egyedi használati esettel még jobban működjön.Sometimes you may want to increase the baseline performance to work even better with your unique use case. A beszédfelismerési szolgáltatás számos olyan, kód nélküli testreszabási eszközt tartalmaz, amely megkönnyíti a használatát, és lehetővé teszi, hogy saját adatai alapján versenyképes előnyt hozzon létre egyéni modellekkel.The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. Ezek a modellek csak Ön és a szervezet számára lesznek elérhetők.These models will only be available to you and your organization.

Custom Speech – szövegCustom Speech-to-text

Ha a beszédfelismerés és az átírás egy egyedi környezetben, egyéni akusztikai, nyelvi és kiejtési modelleket hoz létre és tanít a környezeti zajok vagy az iparági specifikus szókincs kezelésére.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. A kód nélküli Custom Speech modellek létrehozása és kezelése a Custom Speech portálonkeresztül érhető el.The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Miután közzétette a Custom Speech modellt, felhasználhatja azt a Speech SDK is.Once the Custom Speech model is published, it can be consumed by the Speech SDK.

Egyéni szöveg – beszédCustom Text-to-speech

Az egyéni hangvezérelt szöveg-beszéd, más néven az egyéni hang olyan online eszközök összessége, amelyek lehetővé teszik a márka számára felismerhető, egyfajta hang létrehozását.Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. A kód nélküli egyéni hangmodellek létrehozása és kezelése az Egyéni Hangportálonkeresztül érhető el.The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Miután közzétette az egyéni hangmodellt, azt a Speech SDK is felhasználhatja.Once the Custom Voice model is published, it can be consumed by the Speech SDK.

A Speech SDK beszerzéseGet the Speech SDK

A Speech SDK a Windows 10 és a Windows Server 2016-es vagy újabb verzióit támogatja.The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. A korábbi verziók nem támogatottak hivatalosan.Earlier versions are not officially supported. A Speech SDK egyes részeit a Windows korábbi verzióival is használhatja, bár ez nem ajánlott.It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.


Windows

RendszerkövetelményekSystem requirements

A Windowson futó Speech SDK használatához a Microsoft Visual C++ újraterjeszthető változata szükséges a Visual Studio 2019-hez a rendszeren.The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.

C#C#

A .NET Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2,0-es implementációjában további információkat talál a Microsoft. CognitiveServices . Speech témakörben.The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .


C#

C# NuGet-csomagC# NuGet Package

A .NET Speech SDK a következő paranccsal telepíthető a a .net Core parancssori felületeból dotnet add .The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add command.

dotnet add package Microsoft.CognitiveServices.Speech

A .NET Speech SDK a következő paranccsal telepíthető a Package managerből Install-Package .The .NET Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

További forrásokAdditional resources

A mikrofonos bevitelhez telepíteni kell a Multimédia alaprendszer kódtárakat.For microphone input, the Media Foundation libraries must be installed. Ezek a kódtárak a Windows 10 és a Windows Server 2016 rendszer részét képezik.These libraries are part of Windows 10 and Windows Server 2016. Ezen könyvtárak nélkül is használhatja a Speech SDK-t, ha a mikrofon nem hangbemeneti eszközként van használatban.It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.

A szükséges Speech SDK-fájlokat az alkalmazással megegyező könyvtárba lehet telepíteni.The required Speech SDK files can be deployed in the same directory as your application. Így az alkalmazás közvetlenül hozzáférhet a könyvtárakhoz.This way your application can directly access the libraries. Ügyeljen arra, hogy a megfelelő verziót (x86/x64) válassza, amely megfelel az alkalmazásnak.Make sure you select the correct version (x86/x64) that matches your application.

Name (Név)Name FüggvényFunction
Microsoft.CognitiveServices.Speech.core.dll A natív és felügyelt központi telepítéshez szükséges Core SDKCore SDK, required for native and managed deployment
Microsoft.CognitiveServices.Speech.csharp.dll Felügyelt központi telepítéshez szükségesRequired for managed deployment

Megjegyzés

A Microsoft.CognitiveServices.Speech.csharp.bindings.dll (korábbi kiadásokban szállított) fájl kiadási 1.3.0 kezdve többé nem szükséges.Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. A funkció most már integrálva van az alap SDK-val.The functionality is now integrated in the core SDK.

Fontos

A Windows Forms-alkalmazás (.NET-keretrendszer) C# projekt esetében ellenőrizze, hogy a kódtárak szerepelnek-e a projekt központi telepítési beállításaiban.For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. Ezt a következő szakaszban tekintheti meg: Properties -> Publish Section .You can check this under Properties -> Publish Section. Kattintson a Application Files gombra, és keresse meg a megfelelő könyvtárakat a legördülő listából.Click the Application Files button and find corresponding libraries from the scroll down list. Győződjön meg arról, hogy a érték a következőre van beállítva: Included .Make sure the value is set to Included. A Visual Studio tartalmazni fogja a fájlt a projekt közzétételekor vagy telepítésekor.Visual Studio will include the file when project is published/deployed.

C++C++

A C++ Speech SDK Windows, Linux és macOS rendszeren érhető el.The C++ Speech SDK is available on Windows, Linux, and macOS. További információ: Microsoft. CognitiveServices. Speech .For more information, see Microsoft.CognitiveServices.Speech .


C++

C++ NuGet-csomagC++ NuGet package

A C++ Speech SDK a következő paranccsal telepíthető a Package managerből Install-Package .The C++ Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

További forrásokAdditional resources

PythonPython

A Python Speech SDK Python Package index (PyPI) modulként érhető el, további információ: Azure-cognitiveservices-Speech .The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . A Python Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerekkel.The Python Speech SDK is compatible with Windows, Linux, and macOS.


Python
pip install azure-cognitiveservices-speech

Tipp

Ha macOS rendszeren fut, előfordulhat, hogy a következő parancsot kell futtatnia ahhoz, hogy a fenti pip-parancs működjön:If you are on macOS, you may need to run the following command to get the pip command above to work:

python3 -m pip install --upgrade pip

További forrásokAdditional resources

JavaJava

Az Androidhoz készült Java SDK a szükséges kódtárakat és a szükséges Android-engedélyeket tartalmazza.The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. A szolgáltatás egy Maven-tárházban található a https://csspeechstorage.blob.core.windows.net/maven/ csomagban com.microsoft.cognitiveservices.speech:client-sdk:1.15.0 .It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/ as package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0.


Java

Ha a csomagot a Android Studio-projektből kívánja felhasználni, hajtsa végre a következő módosításokat:To consume the package from your Android Studio project, make the following changes:

  1. A projekt szintű Build. gradle fájlban adja hozzá a következőt a repositories szakaszhoz:In the project-level build.gradle file, add the following to the repositories section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. A modul szintű Build. gradle fájlban adja hozzá a következőt a dependencies szakaszhoz:In the module-level build.gradle file, add the following to the dependencies section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.15.0'

A Java SDK a Speech Devices SDKrésze is.The Java SDK is also part of the Speech Devices SDK.

További forrásokAdditional resources

Fontos

Az Azure Cognitive Services Speech SDK-k bármelyikének letöltésével elfogadja a licencét.By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. További információ:For more information, see:

Minta forráskódjaSample source code

A Speech SDK csapata aktívan megőrzi a példák széles választékát egy nyílt forráskódú tárházban.The Speech SDK team actively maintains a large set of examples in an open-source repository. A minta forráskódjának tárházát a githubon található Microsoft Cognitive Services Speech SDK webhelyén találja.For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . A C#, a C++, a Java, a Python, az Objective-C, a Swift, a JavaScript, a UWP, az Unity és a Xamarin mintái vannak.There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.


GitHub

További lépésekNext steps