Wat is de Speech-service?What is the Speech service?

De Speech-service verenigt de Azure-spraakfuncties die voorheen beschikbaar waren via de services Bing Speech-API, Translator Speech, Custom Speech en Custom Voice.The Speech service unites the Azure speech features previously available via the Bing Speech API, Translator Speech, Custom Speech, and Custom Voice services. Eén abonnement biedt nu toegang tot al deze mogelijkheden.Now, one subscription provides access to all of these capabilities.

Net zoals de andere Azure-spraakservices wordt de Speech-service mogelijk gemaakt door de bewezen spraaktechnologieën die worden gebruikt in producten zoals Cortana en Microsoft Office.Like the other Azure speech services, the Speech service is powered by the proven speech technologies used in products like Cortana and Microsoft Office. U kunt rekenen op de kwaliteit van de resultaten en de betrouwbaarheid van de Azure-cloud.You can count on the quality of the results and the reliability of the Azure cloud.

Notitie

De Speech-service is momenteel beschikbaar als openbare preview-versie.The Speech service is currently in public preview. Kom hier regelmatig terug voor documentatie-updates, nieuwe codevoorbeelden en meer.Return here regularly for documentation updates, new code samples, and more.

Belangrijkste functies van de Speech-serviceMain Speech service functions

De primaire functies van de Speech-service zijn Spraak naar tekst (ook wel spraakherkenning of transcriptie genoemd), Tekst naar spraak (spraaksynthese) en Spraakomzetting.The primary functions of the Speech service are Speech to Text (also called speech recognition or transcription), Text to Speech (speech synthesis), and Speech Translation.

FunctieFunction FunctiesFeatures
Spraak naar tekstSpeech to Text
  • Transcribeert continue realtime spraak naar tekst.Transcribes continuous real-time speech into text.
  • Kan spraak uit geluidsopnamen in batches transcriberen.Can batch-transcribe speech from audio recordings.
  • Biedt herkenningsmodi voor interactieve, conversationele en dicterende gebruiksscenario’s.Offers recognition modes for interactive, conversation, and dictation use cases.
  • Ondersteunt tussenliggende resultaten, detectie van het einde van de spraak, automatische tekstopmaak en maskering van grof taalgebruik.Supports intermediate results, end-of-speech detection, automatic text formatting, and profanity masking.
  • Kan Language Understanding (LUIS) gebruiken om de bedoeling van gebruikers af te leiden van getranscribeerde spraak.*Can call on Language Understanding (LUIS) to derive user intent from transcribed speech.*
Tekst naar spraakText to Speech
  • Converteert tekst naar natuurlijk klinkende spraak.Converts text to natural-sounding speech.
  • Biedt meerdere geslachten en/of dialecten voor vele ondersteunde talen.Offers Multiple genders and/or dialects for many supported languages.
  • Ondersteunt de invoer van tekst zonder opmaak en Speech Synthesis Markup Language (SSML).Supports plain text input or Speech Synthesis Markup Language (SSML).
SpraakomzettingSpeech Translation
  • Vertaalt streaming audio vrijwel in realtime.Translates streaming audio in near-real-time
  • Kan ook opgenomen spraak verwerken.Can also process recorded speech
  • Levert resultaten als tekst of gesynthetiseerde spraak.Provides results as text or synthesized speech.

* Herkenning van bedoeling vereist een LUIS-abonnement.* Intent recognition requires a LUIS subscription.

Spraakfuncties aanpassenCustomizing speech features

Met de Speech-service kunt u uw eigen gegevens gebruiken om de onderliggende modellen van de functies Spraak naar tekst en Tekst naar spraak van de Speech-service te trainen.The Speech service lets you use your own data to train the models underlying the Speech service's Speech to Text and Text to Speech features.

FunctieFeature ModelModel DoelPurpose
Spraak naar tekstSpeech to Text Akoestisch modelAcoustic model Helpt bepaalde sprekers en omgevingen zoals auto’s of fabrieken te transcriberenHelps transcribe particular speakers and environments, such as cars or factories
TaalmodelLanguage model Helpt veldspecifiek vocabulaire en grammatica zoals medisch of IT-jargon te transcriberenHelps transcribe field-specific vocabulary and grammar, such as medical or IT jargon
UitspraakmodelPronunciation model Helpt afkortingen en acroniemen zoals ‘IOU’ voor ‘I owe you’ te transcriberenHelps transcribe abbreviations and acronyms, such as "IOU" for "i oh you"
Tekst naar spraakText to Seech SpraakstijlVoice font Geeft uw app zijn eigen stem door het model te trainen in voorbeelden van menselijke spraak.Gives your app a voice of its own by training the model on samples of human speech.

Zodra uw aangepaste modellen zijn gemaakt, kunnen ze overal worden gebruikt waar u de standaardmodellen zou gebruiken in de functie Spraak naar tekst of Tekst naar spraak van uw app.Once created, your custom models can be used anywhere you'd use the standard models in your app's Speech to Text or Text to Speech functionality.

De Speech-service gebruikenUsing the Speech service

Om de ontwikkeling van apps met spraakmogelijkheden te vereenvoudigen, biedt Microsoft de Speech-SDK voor gebruik met de nieuwe Speech-service.To simplify the development of speech-enabled applications, Microsoft provides the Speech SDK for use with the new Speech service. De Speech-SDK biedt consistente systeemeigen API’s voor Spraak naar tekst en Spraakomzetting voor C#, C++ en Java.The Speech SDK provides consistent native Speech to Text and Speech Translation APIs for C#, C++, and Java. Als u met een van deze talen ontwikkelt, maakt de Speech-SDK het ontwikkelen gemakkelijker door de netwerkgegevens voor u te verwerken.If you're developing with one of these languages, the Speech SDK makes development easier by handling the network details for you.

De Speech-service heeft ook een REST-API die werkt met elke programmeertaal die HTTP-verzoeken kan indienen.The Speech service also has a REST API that works with any programming language that can make HTTP requests. De REST-interface biedt echter niet de streaming, realtime functionaliteit die de SDK biedt.The REST interface, however, does not offer the streaming, real-time functionality ofthe SDK.


MethodeMethod
SpeechSpeech
naar tekstto Text
Tekst naarText to
SpeechSpeech
SpeechSpeech
OmzettingTranslation

BeschrijvingDescription
Speech-SDKSpeech SDK JaYes NeeNo JaYes Systeemeigen API’s voor C#, C++ en Java om ontwikkeling te vereenvoudigen.Native APIs for C#, C++, and Java to simplify development.
RESTREST JaYes JaYes NeeNo Een eenvoudige HTTP-gebaseerde API die het gemakkelijk maakt spraak aan uw apps toe te voegen.A simple HTTP-based API that makes it easy to add speech to your applications.

WebSocketsWebSockets

De Speech-service heeft ook WebSockets-protocollen om Spraak naar tekst en Spraakomzetting te streamen.The Speech service also has WebSockets protocols for streaming Speech to Text and Speech Translation. De Speech-SDK’s gebruiken deze protocollen om met de Speech-service te communiceren.The Speech SDKs use these protocols to communicate with the Speech service. U moet de Speech-SDK gebruiken in plaats van uw eigen WebSockets-communicatie proberen te implementeren met de Speech-service.You should use the Speech SDK rather than trying to implement your own WebSockets communication with the Speech service.

Als u echter al code hebt die Bing Speech of Translator Speech via WebSockets gebruikt, kan deze gemakkelijk worden bijgewerkt om de Speech-service te gebruiken.If you already have code that uses Bing Speech or Translator Speech via WebSockets, though, it is straightforward to update it to use the Speech service. De WebSockets-protocollen zijn compatibel; alleen de eindpunten zijn anders.The WebSockets protocols are compatible; only the endpoints are different.

Speech Devices SDKSpeech Devices SDK

De Speech Devices SDK is een geïntegreerd hardware- en softwareplatform voor ontwikkelaars van apparaten met spraakmogelijkheden.The Speech Devices SDK is an integrated hardware and software platform for developers of speech-enabled devices. Onze hardwarepartner biedt referentieontwerpen en ontwikkelingseenheden.Our hardware partner provides reference designs and development units. Microsoft biedt een apparaatgeoptimaliseerde SDK die de mogelijkheden van de hardware volledig benut.Microsoft provides a device-optimized SDK that takes full advantage of the hardware's capabilities.

Spraakscenario'sSpeech scenarios

Gebruiksscenario’s voor de Speech-service omvatten:Use cases for the Speech service include:

  • Ontwikkeling van apps die reageren op stemmenCreate voice-triggered apps
  • Transcriptie van callcenteropnamenTranscribe call center recordings
  • Implementatie van spraakbotsImplement voice bots

Gebruikersinterface voor spraakVoice user interface

Spraakinvoer is een geweldige manier om uw app flexibel, handsfree en snel te gebruiken te maken.Voice input is a great way to make your app flexible, hands-free, and quick to use. In een app met spraakmogelijkheden kunnen gebruikers gewoon om de gewenste informatie vragen in plaats van ernaar te moeten navigeren.In a voice-enabled app, users can just ask for the information they want rather than needing to navigate to it.

Als uw app is bedoeld voor gebruik door het algemene publiek, kunt u de standaard spraakherkenningsmodellen gebruiken.If your app is intended for use by the general public, you can use the default speech recognition models. Die zijn goed in het herkennen van vele verschillende sprekers in algemene omgevingen.They do a good job of recognizing a wide variety of speakers in common environments.

Als uw app in een specifiek domein (bijvoorbeeld medisch of IT) zal worden gebruikt, kunt u een taalmodel maken om de Speech-service de speciale terminologie aan te leren die door uw app wordt gebruikt.If your app will be used in a specific domain (for example, medicine or IT), you can create a language model to teach the Speech service about the special terminology used by your app.

Als uw app in een lawaaierige omgeving (bijvoorbeeld een fabriek) zal worden gebruikt, kunt u een aangepast akoestisch model maken om de Speech-service spraak en lawaai beter te kunnen laten onderscheiden.If your app will be used in a noisy environment, such as a factory, you can create a custom acoustic model to better allow the Speech service to distinguish speech from noise.

Om aan de slag te gaan, downloadt u gewoon de Speech-SDK en leest u een relevant snelstartartikel.Getting started is as easy as downloading the Speech SDK and following a relevant Quickstart article.

CallcentertranscriptieCall center transcription

Callcenteropnamen worden vaak alleen geraadpleegd als er tijdens het gesprek een probleem optreedt.Often, call center recordings are only consulted if an issue arises with a call. Met de Speech-service kan elke opname gemakkelijk worden getranscribeerd naar tekst.With the Speech service, it's easy to transcribe every recording to text. Zodra opnamen in tekstvorm zijn, kunt u ze gemakkelijk indexeren voor zoekopdrachten in volledige tekst of tekstanalyse toepassen om gevoel, taal en belangrijke woordgroepen te detecteren.Once they're text, you can easily index them for full-text search or apply Text Analytics to detect sentiment, language, and key phrases.

Als uw callcenteropnamen speciale terminologie (zoals productnamen of IT-jargon) bevatten, kunt u een taalmodel maken om de Speech-service dat vocabulaire aan te leren.If your call center recordings revolve around specialized terminology (such as product names or IT jargon), you can create a language model to teach the Speech service that vocabulary. Een aangepast akoestisch model kan de Speech-service helpen niet zo goede telefoonverbindingen te begrijpen.A custom acoustic model can help the Speech service understand less-than-optimal phone connections.

Voor meer informatie over dit scenario leest u meer over batchtranscriptie met de Speech-service.For more information about this scenario, read more about batch transcription with the Speech service.

SpraakbotsVoice bots

Bots zijn een steeds populairdere manier om gebruikers te verbinden met de informatie die ze graag willen, en klanten met de bedrijven die ze graag gebruiken.Bots are an increasingly popular way of connecting users with the information they want, and customers with the businesses they love. Als u een conversationele gebruikersinterface aan uw website of app toevoegt, is de functionaliteit ervan gemakkelijker te vinden en sneller te gebruiken.Adding a conversational user interface to your Web site or app makes its functionality easier to find and quicker to access. Met de Speech-service wordt deze conversatie nóg vloeiender door te reageren op gesproken vragen.With the Speech service, this conversation takes on a new dimension of fluency by responding to spoken queries in kind.

Door een unieke personaliteit aan uw bot met spraakmogelijkheden toe te voegen (en uw merk te versterken), kunt u deze een eigen stem geven.To add a unique personality to your voice-enabled bot (and strengthen your brand), you can give it a voice of its own. U kunt in twee stappen een aangepaste stem maken.Creating a custom voice is a two-step process. Eerst maakt u opnamen van de stem die u wilt gebruiken.First, you make recordings of the voice you want to use. Vervolgens verzendt u die opnamen (samen met een transcriptie) naar de stemaanpassingsportal van de Speech-service, die de rest doet.Then you submit those recordings (along with a text transcript) to the Speech service's voice customization portal, which does the rest. Zodra u uw aangepaste stem hebt gemaakt, kunt u deze gemakkelijk in uw app gebruiken.Once you've created your custom voice, it's straightforward to use it in your app.

Volgende stappenNext steps

Verkrijg een abonnementssleutel voor de Speech-service.Get a subscription key for the Speech service.