Tal tjänster för telefoni dataSpeech Services for telephony data

Telefoni data som genereras via landlines, mobil telefoner och radio är normalt låg kvalitet och Narrowband i intervallet 8 KHz, vilket skapar utmaningar när tal-till-text konverteras.Telephony data that is generated through landlines, mobile phones, and radios are typically low quality, and narrowband in the range of 8 KHz, which creates challenges when converting speech-to-text. De senaste tal igenkännings modellerna från Azure Speech Services i Excel vid inmatning av dessa telefoni data, även i fall då det är svårt för människor att förstå dem.The latest speech recognition models from Azure Speech Services excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand. Dessa modeller tränas med stora volymer av telefoni data och har bästa möjliga marknads igenkännings precision, även i miljöer med störningar.These models are trained with large volumes of telephony data, and have best in market recognition accuracy, even in noisy environments.

Ett vanligt scenario för tal till text är att skriva över stora volymer av telefoni data som kan komma från olika system, till exempel interaktivt röst svar (IVR).A common scenario for speech-to-text is transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Det ljud som dessa system erbjuder kan vara stereo eller mono, och RAW med lite-till-ingen-bearbetning som utförs på signalen.The audio these systems provide can be stereo or mono, and raw with little-to-no post processing done on the signal. Med tal tjänster och Unified tal-modellen kan ett företag få kvalitets avskrifter, oavsett vilka system som används för att avbilda ljud.Using Speech Services and the Unified speech model, a business can get high-quality transcriptions, whatever the systems used to capture audio.

Telefoni data kan användas för att bättre förstå dina kunders behov, identifiera nya marknadsförings möjligheter eller utvärdera prestanda för Call Center-agenter.Telephony data can be used to better understand your customers' needs, identify new marketing opportunities, or evaluate the performance of call center agents. När data har tilldelats kan ett företag använda utdata för förbättrad telemetri, identifiera nyckel fraser eller analysera kund sentiment.After the data is transcribed, a business can use the output for improved telemetry, identifying key phrases, or analyzing customer sentiment.

De tekniker som beskrivs i den här sidan är av Microsoft internt för olika Support tjänster för tjänst hantering, både i real tid och batchläge.The technologies outlined in this page are by Microsoft internally for various support call processing services, both in real-time and batch mode.

Nu ska vi gå igenom några av de tekniker och relaterade funktionerna i Azure Speech Services-erbjudandet.Let's review some of the technology and related features Azure Speech Services offer.

Viktigt

Tal tjänster enhetlig modell tränas med olika data och erbjuder en enda modell lösning till ett antal scenarier från Diktering till telefoni analys.Speech Services Unified model is trained with diverse data and offers a single model solution to a number of scenario from Dictation to Telephony analytics.

Azure-teknik för Call CenterAzure Technology for Call Centers

Utöver den funktionella aspekten av tal tjänsternas primära syfte – är det bättre att förbättra kund upplevelsen.Beyond the functional aspect of the Speech Services their primary purpose – when applied to the call center – is to improve the customer experience. Det finns tre tydliga domäner i detta hänseende:Three clear domains exist in this regard:

  • Analys efter anrop som är en batchbearbetning av anrops inspelningarPost-call analytics that is, batch processing of call recordings
  • Analys i real tid av ljud signalen för att extrahera olika insikter när samtalet sker (med sentiment är ett framträdande användnings fall) ochReal-time analytics processing of the audio signal to extract various insights as the call is taking place (with sentiment being a prominent use case) and
  • Virtuella assistenter (robotar), antingen genom att köra dialogen mellan kunden och roboten i ett försök att lösa kundens problem med ingen agent medverkan eller att använda AI-protokoll för att hjälpa agenten.Virtual Assistants (Bots), either driving the dialogue between the customer and the bot in an attempt to solve the customer's issue with no agent participation, or being the application of AI protocols to assist the agent.

Ett typiskt arkitektur diagram över implementeringen av ett batch-scenario visas i bilden nedan Call Center avskrifts arkitektur A typical architecture diagram of the implementation of a batch scenario is depicted in the picture below Call center transcription architecture

Teknik komponenter för tal analysSpeech Analytics Technology Components

Oavsett om domänen är post-Call eller i real tid erbjuder Azure en uppsättning av de mest mogna och nya teknikerna för att förbättra kund upplevelsen.Whether the domain is post-call or real-time, Azure offers a set of mature and emerging set of technologies to improve the customer experience.

Tal till text (STT)Speech to text (STT)

Tal till text är den mest sökta efter-funktionen i en Call Center-lösning.Speech-to-text is the most sought after feature in any call center solution. Eftersom många av de efterföljande analys processerna förlitar sig på överformulerad text, är ordet fel frekvens (WER) ytterst viktigt.Since many of the downstream analytics processes rely on transcribed text, the word error rate (WER) is of utmost importance. En av de viktigaste utmaningarna i inmatnings centret är bruset som är vanligt i Call Center (till exempel andra agenter som talar i bakgrunden), de många olika språkvarianterna och dialekterna samt den låga kvaliteten på själva telefon signalen.One of the key challenges in call center transcription is the noise that’s prevalent in the call center (for example other agents speaking in the background), the rich variety of language locales and dialects as well as the low quality of the actual telephone signal. WER är mycket korrelerat med hur väl ljud-och språk modellerna tränas för ett specifikt språk, vilket innebär att det är viktigt att anpassa modellen till dina nationella inställningar.WER is highly correlated with how well the acoustic and language models are trained for a given locale, thus being able to customize the model to your locale is important. Våra senaste enhetliga version 4. x-modeller är lösningen för både avskrifts precision och svars tid.Our latest Unified version 4.x models are the solution to both transcription accuracy and latency. Tränad med tusentals timmar av akustiska data och miljarder av lexikalisk information enhetliga modeller är de mest exakta modellerna på marknaden för att skriva av anrops Center data.Trained with tens of thousands of hours of acoustic data and billions of lexical information Unified models are the most accurate models in the market to transcribe call center data.

SentimentSentiment

Att mäta om kunden hade en bra upplevelse är ett av de viktigaste områdena i tal analys när de tillämpas på det utrymme som används i anrops centret.Gauging whether the customer had a good experience is one of the most important areas of Speech analytics when applied to the call center space. Vårt API för batch-avskrift erbjuder sentiment analys per uttryck.Our Batch Transcription API offers sentiment analysis per utterance. Du kan aggregera den uppsättning värden som erhålls som en del av en samtals avskrift för att fastställa sentiment för anropet för både dina agenter och kunden.You can aggregate the set of values obtained as part of a call transcript to determine the sentiment of the call for both your agents and the customer.

Tystnad (icke-prata)Silence (non-talk)

Det är inte ovanligt för 35 procent av ett support samtal att vara vad vi kallar för att inte tala om tid.It is not uncommon for 35 percent of a support call to be what we call non-talk time. Vissa scenarier som inte är pratar: agenter som söker efter tidigare ärende historik med en kund, agenter som använder verktyg som gör det möjligt för dem att komma åt kundens skriv bord och utföra funktioner, kunder som är på plats i väntan på överföring och så vidare.Some scenarios which non-talk occurs are: agents looking up prior case history with a customer, agents using tools which allow them to access the customer's desktop and perform functions, customers sitting on hold waiting for a transfer and so on. Det är mycket viktigt att kunna mäta när tystnad sker i ett samtal eftersom det finns många viktiga kund sensitivities som inträffar kring de här typerna av scenarier och var de sker i anropet.It is extremely important to can gauge when silence is occurring in a call as there are number of important customer sensitivities that occur around these types of scenarios and where they occur in the call.

ÖversättningTranslation

Vissa företag experimenterar med att tillhandahålla översatta avskrifter från support samtal på främmande språk så att leverans ansvariga kan förstå den världs omfattande upplevelsen av sina kunder.Some companies are experimenting with providing translated transcripts from foreign languages support calls so that delivery managers can understand the world-wide experience of their customers. Våra översättnings funktioner är inte överskridna.Our translation capabilities are unsurpassed. Vi kan översätta ljud till ljud eller ljud till text från ett stort antal språk.We can translate audio to audio or audio to text from a large number of locales.

Text till talText to Speech

Text till tal är ett annat viktigt utrymme för att implementera robotar som interagerar med kunderna.Text-to-speech is another important area in implementing bots that interact with the customers. Typisk väg är att kunden pratar, att deras röst skrivs till text, att texten analyseras för avsikter, ett svar är syntetiskt baserat på känd avsikt och att en till gång antingen är riktad mot kunden eller ett syntetiskt röst svar är ges.The typical pathway is that the customer speaks, their voice is transcribed to text, the text is analyzed for intents, a response is synthesized based on the recognized intent, and then an asset is either surfaced to the customer or a synthesized voice response is generated. Naturligtvis är allt detta att inträffa snabbt, och därför är svars tiden en viktig komponent när systemen lyckas.Of course all of this has to occur quickly – thus latency is an important component in the success of these systems.

Vår svars tid från slut punkt till slut punkt är ganska låg som beaktar de olika teknikerna som till exempel tal-till-text, Luis, bot Framework, text till tal.Our end-to-end latency is pretty low considering the various technologies involved such as Speech-to-text, LUIS, Bot Framework, Text-to-Speech.

Våra nya röster är också särskiljbar från mänskliga röster.Our new voices are also indistinguishable from human voices. Du kan använda-röster för att ge din robot sitt unika personlighet.You can use out voices to give your bot its unique personality.

En annan häftklammer av analys är att identifiera interaktioner där en speciell händelse eller erfarenhet har inträffat.Another staple of analytics is to identify interactions where a specific event or experience has occurred. Detta görs vanligt vis med en av två metoder, antingen en ad hoc-sökning där användaren bara skriver en fras och systemet svarar eller en mer strukturerad fråga där en analytiker kan skapa en uppsättning logiska uttryck som identifierar ett scenario i ett anrop och varje anrop kan indexeras mot dessa uppsättningar med frågor.This is typically done with one of two approaches, either an ad hoc search where the user simply types a phrase and the system responds, or a more structured query, where an analyst can create a set of logical statements that identify a scenario in a call, and then each call can be indexed against those set of queries. Ett bra Sökexempel är allmänt förekommande Compliance "detta samtal skall registreras i kvalitets syfte...A good search example is the ubiquitous compliance statement “this call shall be recorded for quality purposes… "– så många företag vill vara säkra på att deras agenter tillhandahåller denna fri skrivning till kunderna innan samtalet faktiskt registreras.“ – as many companies want to make sure that their agents are providing this disclaimer to customers before the call is actually recorded. De flesta analys system har möjlighet att kunna trenda de beteenden som upptäckts av Query/search-algoritmer – eftersom den här rapporteringen av trender i slut änden är en av de viktigaste funktionerna i ett analys system.Most analytics systems have the ability to trend the behaviors found by query /search algorithms – as this reporting of trends is ultimately one of the most important functions of an analytics system. Med hjälp av kognitiva tjänster-katalogen kan din end to end-lösning förbättras avsevärt med indexerings-och Sök funktioner.Through Cognitive services directory your end to end solution can be significantly enhanced with indexing and search capabilities.

Extrahering av nyckelfraserKey Phrase Extraction

Det här avsnittet är ett av de mer utmanande analys programmen och en som drar nytta av AI och ML-program.This area is one of the more challenging analytics applications and one that is benefiting from the application of AI and ML. Det främsta scenariot här är att härleda kund avsikten.The primary scenario here is to infer the customer intent. Varför ringer kunden upp?Why is the customer calling? Vad är kund problemet?What is the customer problem? Varför har kunden en negativ upplevelse?Why did the customer have a negative experience? Vår text analys tjänst innehåller en uppsättning analys funktioner för att snabbt uppgradera din end to end-lösning för att extrahera de viktiga nyckelorden eller fraserna.Our Text analytics service provides a set of analytics out of the box for quickly upgrading your end to end solution to extract those important keywords or phrases.

Nu har vi en titt på batchbearbetningen och real tids pipelinen för tal igenkänning i lite mer information.Let's now have a look at the batch processing and the real-time pipelines for speech recognition in a bit more detail.

Batch-avskrift av Call Center-dataBatch transcription of call center data

För att skriva över en mängd ljud har vi utvecklat API för batch-Avskriftering.For transcribing bulk of audio we developed the Batch Transcription API. API: et för batch-avskrift utvecklades för att kunna skriva av stora mängder ljuddata asynkront.The Batch Transcription API was developed to transcribe large amounts of audio data asynchronously. När det gäller att skriva av anrops Center data baseras vår lösning på dessa pelare:With regards to transcribing call center data, our solution is based on these pillars:

  • Exakthet: med fjärde generationens enhetliga modeller erbjuder vi oöverträffad avskrifts kvalitet.Accuracy: With fourth-generation Unified models, we offer unsurpassed transcription quality.
  • Svars tid: vi förstår att när du utför Mass avskrifter behövs avskrifterna snabbt.Latency: We understand that when doing bulk transcriptions, the transcriptions are needed quickly. Avskrifts jobben som initieras via batch-Avskrifts-API: n placeras i kö omedelbart och när jobbet börjar köras körs det snabbare än avskriften i real tid.The transcription jobs initiated via the Batch Transcription API will be queued immediately, and once the job starts running it's performed faster than real-time transcription.
  • Säkerhet: vi förstår att anrop kan innehålla känsliga data.Security: We understand that calls may contain sensitive data. Rest är att garantera att säkerheten är en av våra högsta prioriteter.Rest assured that security is one of our highest priorities. Vår tjänst har erhållit ISO, SOC, HIPAA, PCI-certifieringar.Our service has obtained ISO, SOC, HIPAA, PCI certifications.

Call centers genererar stora mängder ljud data per dag.Call Centers generate large volumes of audio data on a daily basis. Om ditt företag lagrar telefoni data på en central plats, till exempel Azure Storage, kan du använda API: et för batch-avskrift för att begära och ta emot avskrifter.If your business stores telephony data in a central location, such as Azure Storage, you can use the Batch Transcription API to asynchronously request and receive transcriptions.

En typisk lösning använder dessa tjänster:A typical solution uses these services:

  • Azure Speech Services används för att skriva av tal till text.Azure Speech Services are used to transcribe speech-to-text. En standard prenumeration (SO) för tal tjänster krävs för att använda API: et för batch-avskriftering.A standard subscription (SO) for the Speech Services is required to use the Batch Transcription API. Kostnads fria prenumerationer (F0) kommer inte att fungera.Free subscriptions (F0) will not work.
  • Azure Storage används för att lagra telefoni data och avskrifterna som returneras av batch-avskrifts-API: et.Azure Storage is used to store telephony data, and the transcripts returned by the Batch Transcription API. Det här lagrings kontot bör använda aviseringar, särskilt när nya filer läggs till.This storage account should use notifications, specifically for when new files are added. Dessa meddelanden används för att utlösa avskrifts processen.These notifications are used to trigger the transcription process.
  • Azure Functions används för att skapa en URL för signaturer för delad åtkomst (SAS) för varje inspelning och utlöser HTTP POST-begäran för att starta en avskrift.Azure Functions is used to create the shared access signatures (SAS) URI for each recording, and trigger the HTTP POST request to start a transcription. Dessutom används Azure Functions för att skapa begär Anden för att hämta och ta bort avskrifter med batch-avskrifts-API: et.Additionally, Azure Functions is used to create requests to retrieve and delete transcriptions using the Batch Transcription API.
  • Webhooks används för att få meddelanden när avskrifter har slutförts.WebHooks are used to get notifications when transcriptions are completed.

Internt använder vi tekniken ovan för att stödja Microsofts kund samtal i batch-läge.Internally we are using the above technologies to support Microsoft customer calls in Batch mode. Batch arkitektur Batch Architecture

Real tids avskrift för Call Center-dataReal-time transcription for call center data

Vissa företag krävs för att kunna skriva av konversationer i real tid.Some businesses are required to transcribe conversations in real-time. Real tids avskrifter kan användas för att identifiera nyckel ord och utlösare söker efter innehåll och resurser som är relevanta för konversationen, för att övervaka sentiment, för att förbättra tillgänglighet eller för att tillhandahålla översättningar för kunder och agenter som inte är inbyggda tala.Real-time transcription can be used to identify key-words and trigger searches for content and resources relevant to the conversation, for monitoring sentiment, to improve accessibility, or to provide translations for customers and agents who aren't native speakers.

Vi rekommenderar att du använder tal-SDKför scenarier som kräver avskrifter i real tid.For scenarios that require real-time transcription, we recommend using the Speech SDK. För närvarande är tal-till-text tillgängligt på fler än 20 språkoch SDK är tillgängligt i C++, C#Java, python, Node. js, mål-C och Java Script.Currently, speech-to-text is available in more than 20 languages, and the SDK is available in C++, C#, Java, Python, Node.js, Objective-C, and JavaScript. Det finns exempel på varje språk på GitHub.Samples are available in each language on GitHub. De senaste nyheterna och uppdateringarna finns i viktig information.For the latest news and updates, see Release notes.

Internt använder vi teknikerna ovan för att analysera i real tids kund samtal i real tid när de sker.Internally we are using the above technologies to analyze in real-time Microsoft customer calls as they happen.

Batch-arkitektur

Ett ord på IVRsA word on IVRs

Tal tjänster kan enkelt integreras i en lösning med hjälp av antingen tal-SDK eller REST API.Speech Services can be easily integrated in any solution by using either the Speech SDK or the REST API. Detta kan dock kräva ytterligare tekniker.However, call center transcription may require additional technologies. Normalt krävs en anslutning mellan ett IVR-system och Azure.Typically, a connection between an IVR system and Azure is required. Även om vi inte erbjuder sådana komponenter skulle vi vilja beskriva vad en anslutning till en IVR-Omslut.Although we do not offer such components, we would like to describe what a connection to an IVR entails.

Flera IVR-eller telefoni tjänst produkter (till exempel Generning eller AudioCodes) erbjuder integrations funktioner som kan utnyttjas för att aktivera inkommande och utgående ljud strömning till en Azure-tjänst.Several IVR or telephony service products (such as Genesys or AudioCodes) offer integration capabilities that can be leveraged to enable inbound and outbound audio passthrough to an Azure Service. I princip kan en anpassad Azure-tjänst tillhandahålla ett särskilt gränssnitt för att definiera telefonsamtal (till exempel anrops start-eller anrops slut) och tillhandahålla en WebSocket-API för att ta emot inkommande ström ljud som används med tal tjänsterna.Basically, a custom Azure service might provide a specific interface to define phone call sessions (such as Call Start or Call End) and expose a WebSocket API to receive inbound stream audio that is used with the Speech Services. Utgående svar, till exempel konversations avskrift eller anslutningar med bot Framework, kan syntetiseras med Microsofts text till tal-tjänst och returneras till IVR för uppspelning.Outbound responses, such as conversation transcription or connections with the Bot Framework, can be synthesized with Microsoft's text-to-speech service and returned to the IVR for playback.

Ett annat scenario är direkt SIP-integrering.Another scenario is Direct SIP integration. En Azure-tjänst ansluter till en SIP-server och hämtar därför en inkommande ström och en utgående ström som används för tal-till-text-och text till tal-faserna.An Azure service connects to a SIP Server, thus getting an inbound stream and an outbound stream, which is used for the speech-to-text and text-to-speech phases. För att ansluta till en SIP-server finns kommersiella program erbjudanden, till exempel ozeki SDK eller team som anropar och mötes-API (för närvarande i beta version) som är utformade för att stödja den här typen av scenario för ljud anrop.To connect to a SIP Server there are commercial software offerings, such as Ozeki SDK, or the Teams calling and meetings API (currently in beta), that are designed to support this type of scenario for audio calls.

Anpassa befintliga upplevelserCustomize existing experiences

Azure Speech Services fungerar bra med inbyggda modeller, men du kanske vill anpassa och justera upplevelsen för din produkt eller miljö ytterligare.Azure Speech Services works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Anpassnings alternativ sträcker sig från akustisk modell justering till unika röst teckensnitt för ditt varumärke.Customization options range from acoustic model tuning to unique voice fonts for your brand. När du har skapat en anpassad modell kan du använda den med någon av Azures tal tjänster både i real tid eller i batchläge.After you've built a custom model, you can use it with any of the Azure Speech Services both in real-time or in batch mode.

Tal tjänstSpeech service ModellModel BeskrivningDescription
Tal till textSpeech-to-text Akustisk modellAcoustic model Skapa en anpassad akustisk modell för program, verktyg eller enheter som används i vissa miljöer som i en bil eller på en fabriks våning, var och en med särskilda registrerings villkor.Create a custom acoustic model for applications, tools, or devices that are used in particular environments like in a car or on a factory floor, each with specific recording conditions. Exempel är accenttecken, vissa bakgrunds brus eller med en speciell mikrofon för inspelning.Examples include accented speech, specific background noises, or using a specific microphone for recording.
SpråkmodellLanguage model Skapa en anpassad språk modell för att förbättra avskriften av branschspecifika vokabulär och grammatik, till exempel medicinsk terminologi eller IT-jargong.Create a custom language model to improve transcription of industry-specific vocabulary and grammar, such as medical terminology, or IT jargon.
UttalsmodellPronunciation model Med en anpassad uttal-modell kan du definiera fonetisk form och visa ett ord eller en term.With a custom pronunciation model, you can define the phonetic form and display of a word or term. Det är användbart för att hantera anpassade villkor, till exempel produkt namn eller akronymer.It's useful for handling customized terms, such as product names or acronyms. Allt du behöver för att komma igång är en uttal-fil – en enkel. txt-fil.All you need to get started is a pronunciation file -- a simple .txt file.
Text till talText-to-speech RösttypVoice font Med anpassade röst teckensnitt kan du skapa en igenkännings bara, en-av-en-röst för ditt varumärke.Custom voice fonts allow you to create a recognizable, one-of-a-kind voice for your brand. Det tar bara en liten mängd data att komma igång.It only takes a small amount of data to get started. Den mer information som du anger, desto mer naturlig och mänsklig som ditt röst teckensnitt kommer att ljud.The more data that you provide, the more natural and human-like your voice font will sound.

ExempelkodSample code

Exempel kod finns på GitHub för var och en av Azure Speech Services.Sample code is available on GitHub for each of the Azure Speech Services. De här exemplen beskriver vanliga scenarier som att läsa ljud från en fil eller ström, kontinuerlig och enkel igenkänning och arbeta med anpassade modeller.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Använd dessa länkar om du vill visa SDK: er och REST-exempel:Use these links to view SDK and REST samples:

ReferensdokumentReference docs

Nästa stegNext steps