Speech Service för telefonidata

Telefonidata som genereras via fasta telefoner, mobiltelefoner och radio är vanligtvis av låg kvalitet och smalband i intervallet 8 KHz, vilket skapar utmaningar när du konverterar tal till text. De senaste taligenkänningsmodellerna från Speech Service är bra på att transkribera dessa telefonidata, även om det är svårt för en människa att förstå dessa data. Dessa modeller tränas med stora volymer telefonidata och har bästa igenkänningsprecision på marknaden, även i miljöer med brus.

Ett vanligt scenario för tal till text är att transkribera stora volymer telefonidata som kan komma från olika system, till exempel Interactive Voice Response (IVR). Ljudet som dessa system ger kan vara stereo eller mono, och rå med lite-till-ingen efterbearbetning som görs på signalen. Med hjälp av taltjänsten och unified speech-modellen kan ett företag få transkriptioner av hög kvalitet, oavsett vilka system som används för att samla in ljud.

Telefonidata kan användas för att bättre förstå kundernas behov, identifiera nya marknadsföringsmöjligheter eller utvärdera kundtjänstagentens prestanda. När data har transkriberas kan ett företag använda utdata för exempelvis förbättrad telemetri, identifiera nyckelfraser eller analysera kundens sentiment.

De tekniker som beskrivs på den här sidan är internt av Microsoft för olika tjänster för bearbetning av supportsamtal, både i realtid och i batchläge.

Nu ska vi gå igenom några av tekniken och relaterade funktioner som taltjänsten erbjuder.

Viktigt

Speech Service Unified-modellen tränas med olika data och erbjuder en lösning med en enda modell för ett antal scenarier från diktering till telefonianalys.

Azure-teknik för callcenter

Utöver den funktionella aspekten av Speech-tjänstens funktioner är deras huvudsakliga syfte – när de tillämpas på kundtjänsten – att förbättra kundupplevelsen. Det finns tre tydliga domäner i det här sammanhanget:

  • Analys efter anrop, vilket i princip är batchbearbetning av samtalsinspelningar efter anropet.
  • Realtidsanalys, som bearbetar ljudsignalen för att extrahera olika insikter när anropet sker (där sentiment är ett framträdande användningsfall).
  • Röstassistenter (robotar), som antingen driver dialog mellan kunden och roboten i ett försök att lösa kundens problem utan agentmedverkan, eller att tillämpa AI-protokoll (artificiell intelligens) för att hjälpa agenten.

Ett typiskt arkitekturdiagram över implementeringen av ett batchscenario visas i bilden nedan:  Transkriptionsarkitektur för kundtjänst

Komponenter i Speech Analytics-teknik

Oavsett om domänen är efter anrop eller i realtid erbjuder Azure en uppsättning mogna och nya tekniker för att förbättra kundupplevelsen.

Tal till text (STT)

Tal till text är den mest eftersökta funktionen i alla kundtjänstlösningar. Eftersom många av de underordnade analysprocesserna förlitar sig på transkriberad text är ordet felfrekvens (WER) mycket viktigt. En av de största utmaningarna i kundtjänsttranskribering är bruset som är vanligt i kundtjänsten (till exempel andra agenter som talar i bakgrunden), den omfattande variationen av språkspråk och dialekter samt den faktiska telefonsignalens låga kvalitet. WER är starkt korrelerat med hur väl akustiska modeller och språkmodeller tränas för ett visst språk, vilket innebär att det är viktigt att du kan anpassa modellen efter dina språk. Våra senaste enhetliga version 4.x-modeller är lösningen på både transkriptionsprecision och svarstid. Unified-modeller tränas med tiotusentals timmars akustiska data och miljarder lexikal information och är de mest exakta modellerna på marknaden för att transkribera kundtjänstdata.

Sentiment

Att avgöra om kunden hade en bra upplevelse är ett av de viktigaste områdena för talanalys när det gäller kundtjänstutrymmet. Vårt BATCH-transkriptions-API erbjuder attitydanalys per uttryck. Du kan aggregera den uppsättning värden som erhålls som en del av en samtalsavskrift för att fastställa attityden i anropet för både dina agenter och kunden.

Tystnad (icke-samtal)

Det är inte ovanligt att 35 procent av ett supportsamtal är det vi kallar icke-samtalstid. Vissa scenarier där icke-samtal inträffar är: agenter som letar upp en kunds tidigare ärendehistorik, agenter som använder verktyg som ger dem åtkomst till kundens skrivbord och utför funktioner, kunder som väntar på en överföring och så vidare. Det är mycket viktigt att mäta när tystnad uppstår i ett samtal eftersom det finns många viktiga kundkänsligheter som uppstår runt dessa typer av scenarier och var de förekommer i anropet.

Översättning

Vissa företag experimenterar med att tillhandahålla översatta avskrifter från supportsamtal på främmande språk så att leveransansvariga kan förstå kundernas världsomfattande upplevelse. Våra översättningsfunktioner är osäkra. Vi kan översätta ljud till ljud eller ljud till text för ett stort antal språk.

Text till tal

Text till tal är ett annat viktigt område när det gäller att implementera robotar som interagerar med kunderna. Den typiska vägen är att kunden talar, deras röst transkriberas till text, texten analyseras för avsikter, ett svar syntetiseras baserat på den identifierade avsikten och sedan visas en tillgång för kunden eller så genereras ett syntetiserat röstsvar. Naturligtvis måste allt detta ske snabbt – därför är låg latens en viktig komponent för att dessa system ska lyckas.

Vår svarstid från slutet till slut är betydligt låg för de olika tekniker som ingår, till exempel tal till text, LUIS, Bot Framework, text till tal.

Våra nya röster kan inte heller skiljas från mänskliga röster. Du kan använda våra röster för att ge roboten dess unika personlighet.

Ett annat sätt att analysera är att identifiera interaktioner där en viss händelse eller upplevelse har inträffat. Detta görs vanligtvis med en av två metoder: antingen en ad hoc-sökning där användaren bara skriver en fras och systemet svarar, eller en mer strukturerad fråga där en analytiker kan skapa en uppsättning logiska instruktioner som identifierar ett scenario i ett anrop, och sedan kan varje anrop indexeras mot den uppsättningen frågor. Ett bra sökexempel är den allmänt förekommande efterlevnadssatsen "det här anropet ska registreras i kvalitetssyfte... ". Många företag vill se till att deras agenter tillhandahåller den här ansvarsfriskrivningen till kunder innan samtalet faktiskt registreras. De flesta analyssystem har möjlighet att trenda beteenden som hittas av fråge-/sökalgoritmer, och den här rapporteringen av trender är i slutänden en av de viktigaste funktionerna i ett analyssystem. Via Cognitive Services-katalogen kan din end-to-end-lösning förbättras avsevärt med indexerings- och sökfunktioner.

Extrahering av nyckelfraser

Det här området är ett av de mer utmanande analysprogrammen och ett som drar nytta av ai- och maskininlärning. Det primära scenariot i det här fallet är att dra slutsatsen av kundens avsikt. Varför anropar kunden? Vad är kundproblemet? Varför hade kunden en negativ upplevelse? Vår textanalystjänst tillhandahåller en uppsättning analyser som du kan använda för att snabbt uppgradera din lösning från slutet till slut för att extrahera de viktiga nyckelorden eller fraserna.

Nu ska vi titta närmare på batchbearbetningen och pipelines i realtid för taligenkänning.

Batch-transkription av kundtjänstdata

För att transkribera massljud har vi utvecklat BATCH Transcription-API:et. API:et för batch-transkription utvecklades för att transkribera stora mängder ljuddata asynkront. När det gäller att transkribera kundtjänstdata baseras vår lösning på följande grundpelare:

  • Noggrannhet – Med fjärde generationens enhetliga modeller erbjuder vi en oöverkomlig transkriptionskvalitet.
  • Svarstid – Vi förstår att transkriptionerna behövs snabbt när du utför masstranskriskriptioner. Transkriptionsjobben som initieras via BATCH Transcription-API:et köas omedelbart, och när jobbet börjar köras utförs det snabbare än transkription i realtid.
  • Säkerhet – Vi förstår att anrop kan innehålla känsliga data. Du kan vara säker på att säkerhet är en av våra högsta prioriteter. Vår tjänst har fått ISO-, SOC-, HIPAA- och PCI-certifieringar.

Callcenter genererar stora mängder ljuddata varje dag. Om ditt företag lagrar telefonidata på en central plats, till exempel Azure Storage, kan du använda BATCH-transkription-API:et för att asynkront begära och ta emot transkriptioner.

En typisk lösning använder dessa tjänster:

  • Taltjänsten används för att transkribera tal till text. En standardprenumeration (S0) för Speech-tjänsten krävs för att använda Batch Transcription-API:et. Kostnadsfria prenumerationer (F0) fungerar inte.
  • Azure Storage används för att lagra telefonidata och de avskrifter som returneras av Batch Transcription-API:et. Det här lagringskontot bör använda meddelanden, särskilt när nya filer läggs till. Dessa meddelanden används för att utlösa transkriptionsprocessen.
  • Azure Functions används för att skapa SAS-URI:n (signaturer för delad åtkomst) för varje inspelning och utlösa HTTP POST-begäran för att starta en transkription. Dessutom används Azure Functions för att skapa begäranden om att hämta och ta bort transkriptioner med batch-transkriptions-API:et.

Internt använder vi ovanstående tekniker för att stödja Microsoft-kundsamtal i Batch-läge. Tekniker som används för att stödja Microsoft-kundsamtal i Batch-läge.

Transkription i realtid för kundtjänstdata

Vissa företag måste transkribera konversationer i realtid. Transkription i realtid kan användas för att identifiera nyckelord och utlösa sökningar efter innehåll och resurser som är relevanta för konversationen, för att övervaka sentiment, förbättra tillgängligheten eller för att tillhandahålla översättningar för kunder och agenter som inte har inbyggda talare.

För scenarier som kräver transkription i realtid rekommenderar vi att du använder Speech SDK. För närvarande är tal till text tillgängligt på fler än 20språk och SDK är tillgängligt i C++, C#, Java, Python, JavaScript, Objective-C och Go. Exempel är tillgängliga på varje språk på GitHub. De senaste nyheterna och uppdateringarna finns i Release Notes.

Internt använder vi ovanstående tekniker för att analysera Microsoft-kundsamtal i realtid när de sker, som du ser i följande diagram.

Batch-arkitektur

Ett ord om IVR

Speech-tjänsten kan enkelt integreras i alla lösningar med hjälp av antingen Speech SDK eller REST API. Kundtjänsttranskribering kan dock kräva ytterligare teknik. Normalt krävs en anslutning mellan ett IVR-system och Azure. Även om vi inte erbjuder sådana komponenter är det här en beskrivning av vad en anslutning till en IVR innebär.

Flera IVR- eller telefonitjänstprodukter (till exempel Genesys eller AudioCodes) erbjuder integreringsfunktioner som kan utnyttjas för att möjliggöra inkommande och utgående ljudöverföring till en Azure-tjänst. I princip kan en anpassad Azure-tjänst tillhandahålla ett specifikt gränssnitt för att definiera telefonsamtalssessioner (till exempel samtalsstart eller samtalsslut) och exponera ett WebSocket-API för att ta emot inkommande strömljud som används med Speech-tjänsten. Utgående svar, till exempel samtalstranskribering eller anslutningar med Bot Framework, kan syntetiseras med Microsofts text-till-tal-tjänst och returneras till IVR för uppspelning.

Ett annat scenario är direkt integrering med SIP (Session Initiation Protocol). En Azure-tjänst ansluter till en SIP-server och hämtar därmed en inkommande dataström och en utgående dataström som används för tal till text- och text till tal-faserna. För att ansluta till en SIP-server finns kommersiella programvaruerbjudanden, till exempel Ozeki SDK eller API:et för Teams-anrop och möten (för närvarande i betaversion), som är utformade för att stödja den här typen av scenario för ljudanrop.

Anpassa befintliga upplevelser

Taltjänsten fungerar bra med inbyggda modeller. Men du kanske vill anpassa och finjustera upplevelsen för din produkt eller miljö ytterligare. Anpassningsalternativen sträcker sig från akustisk modelljustering till unika rösttyper för ditt varumärke. När du har skapat en anpassad modell kan du använda den med någon av Speech-tjänstens funktioner i realtids- eller batchläge.

Tjänst för taligenkänning Modell Description
Tal till text Akustisk modell Skapa en anpassad akustisk modell för program, verktyg eller enheter som används i vissa miljöer som i en bil eller på fabriksgolvet, var och en med specifika inspelningsvillkor. Exempel är accenttal, specifika bakgrundsbrus eller användning av en specifik mikrofon för inspelning.
Språkmodell Skapa en anpassad språkmodell för att förbättra transkriptionen av branschspecifik vokabulär och grammatik, till exempel medicinsk terminologi eller IT-jargong.
Uttalsmodell Med en modell för anpassat uttal kan du definiera det fonetiska formuläret och visa för ett ord eller en term. Det är användbart för att hantera anpassade termer, till exempel produktnamn eller förkortningar. Allt du behöver för att komma igång är en uttalsfil, som är en enkel .txt fil.
Text till tal Rösttyp Med anpassade rösttyper kan du skapa en identifierbar, en-av-en-typ-röst för ditt varumärke. Det krävs bara en liten mängd data för att komma igång. Ju mer data du anger, desto mer naturligt och mänskligt kommer ditt röstteckensnitt att låta.

Exempelkod

Exempelkod finns på GitHub för var och en av Speech-tjänstens funktioner. De här exemplen omfattar vanliga scenarier som att läsa ljud från en fil eller ström, kontinuerlig igenkänning och engångsigenkänning och arbeta med anpassade modeller. Använd dessa länkar för att visa SDK- och REST-exempel:

Referensdokument

Nästa steg