Servizio voce per i dati di telefonia

I dati di telefonia generati attraverso telefoni fissi, telefoni cellulari e radio sono in genere di bassa qualità e banda stretta compresa nell'intervallo di frequenza di 8 KHz, che crea problemi durante il riconoscimento vocale. I modelli di riconoscimento vocale più recenti del servizio Voce sono particolarmente validi per la trascritzione di questi dati di telefonia, anche nei casi in cui i dati sono difficili da comprendere per un essere umano. Questi modelli vengono addestrati con grandi volumi di dati di telefonia e hanno la migliore precisione di riconoscimento sul mercato, anche in ambienti rumorosi.

Uno scenario comune per il riconoscimento vocale è la trascrizione di grandi volumi di dati di telefonia che possono provenire da vari sistemi, ad esempio i bot IVR (Interactive Voice Response). L'audio fornito da questi sistemi può essere stereo o mono e raw, con poca o nessuna elaborazione eseguita sul segnale. Usando il servizio Voce e il modello di riconoscimento vocale unificato, un'azienda può ottenere trascrizioni di alta qualità, indipendentemente dai sistemi usati per acquisire l'audio.

È possibile usare i dati di telefonia per meglio comprendere le esigenze dei clienti, identificare nuove opportunità di marketing oppure valutare le prestazioni degli operatori del call center. Dopo aver trascritto i dati, un'azienda può usare l'output per scopi quali dati di telemetria migliorati, identificazione di frasi chiave o analisi del sentiment dei clienti.

Le tecnologie descritte in questa pagina sono usate internamente da Microsoft per vari servizi di elaborazione di chiamate al supporto, sia in tempo reale che in modalità batch.

Di seguito vengono esaminate alcune delle tecnologie e delle funzionalità correlate offerte dal servizio Voce.

Importante

Il modello unificato del servizio Voce viene addestrato con dati diversi e offre una soluzione a modello singolo per una serie di scenari, dalla dettatura all'analisi di telefonia.

Tecnologia Azure per i call center

Oltre all'aspetto funzionale delle funzionalità del servizio Voce, lo scopo principale, se applicato al call center, è migliorare l'esperienza del cliente. A questo proposito esistono tre domini:

  • Analisi post-chiamata, che è essenzialmente l'elaborazione batch delle registrazioni delle chiamate dopo la chiamata.
  • Analisi in tempo reale, che elabora il segnale audio per estrarre varie informazioni dettagliate durante la chiamata (con il sentiment come un caso d'uso importante).
  • Assistenti vocali (bot), che guidano il dialogo tra il cliente e il bot nel tentativo di risolvere il problema del cliente senza la partecipazione dell'agente o di essere l'applicazione di protocolli di intelligenza artificiale (AI) per assistere l'agente.

L'immagine sotto Architettura delle trascrizioni del call center mostra un tipico diagramma architettonico dell'implementazione di uno scenario batch

Componenti tecnologici dell'analisi vocale

Indipendentemente dal fatto che il dominio sia post-chiamata o in tempo reale, Azure offre un set di tecnologie avanzate ed emergenti per migliorare l'esperienza dei clienti.

Riconoscimento vocale

Il riconoscimento vocale è la funzionalità più ricercata in qualsiasi soluzione di call center. Poiché molti dei processi di analisi downstream si basano sul testo trascritto, la parola error rate (WER) è di importanza fondamentale. Tra le principali sfide da superare nella trascrizione dei call center sono inclusi il rumore prevalente nella sala (ad esempio: il sottofondo degli altri operatori che parlano), l'ampia varietà di impostazioni locali della lingua e di dialetti, nonché la bassa qualità dello stesso segnale telefonico. La funzionalità Segnalazione windows è strettamente correlata alla modalità di training dei modelli acustici e linguistici per impostazioni locali specifiche, quindi la possibilità di personalizzare il modello in base alle impostazioni locali è importante. I più recenti modelli unificati di quarta generazione rappresentano la soluzione ideale sia per l'accuratezza che per la latenza della trascrizione. Sottoposto a training con decine di migliaia di ore di dati acustici e miliardi di informazioni lessicali, i modelli unificati sono i modelli più accurati sul mercato per trascrivere i dati dei call center.

Valutazione

Valutare se il cliente ha avuto una buona esperienza è una delle aree più importanti dell'analisi vocale, quando applicata allo spazio del call center. L'API di trascrizione Batch offre l'analisi del sentiment per ogni espressione. È possibile aggregare il set di valori ottenuti come parte di una trascrizione di chiamata per determinare il sentiment della chiamata sia per gli operatori che per il cliente.

Il silenzio (nessuna conversazione)

Non è insolito per il 35% del tempo di una chiamata al supporto tecnico. Alcuni scenari per cui non si verificano conversazioni sono: agenti che cercano la cronologia dei casi precedenti con un cliente, agenti che usano strumenti che consentono di accedere al desktop del cliente ed eseguire le funzioni, clienti in attesa di un trasferimento e così via. È estremamente importante valutare quando si verifica il silenzio in una chiamata, perché esistono alcune importanti sensibilità dei clienti che si verificano in questi tipi di scenari e in cui si verificano nella chiamata.

Traduzione

Alcune aziende stanno sperimentando la possibilità di fornire trascrizioni tradotte da chiamate di supporto in lingua esterna in modo che i responsabili delle consegne possano comprendere l'esperienza dei clienti a livello mondiale. Le nostre competenze di traduzione non hanno rivali. È possibile tradurre audio in audio o audio in testo per un numero elevato di impostazioni locali.

Sintesi vocale

La sintesi vocale è un'altra area importante nell'implementazione di bot che interagiscono con i clienti. In un percorso tipico, il cliente parla e la sua voce viene trascritta testualmente; viene analizzato l'intento del testo e quindi sintetizzata una risposta in base all'intento riconosciuto. Infine, viene presentato un asset al cliente oppure viene generata una risposta con voce sintetizzata. Naturalmente, tutto questo deve verificarsi rapidamente, quindi la bassa latenza è un componente importante per il successo di questi sistemi.

La latenza end-to-end è notevolmente bassa per le varie tecnologie coinvolte, ad esempio riconoscimento vocale, LUIS, Bot Framework, sintesi vocale.

Le nuove voci sono inoltre indistinguibili da quelle umane. È possibile usare le nostre voci per dare al bot la sua personalità unica.

Un altro elemento di base dell'analisi consiste nell'identificare le interazioni in cui si è verificata un'esperienza o un evento specifico. Questa operazione viene in genere eseguita con uno dei due approcci seguenti: Una ricerca ad hoc in cui l'utente si limita a digitare una frase e il sistema risponde oppure una query più strutturata in cui un analista può creare un set di istruzioni logiche che identificano uno scenario in una chiamata e quindi ogni chiamata può essere indicizzata rispetto a tale set di query. Un buon esempio di ricerca è la dichiarazione di conformità comune "questa chiamata deve essere registrata per motivi di qualità... ". Molte aziende vogliono assicurarsi che i propri agenti fornino questa dichiarazione di non responsabilità ai clienti prima che la chiamata venga effettivamente registrata. La maggior parte dei sistemi di analisi è in grado di individuare la tendenza dei comportamenti rilevati dagli algoritmi di query/ricerca e questa segnalazione delle tendenze è in definitiva una delle funzioni più importanti di un sistema di analisi. Grazie alla directory Servizi cognitivi, la soluzione end-to-end può essere significativamente migliorata con funzionalità di indicizzazione e ricerca.

Estrazione frasi chiave

Quest'area è una delle applicazioni di analisi più complesse e trae vantaggio dall'applicazione di intelligenza artificiale e Machine Learning. Lo scenario principale in questo caso è dedurre la finalità del cliente. Qual è il motivo della chiamata? Qual è il problema del cliente? Perché il cliente ha riscontrato un'esperienza negativa? Il servizio di analisi del testo offre un set di analisi predefinito per aggiornare rapidamente la soluzione end-to-end per l'estrazione di parole chiave o frasi importanti.

Verranno ora analizzate più dettagliatamente l'elaborazione batch e le pipeline in tempo reale per il riconoscimento vocale.

Trascrizione batch dei dati del call center

Per la trascrizione dell'audio in blocco è stata sviluppata l'API di trascrizione batch. L'API di trascrizione batch consente di trascrivere grandi quantità di dati audio in modo asincrono. Per quanto riguarda la trascritzione dei dati dei call center, la soluzione si basa su questi pilastri:

  • Accuratezza: con i modelli unificati di quarta generazione, è possibile offrire una qualità di trascrizione senza precedenti.
  • Latenza: è possibile comprendere che, durante l'elaborazione di trascrizioni in blocco, le trascrizioni sono necessarie rapidamente. I processi di trascrizione avviati usando l'API di trascrizione batch verranno inseriti immediatamente in coda e, una volta avviato, il processo sarà ancora più veloce della trascrizione in tempo reale.
  • Sicurezza: le chiamate possono contenere dati sensibili. Assicuriamo il cliente che la sicurezza è una delle nostre massime priorità. Il nostro servizio ha ottenuto le certificazioni ISO, SOC, HIPAA e PCI.

I call center generano volumi elevati di dati audio su base giornaliera. Se l'azienda archivia i dati di telefonia in una posizione centrale, ad esempio Archiviazione di Azure, è possibile usare l'API di trascrizione batch per richiedere e ricevere trascrizioni in modo asincrono.

Una tipica soluzione usa questi servizi:

  • Il servizio Voce viene usato per trascrivere il riconoscimento vocale. Per usare l'API Trascrizione Batch, è necessaria una sottoscrizione standard (S0) per il servizio Voce. Le sottoscrizioni gratuite (F0) non funzioneranno.
  • Per archiviare i dati di telefonia e le trascrizioni restituite dall'API di trascrizione batch si usa Archiviazione di Azure. Questo account di archiviazione deve usare le notifiche, in particolare quando vengono aggiunti nuovi file. Queste notifiche vengono usate per attivare il processo di trascrizione.
  • Funzioni di Azure consente di creare l'URI di firma di accesso condiviso per ogni registrazione e attivare la richiesta POST HTTP per avviare una trascrizione. Inoltre, Funzioni di Azure consente di creare richieste per recuperare ed eliminare trascrizioni usando l'API di trascrizione batch.

Microsoft usa internamente le suddette tecnologie per supportare le chiamate dei clienti in modalità batch. Tecnologie usate per supportare le chiamate dei clienti Microsoft in modalità Batch.

Trascrizione in tempo reale dei dati del call center

Alcune aziende sono tenute a trascrivere le conversazioni in tempo reale. La trascrizione in tempo reale può essere usata per identificare parole chiave e attivare ricerche di contenuto e risorse pertinenti alla conversazione, per il monitoraggio del sentiment, per migliorare l'accessibilità o per fornire le traduzioni ai clienti e agli operatori che non sono madrelingua.

Per gli scenari che richiedono la trascrizione in tempo reale, è consigliabile usare Speech SDK. Il riconoscimento vocale è attualmente disponibile in più di 20lingue e l'SDK è disponibile in C++, C#, Java, Python, JavaScript, Objective-C e Go. Esempi sono disponibili in ogni lingua su GitHub. Per le notizie e gli aggiornamenti più recenti, vedere le Note sulla versione.

Internamente vengono utilizzate le tecnologie precedenti per analizzare in tempo reale le chiamate dei clienti Microsoft non appena si verificano, come illustrato nel diagramma seguente.

Architettura batch

Introduzione ai sistemi IVR

Il servizio Voce può essere facilmente integrato in qualsiasi soluzione usando Speech SDK o l'API REST. Tuttavia, le trascrizioni del call center possono richiedere tecnologie aggiuntive. In genere, è necessaria una connessione tra un sistema IVR e Azure. Anche se tali componenti non sono disponibili, ecco una descrizione del comportarsi di una connessione a un IVR.

Diversi prodotti IVR o di servizi di telefonia (ad esempio Genesys o AudioCodes) offrono funzionalità di integrazione che possono essere sfruttate per abilitare il pass-through audio in ingresso e in uscita a un servizio di Azure. Fondamentalmente, un servizio di Azure personalizzato potrebbe fornire un'interfaccia specifica per definire le sessioni di chiamata telefonica (ad esempio, inizio chiamata o fine chiamata) ed esporre un'API WebSocket per ricevere l'audio del flusso in ingresso usato con il servizio Voce. Le risposte in uscita, ad esempio la trascrizione della conversazione o le connessioni con Bot Framework, possono essere sintetizzate con il servizio di sintesi vocale di Microsoft e restituite al sistema IVR per la riproduzione.

Un altro scenario è l'integrazione diretta con il protocollo SIP (Session Initiation Protocol). Un servizio di Azure si connette a un server SIP, ottenendo così un flusso in ingresso e un flusso in uscita, che viene usato per le fasi per il riconoscimento vocale e sintesi vocale. Per connettersi a un server SIP sono disponibili offerte di software commerciale, ad esempio Ozieki SDK oppure l'API per le chiamate e le riunioni dei team (attualmente in versione beta), che sono progettate per supportare questo tipo di scenario per le chiamate audio.

Personalizzare le esperienze esistenti

Il servizio Voce funziona bene con i modelli predefiniti. Tuttavia, è possibile personalizzare e ottimizzare ulteriormente l'esperienza per il prodotto o l'ambiente. Le opzioni di personalizzazione spaziano dall'ottimizzazione del modello acustico ai caratteri voce univoci per il proprio marchio. Dopo aver creato un modello personalizzato, è possibile usarlo con qualsiasi funzionalità del servizio Voce in modalità batch o in tempo reale.

Servizio Voce Modellare Descrizione
Riconoscimento vocale Modello acustico Creazione di un modello acustico personalizzato per applicazioni, strumenti o dispositivi usati in ambienti particolari, ad esempio in un'automobile o in fabbrica, ognuno con condizioni di registrazione specifiche. Sono esempi di queste situazioni un eloquio con un forte accento, particolari rumori di sottofondo o l'uso di uno speciale microfono per la registrazione.
Modello linguistico Creazione di un modello linguistico personalizzato per migliorare la trascrizione di grammatica e terminologia specifica di settore, ad esempio terminologia medica o IT.
Modello di pronuncia Con un modello di pronuncia personalizzato, è possibile definire la forma fonetica e la visualizzazione per una parola o un termine. È utile per gestire i termini personalizzati, come i nomi di prodotto o gli acronimi. Tutto quello che serve per iniziare è un file di pronuncia, che è un .txt file semplice.
Sintesi vocale Carattere voce I caratteri voce personalizzati consentono di creare una voce distintiva e unica per il proprio marchio. Per iniziare è necessaria solo una piccola quantità di dati. Più dati si forniscono, più naturale e umano risulterà il carattere voce.

Codice di esempio

Il codice di esempio è disponibile GitHub per ognuna delle funzionalità del servizio Voce. Questi esempi esaminano gli scenari comuni, ad esempio la lettura di audio da un file o streaming, il riconoscimento continuo e singolo e l'uso di modelli personalizzati. Usare i collegamenti seguenti per visualizzare esempi SDK e REST:

Documentazione di riferimento

Passaggi successivi