Servicios de voz para datos de telefoníaSpeech Services for telephony data

Los datos de telefonía que se generan a través de líneas fijas, teléfonos móviles y radios son típicamente de baja calidad, y de banda estrecha en el rango de 8 KHz, lo que crea desafíos al convertir la voz en texto.Telephony data that is generated through landlines, mobile phones, and radios are typically low quality, and narrowband in the range of 8 KHz, which creates challenges when converting speech-to-text. Los últimos modelos de reconocimiento de voz de los servicios de voz de Azure se destacan en la transcripción de estos datos de telefonía, incluso en los casos en que los datos son difíciles de entender para un humano.The latest speech recognition models from Azure Speech Services excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand. Estos modelos están entrenados con grandes volúmenes de datos de telefonía, y tienen la mejor precisión de reconocimiento del mercado, incluso en entornos ruidosos.These models are trained with large volumes of telephony data, and have best in market recognition accuracy, even in noisy environments.

Un escenario común para la conversión de voz a texto es la transcripción de grandes volúmenes de datos de telefonía que pueden provenir de varios sistemas, como la respuesta de voz interactiva (IVR).A common scenario for speech-to-text is transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). El audio que proporcionan estos sistemas puede ser estéreo o mono, y sin procesar con poco o nada de procesamiento posterior realizando en la señal.The audio these systems provide can be stereo or mono, and raw with little-to-no post processing done on the signal. Con los servicios de voz y el modelo de voz unificado, una empresa puede obtener transcripciones de alta calidad, sea cual sea el sistema de captura de audio.Using Speech Services and the Unified speech model, a business can get high-quality transcriptions, whatever the systems used to capture audio.

Los datos de telefonía se pueden utilizar para comprender mejor las necesidades de sus clientes, identificar nuevas oportunidades de marketing o evaluar el rendimiento de los agentes del centro de llamadas.Telephony data can be used to better understand your customers' needs, identify new marketing opportunities, or evaluate the performance of call center agents. Después de que se transcriben los datos, la empresa puede utilizar la salida para mejorar la telemetría, identificar frases clave o analizar la opción del cliente.After the data is transcribed, a business can use the output for improved telemetry, identifying key phrases, or analyzing customer sentiment.

Las tecnologías descritas en esta página son de Microsoft internamente para varios servicios de procesamiento de llamadas de soporte, tanto en tiempo real como por lotes.The technologies outlined in this page are by Microsoft internally for various support call processing services, both in real-time and batch mode.

Revisemos algunas de las tecnologías y características relacionadas que los servicios de voz de Azure ofrecen.Let's review some of the technology and related features Azure Speech Services offer.

Importante

El modelo de servicios de voz unificado está entrenado con diversos datos y ofrece una solución de modelo único para una serie de escenarios que van desde el dictado hasta el análisis de la telefonía.Speech Services Unified model is trained with diverse data and offers a single model solution to a number of scenario from Dictation to Telephony analytics.

Tecnología de Azure para centros de llamadaAzure Technology for Call Centers

Más allá del aspecto funcional de los servicios de voz, su objetivo principal (cuando se aplica al centro de llamadas) es mejorar la experiencia del cliente.Beyond the functional aspect of the Speech Services their primary purpose – when applied to the call center – is to improve the customer experience. A este respecto, existen tres ámbitos claros:Three clear domains exist in this regard:

  • Análisis posterior a la llamada, es decir, procesamiento por lotes de grabaciones de llamadaPost-call analytics that is, batch processing of call recordings
  • Procesamiento de análisis en tiempo real de la señal de audio para extraer varias informaciones a medida que se realiza la llamada (siendo la opinión un caso de uso principal) yReal-time analytics processing of the audio signal to extract various insights as the call is taking place (with sentiment being a prominent use case) and
  • Asistentes virtuales (bots), ya sea conduciendo el diálogo entre el cliente y el bot en un intento de resolver el problema del cliente sin la participación del agente, o siendo la aplicación de protocolos de inteligencia artificial para ayudar al agente.Virtual Assistants (Bots), either driving the dialogue between the customer and the bot in an attempt to solve the customer's issue with no agent participation, or being the application of AI protocols to assist the agent.

Un diagrama de arquitectura típico de la implementación de un escenario por lotes se muestra en la siguiente ilustración Arquitectura de transcripción para el centro de llamadas.A typical architecture diagram of the implementation of a batch scenario is depicted in the picture below Call center transcription architecture

Componentes de la tecnología de análisis de vozSpeech Analytics Technology Components

Ya sea que el dominio sea posterior a la llamada o en tiempo real, Azure ofrece un conjunto de tecnologías maduras y emergentes para mejorar la experiencia del cliente.Whether the domain is post-call or real-time, Azure offers a set of mature and emerging set of technologies to improve the customer experience.

Conversión de voz en textoSpeech to text (STT)

La características de conversión de voz en texto es la más buscada en cualquier solución de centro de llamadas.Speech-to-text is the most sought after feature in any call center solution. Dado que muchos de los procesos analíticos posteriores se basan en texto transcrito, la tasa de errores por palabra (WER) es de suma importancia.Since many of the downstream analytics processes rely on transcribed text, the word error rate (WER) is of utmost importance. Uno de los principales desafíos en la transcripción para los centros de llamadas es el ruido que prevalece en dichos centros (por ejemplo, otros agentes que hablan en segundo plano), la rica variedad de idiomas locales y dialectos, así como la baja calidad de la señal telefónica real.One of the key challenges in call center transcription is the noise that’s prevalent in the call center (for example other agents speaking in the background), the rich variety of language locales and dialects as well as the low quality of the actual telephone signal. WER está muy correlacionado con el nivel de formación de los modelos acústicos y de lenguaje para una determinada configuración regional, por lo que es importante poder personalizar el modelo a la suya.WER is highly correlated with how well the acoustic and language models are trained for a given locale, thus being able to customize the model to your locale is important. Nuestros modelos de la versión 4.x unificada más recientes son la solución perfecta tanto para la precisión de transcripción como para la latencia.Our latest Unified version 4.x models are the solution to both transcription accuracy and latency. Entrenado con decenas de miles de horas de datos acústicos y miles de millones de información léxica Los modelos unificados son los más precisos del mercado para transcribir los datos del centro de llamadas.Trained with tens of thousands of hours of acoustic data and billions of lexical information Unified models are the most accurate models in the market to transcribe call center data.

OpiniónSentiment

Evaluar si el cliente tuvo una buena experiencia es una de las áreas más importantes del análisis de voz cuando se aplica al espacio del centro de llamadas.Gauging whether the customer had a good experience is one of the most important areas of Speech analytics when applied to the call center space. Nuestra API Batch Transcription ofrece análisis de las opiniones por expresión.Our Batch Transcription API offers sentiment analysis per utterance. Puede agregar el conjunto de valores obtenidos como parte de una transcripción de la llamada para determinar la opinión de la llamada tanto para sus agentes como para el cliente.You can aggregate the set of values obtained as part of a call transcript to determine the sentiment of the call for both your agents and the customer.

Silencio (sin hablar)Silence (non-talk)

No es raro que el 35 por ciento de una llamada de soporte técnico sea lo que llamamos tiempo de silencios.It is not uncommon for 35 percent of a support call to be what we call non-talk time. Algunos de los escenarios en los que no se habla son: agentes que consultan el historial de casos anteriores con un cliente, agentes que utilizan herramientas que les permiten acceder al escritorio del cliente y realizar funciones o clientes que están en espera de una transferencia, entre otros.Some scenarios which non-talk occurs are: agents looking up prior case history with a customer, agents using tools which allow them to access the customer's desktop and perform functions, customers sitting on hold waiting for a transfer and so on. Es extremadamente importante poder evaluar cuándo se está produciendo el silencio en una llamada, ya que hay una serie de importantes sensibilidades de los clientes que se producen en torno a este tipo de escenarios y dónde se producen en la llamada.It is extremely important to can gauge when silence is occurring in a call as there are number of important customer sensitivities that occur around these types of scenarios and where they occur in the call.

TraducciónTranslation

Algunas empresas experimentan ahora con ofrecer transcripciones traducidas de llamadas de soporte técnico en idiomas extranjeros para que los administradores de entrega puedan comprender la experiencia de sus clientes de todo el mundo.Some companies are experimenting with providing translated transcripts from foreign languages support calls so that delivery managers can understand the world-wide experience of their customers. Nuestras funcionalidades de traducción son insuperables.Our translation capabilities are unsurpassed. Podemos traducir audio a audio o audio a texto desde un gran número de configuraciones regionales.We can translate audio to audio or audio to text from a large number of locales.

Texto a vozText to Speech

Texto a voz es otra área importante en la implementación de bots que interactúan con los clientes.Text-to-speech is another important area in implementing bots that interact with the customers. La vía típica es que el cliente habla, su voz se transcribe en texto, el texto se analiza en busca de intenciones, se sintetiza una respuesta basada en la intención reconocida y, a continuación, se muestra un recurso para el cliente o se genera una respuesta de voz sintetizada.The typical pathway is that the customer speaks, their voice is transcribed to text, the text is analyzed for intents, a response is synthesized based on the recognized intent, and then an asset is either surfaced to the customer or a synthesized voice response is generated. Por supuesto, todo esto tiene que ocurrir rápidamente, por lo que la latencia es un componente importante para el éxito de estos sistemas.Of course all of this has to occur quickly – thus latency is an important component in the success of these systems.

Nuestra latencia de un extremo a otro es bastante baja si se tienen en cuenta las diversas tecnologías implicadas, tales como Conversión de voz en texto, LUIS, Bot Framework y Texto a voz.Our end-to-end latency is pretty low considering the various technologies involved such as Speech-to-text, LUIS, Bot Framework, Text-to-Speech.

Nuestras nuevas voces son también indistinguibles de las voces humanas.Our new voices are also indistinguishable from human voices. Puedes usar nuestras voces para darle a tu bot su personalidad única.You can use out voices to give your bot its unique personality.

Otro elemento básico del análisis es identificar las interacciones en las que ha ocurrido un evento o experiencia específica.Another staple of analytics is to identify interactions where a specific event or experience has occurred. Esto se hace típicamente con uno de dos enfoques, ya sea una búsqueda ad hoc donde el usuario simplemente escribe una frase y el sistema responde, o una consulta más estructurada, donde un analista puede crear un conjunto de sentencias lógicas que identifican un escenario en una llamada, y luego cada llamada puede ser indexada contra ese conjunto de consultas.This is typically done with one of two approaches, either an ad hoc search where the user simply types a phrase and the system responds, or a more structured query, where an analyst can create a set of logical statements that identify a scenario in a call, and then each call can be indexed against those set of queries. Un buen ejemplo de búsqueda es la omnipresente declaración de conformidad "Esta llamada se grabará con fines de calidad...",A good search example is the ubiquitous compliance statement “this call shall be recorded for quality purposes… como muchas empresas quieren asegurarse de que sus agentes están proporcionando esta declinación de responsabilidades a los clientes antes de que se grabe la llamada.“ – as many companies want to make sure that their agents are providing this disclaimer to customers before the call is actually recorded. La mayoría de los sistemas de análisis muestran la tendencia de los comportamientos encontrados por los algoritmos de consulta o búsqueda, ya que este informe de tendencias es en última instancia una de las funciones más importantes de un sistema de análisis.Most analytics systems have the ability to trend the behaviors found by query /search algorithms – as this reporting of trends is ultimately one of the most important functions of an analytics system. Mediante el directorio de Cognitive Services, tu solución integral puede mejorar significativamente con funcionalidades de indexación y búsqueda.Through Cognitive services directory your end to end solution can be significantly enhanced with indexing and search capabilities.

Extracción de frases claveKey Phrase Extraction

Esta área es una de las aplicaciones de análisis más desafiantes y una que se está beneficiando de la aplicación de la inteligencia artificial y del aprendizaje automático.This area is one of the more challenging analytics applications and one that is benefiting from the application of AI and ML. El escenario principal aquí es inferir la intención del cliente.The primary scenario here is to infer the customer intent. ¿Por qué llama el cliente?Why is the customer calling? ¿Cuál es el problema del cliente?What is the customer problem? ¿Por qué el cliente ha tenido una experiencia negativa?Why did the customer have a negative experience? Nuestro servicio de análisis de texto proporciona un conjunto de análisis de fábrica para actualizar rápidamente su solución completa y extraer esas palabras clave o frases importantes.Our Text analytics service provides a set of analytics out of the box for quickly upgrading your end to end solution to extract those important keywords or phrases.

Veamos ahora con más detalle el procesamiento por lotes y las canalizaciones en tiempo real para el reconocimiento de voz.Let's now have a look at the batch processing and the real-time pipelines for speech recognition in a bit more detail.

Transcripción en lote de los datos del centro de llamadasBatch transcription of call center data

Para transcribir la mayor parte del audio, se ha desarrollado la API Batch Transcription.For transcribing bulk of audio we developed the Batch Transcription API. La API Batch Transcription se desarrolló para transcribir grandes cantidades de datos de audio de forma asincrónica.The Batch Transcription API was developed to transcribe large amounts of audio data asynchronously. En cuanto a la transcripción de datos del centro de llamadas, nuestra solución se basa en estos pilares:With regards to transcribing call center data, our solution is based on these pillars:

  • Precisión: con modelos unificados de cuarta generación, ofrecemos una calidad de transcripción insuperable.Accuracy: With fourth-generation Unified models, we offer unsurpassed transcription quality.
  • Latencia: entendemos que cuando se realizan transcripciones masivas, las transcripciones se necesitan rápidamente.Latency: We understand that when doing bulk transcriptions, the transcriptions are needed quickly. Los trabajos de transcripción iniciados a través de la API Batch Transcription se pondrán en cola inmediatamente y, una vez que el trabajo empiece a ejecutarse, se realizará más rápidamente que la transcripción en tiempo real.The transcription jobs initiated via the Batch Transcription API will be queued immediately, and once the job starts running it's performed faster than real-time transcription.
  • Seguridad: entendemos que las llamadas pueden contener información confidencial.Security: We understand that calls may contain sensitive data. Puede estar tranquilo porque la seguridad es una de nuestras mayores prioridades.Rest assured that security is one of our highest priorities. Nuestro servicio ha obtenido las certificaciones ISO, SOC, HIPAA y PCI.Our service has obtained ISO, SOC, HIPAA, PCI certifications.

Los centros de llamadas generan grandes volúmenes de datos de audio diariamente.Call Centers generate large volumes of audio data on a daily basis. Si su empresa almacena datos de telefonía en una ubicación central, como Azure Storage, puede utilizar la API Batch Transcription para solicitar y recibir transcripciones de forma asincrónica.If your business stores telephony data in a central location, such as Azure Storage, you can use the Batch Transcription API to asynchronously request and receive transcriptions.

Una solución típica utiliza estos servicios:A typical solution uses these services:

  • Los servicios de voz de Azure se usan para convertir voz en texto.Azure Speech Services are used to transcribe speech-to-text. Se requiere una suscripción estándar (SO) a Speech Services para usar la API Batch Transcription.A standard subscription (SO) for the Speech Services is required to use the Batch Transcription API. Las suscripciones gratuitas (F0) no funcionarán.Free subscriptions (F0) will not work.
  • Azure Storage se utiliza para almacenar datos de telefonía y las transcripciones devueltas por la API Batch Transcription.Azure Storage is used to store telephony data, and the transcripts returned by the Batch Transcription API. Esta cuenta de almacenamiento debe utilizar notificaciones, específicamente para cuando se agregan nuevos archivos.This storage account should use notifications, specifically for when new files are added. Estas notificaciones se utilizan para desencadenar el proceso de transcripción.These notifications are used to trigger the transcription process.
  • La solución Azure Functions se utiliza para crear un identificador URI de firmas de acceso compartido (SAS) para cada grabación, y desencadenar la petición HTTP POST para iniciar una transcripción.Azure Functions is used to create the shared access signatures (SAS) URI for each recording, and trigger the HTTP POST request to start a transcription. Además, Azure Functions se utiliza para crear solicitudes de recuperación y eliminación de transcripciones mediante la API Batch Transcription.Additionally, Azure Functions is used to create requests to retrieve and delete transcriptions using the Batch Transcription API.
  • WebHooks se utilizan para recibir notificaciones cuando se completan las transcripciones.WebHooks are used to get notifications when transcriptions are completed.

Internamente estamos utilizando las tecnologías anteriores para admitir las llamadas de los clientes de Microsoft en modo por lotes.Internally we are using the above technologies to support Microsoft customer calls in Batch mode. Arquitectura por lotesBatch Architecture

Transcripción en tiempo real para los datos del centro de llamadasReal-time transcription for call center data

Algunas empresas deben transcribir las conversaciones en tiempo real.Some businesses are required to transcribe conversations in real-time. Se puede utilizar la transcripción en tiempo real para identificar palabras clave y desencadenar búsquedas de contenido y recursos relevantes para la conversación, para supervisar la opinión, para mejorar la accesibilidad o para proporcionar traducciones a los clientes y agentes que no son hablantes nativos.Real-time transcription can be used to identify key-words and trigger searches for content and resources relevant to the conversation, for monitoring sentiment, to improve accessibility, or to provide translations for customers and agents who aren't native speakers.

Para escenarios que requieren transcripción en tiempo real, recomendamos usar Speech SDK.For scenarios that require real-time transcription, we recommend using the Speech SDK. Actualmente, la conversión de voz a texto está disponible en más de 20 idiomas y el SDK está disponible en C++, C#, Java, Python, Node.js, Objective-C y JavaScript.Currently, speech-to-text is available in more than 20 languages, and the SDK is available in C++, C#, Java, Python, Node.js, Objective-C, and JavaScript. En GitHub se pueden encontrar ejemplos en todos los idiomas.Samples are available in each language on GitHub. Para las últimas noticias y actualizaciones, consulte las Notas de la versión.For the latest news and updates, see Release notes.

Internamente estamos utilizando las tecnologías anteriores para analizar en tiempo real las llamadas de los clientes de Microsoft cuando se producen.Internally we are using the above technologies to analyze in real-time Microsoft customer calls as they happen.

Arquitectura por lotes

Una palabra sobre las IVRA word on IVRs

Los servicios de voz se pueden integrar fácilmente en cualquier solución mediante el uso del SDK de Voz o la API REST.Speech Services can be easily integrated in any solution by using either the Speech SDK or the REST API. Sin embargo, la transcripción para el centro de llamadas puede requerir tecnologías adicionales.However, call center transcription may require additional technologies. Normalmente, se requiere una conexión entre un sistema IVR y Azure.Typically, a connection between an IVR system and Azure is required. Aunque no ofrecemos tales componentes, nos gustaría describir lo que implica una conexión a un sistema IVR.Although we do not offer such components, we would like to describe what a connection to an IVR entails.

Varios productos de servicios de IVR o telefonía (como Genesys o AudioCodes) ofrecen funcionalidades de integración que pueden aprovecharse para permitir el paso de audio entrante y saliente a un servicio de Azure.Several IVR or telephony service products (such as Genesys or AudioCodes) offer integration capabilities that can be leveraged to enable inbound and outbound audio passthrough to an Azure Service. Básicamente, un servicio personalizado de Azure puede proporcionar una interfaz específica para definir sesiones de llamadas telefónicas (tales como el inicio de llamada o el fin de llamada) y exponer una WebSocket API para recibir el flujo de audio entrante que se utiliza con los servicios de voz.Basically, a custom Azure service might provide a specific interface to define phone call sessions (such as Call Start or Call End) and expose a WebSocket API to receive inbound stream audio that is used with the Speech Services. Las respuestas salientes, como la transcripción de conversaciones o las conexiones con Bot Framework, pueden sintetizarse con el servicio de texto a voz de Microsoft y devolverse al sistema IVR para su reproducción.Outbound responses, such as conversation transcription or connections with the Bot Framework, can be synthesized with Microsoft's text-to-speech service and returned to the IVR for playback.

Otro escenario es la integración directa con SIP.Another scenario is Direct SIP integration. Un servicio de Azure se conecta a un servidor SIP y obtiene así un flujo de entrada y un flujo de salida, que se utiliza para las fases de conversión de voz a texto y de texto a voz.An Azure service connects to a SIP Server, thus getting an inbound stream and an outbound stream, which is used for the speech-to-text and text-to-speech phases. Para conectarse a un servidor SIP, hay ofertas de software comercial, como Ozeki SDK, o the Teams calling and meetings API (actualmente en versión beta), que están diseñados para admitir este tipo de escenario para llamadas de audio.To connect to a SIP Server there are commercial software offerings, such as Ozeki SDK, or the Teams calling and meetings API (currently in beta), that are designed to support this type of scenario for audio calls.

Personalización de la experiencias existentesCustomize existing experiences

Los servicios de voz de Azure funcionan bien con los modelos integrados; sin embargo, es posible que desee personalizar y optimizar más la experiencia para su producto o entorno.Azure Speech Services works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Las opciones de personalización abarcan desde la optimización de modelos acústicos a fuentes de voz únicas para su marca.Customization options range from acoustic model tuning to unique voice fonts for your brand. Una vez que haya creado un modelo personalizado, podrá usarlo con cualquiera de los servicios de voz de Azure en tiempo real o en modo por lotes.After you've built a custom model, you can use it with any of the Azure Speech Services both in real-time or in batch mode.

Servicio de vozSpeech service ModeloModel DESCRIPCIÓNDescription
Voz a textoSpeech-to-text Modelo acústicoAcoustic model Cree un modelo acústico personalizado para las aplicaciones, herramientas o dispositivos usados en entornos concretos como en un automóvil o en una planta de producción, cada uno con unas condiciones de grabación específicas.Create a custom acoustic model for applications, tools, or devices that are used in particular environments like in a car or on a factory floor, each with specific recording conditions. Los ejemplos incluyen el habla con acento, ruidos de fondo específicos o el uso de un micrófono específico para la grabación.Examples include accented speech, specific background noises, or using a specific microphone for recording.
Modelo de lenguajeLanguage model Cree un modelo de lenguaje personalizado para mejorar la transcripción de gramática y vocabulario específicos del sector, como terminología médica o jerga de TI.Create a custom language model to improve transcription of industry-specific vocabulary and grammar, such as medical terminology, or IT jargon.
Modelo de pronunciaciónPronunciation model Con un modelo de pronunciación personalizado, puede definir el formato fonético y mostrar una palabra o un término.With a custom pronunciation model, you can define the phonetic form and display of a word or term. Es útil para controlar términos personalizados, como nombres de producto o acrónimos.It's useful for handling customized terms, such as product names or acronyms. Basta con un archivo de pronunciación (un archivo .txt simple).All you need to get started is a pronunciation file -- a simple .txt file.
Texto a vozText-to-speech Fuente de vozVoice font Las fuentes de voz personalizadas le permiten crear una voz única y reconocible para su marca.Custom voice fonts allow you to create a recognizable, one-of-a-kind voice for your brand. Solo toma una pequeña cantidad de datos para empezar a trabajar.It only takes a small amount of data to get started. Cuantos más datos proporcione, más natural y similar a la humana sonará su fuente de voz.The more data that you provide, the more natural and human-like your voice font will sound.

Código de ejemploSample code

El código de ejemplo está disponible en GitHub para cada uno de los servicios de voz de Azure.Sample code is available on GitHub for each of the Azure Speech Services. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Use estos vínculos para ver ejemplos de SDK y REST:Use these links to view SDK and REST samples:

Documentos de referenciaReference docs

Pasos siguientesNext steps

Get a Speech Services subscription key for free (Consiga una clave de suscripción a los servicios de voz gratis)Get a Speech Services subscription key for free