¿Qué es Transcripción de conversaciones?What is Conversation Transcription?

Transcripción de conversaciones es una característica avanzada de Servicios de voz que combina el reconocimiento de voz en tiempo real, la identificación del hablante y el registro en diarios.Conversation Transcription is an advanced feature of the Speech Services that combines real-time speech recognition, speaker identification, and diarization. Transcripción de conversaciones es una característica perfecta para transcribir reuniones en persona, con la capacidad de distinguir los hablantes, que le permite saber quién ha dicho qué y cuándo, lo que permite a los participantes centrarse en la reunión y realizar el seguimiento de los pasos siguientes rápidamente.Conversation Transcription is perfect for transcribing in-person meetings, with the ability to distinguish speakers, it lets you know who said what and when, allowing participants to focus on the meeting and quickly follow up on next steps. Esta característica también mejora la accesibilidad.This feature also improves accessibility. Con la transcripción, puede hacer participar activamente a personas con dificultades auditivas.With transcription, you can actively engage participants with hearing impairments.

Transcripción de conversaciones proporciona un reconocimiento preciso con modelos de voz personalizables que puede adaptar para comprender el vocabulario específico de la empresa y del sector.Conversation Transcription delivers accurate recognition with customizable speech models that you can tailor to understand industry and company-specific vocabulary. Además, puede emparejar la Transcripción de conversaciones con Speech Devices SDK para optimizar la experiencia para dispositivos con varios micrófonos.Additionally, you can pair Conversation Transcription with the Speech Devices SDK to optimize the experience for multi-microphone devices.

Nota

Actualmente, se recomienda Transcripción de conversaciones para pequeñas reuniones.Currently, Conversation Transcription is recommended for small meetings. Si desea ampliar Transcripción de conversaciones para reuniones de gran tamaño a escala, póngase en contacto con nosotros.If you'd like to extend the Conversation Transcription for large meetings at scale, please contact us.

Este diagrama ilustra el hardware, el software y los servicios que funcionan con Transcripción de conversaciones.This diagram illustrates the hardware, software, and services that work together with Conversation Transcription.

Diagrama de importación de Transcripción de conversaciones

Importante

Se requiere una matriz circular de siete micrófonos con configuración de geometría específica.A circular seven microphone array with specific geometry configuration is required. Para obtener detalles de la especificación y el diseño, consulte las recomendaciones de matriz de micrófonos de Microsoft Speech Devices SDK.For specification and design details, see Microsoft Speech Device SDK Microphone. Para más información o comprar un kit de desarrollo, consulte cómo obtener Microsoft Speech Devices SDK.To learn more or purchase a development kit, see Get Microsoft Speech Device SDK.

Introducción a Transcripción de conversacionesGet started with Conversation Transcription

Hay tres pasos que debe seguir para empezar a trabajar con la Transcripción de conversaciones.There are three steps that you need to take to get started with Conversation Transcription.

  1. Recopilar muestras de voz de los usuarios.Collect voice samples from users.
  2. Generar perfiles de usuario con las muestras de voz del usuario.Generate user profiles using the user voice samples
  3. Usar el SDK de voz para identificar a los usuarios (hablantes) y transcribir la voz.Use the Speech SDK to identify users (speakers) and transcribe speech

Recopilación de muestras de voz de los usuariosCollect user voice samples

El primer paso es recopilar grabaciones de audio de cada usuario.The first step is to collect audio recordings from each user. La voz del usuario se debe grabar en un entorno tranquilo sin ruido de fondo.User speech should be recorded in a quiet environment without background noise. La longitud recomendada para cada muestra de audio está entre 30 segundos y dos minutos.The recommended length for each audio sample is between 30 seconds and two minutes. Las muestras de audio más largas producirán una mayor precisión al identificar a los hablantes.Longer audio samples will result in improved accuracy when identifying speakers. El audio debe ser un canal mono con una tasa de muestreo de 16 KHz.Audio must be mono channel with a 16 KHz sample rate.

Más allá de la guía mencionada anteriormente, cómo se registra y almacena el audio depende de usted, aunque se recomienda una base de datos segura.Beyond the aforementioned guidance, how audio is recorded and stored is up to you -- a secure database is recommended. En la siguiente sección, revisaremos cómo se utiliza este audio para generar perfiles de usuario que se usan con el SDK de voz para reconocer a los hablantes.In the next section, we'll review how this audio is used to generate user profiles that are used with the Speech SDK to recognize speakers.

Generación de perfiles de usuarioGenerate user profiles

A continuación, deberá enviar las grabaciones de audio que ha recopilado al Servicio de generación de firmas para validar el audio y generar perfiles de usuario.Next, you'll need to send the audio recordings you've collected to the Signature Generation Service to validate the audio and generate user profiles. El Servicio de generación de firmas es un conjunto de API REST que permite generar y recuperar perfiles de usuario.The Signature Generation Service is a set of REST APIs, that allow you generate and retrieve user profiles.

Para crear un perfil de usuario, debe usar la API GenerateVoiceSignature.To create a user profile, you'll need to use the GenerateVoiceSignature API. Hay disponibles detalles de la especificación y código de ejemplo:Specification details and sample code are available:

Nota

Transcripción de conversaciones solo está disponible actualmente para "en-US" y "zh-CN" en las siguientes regiones: centralus y eastasia.Conversation Transcription is currently available in "en-US" and "zh-CN" in the following regions: centralus and eastasia.

Transcripción e identificación de hablantesTranscribe and identify speakers

Transcripción de conversaciones espera secuencias de audio multicanal y perfiles de usuario como entradas para generar transcripciones e identificar a los hablantes.Conversation Transcription expects multichannel audio streams and user profiles as inputs to generate transcriptions and identify speakers. Los datos de audio y del perfil de usuario se envían al servicio Transcripción de conversaciones mediante Speech Devices SDK.Audio and user profile data are sent to Conversation Transcription service using the Speech Devices SDK. Como se mencionó anteriormente, se requiere una matriz circular de siete micrófonos y Speech Devices SDK para usar Transcripción de conversaciones.As previously mentioned, a circular seven microphone array and the Speech Devices SDK are required to use Conversation Transcription.

Nota

Para obtener detalles de la especificación y el diseño, consulte las recomendaciones de matriz de micrófonos de Microsoft Speech Devices SDK.For specification and design details, see Microsoft Speech Device SDK Microphone. Para más información o comprar un kit de desarrollo, consulte cómo obtener Microsoft Speech Devices SDK.To learn more or purchase a development kit, see Get Microsoft Speech Device SDK.

Para obtener información sobre cómo usar Transcripción de conversaciones con Speech Devices SDK, consulte Cómo usar Transcripción de conversaciones.To learn how to use Conversation Transcription with the Speech Devices SDK, see How to use conversation transcription.

Inicio rápido con una aplicación de ejemploQuick Start with a sample app

Microsoft Speech Devices SDK incluye una aplicación de ejemplo de inicio rápido para todos los ejemplos relacionados con dispositivos.Microsoft Speech Device SDK has a quick start sample app for all device related samples. Transcripción de conversaciones es uno de ellos.Conversation Transcription is one of them. Puede encontrarlo en el inicio rápido de Speech Device SDK para Android con la aplicación de ejemplo y el código fuente para su referencia.You can find it in Speech Device SDK android quickstart with sample app and its source code for your reference.

Pasos siguientesNext steps