¿Qué es la transcripción de conversaciones en reuniones (versión preliminar)?What is Conversation Transcription in meetings (Preview)?

La transcripción de conversaciones es una solución de conversión de voz a texto que combina el reconocimiento de voz, la identificación del hablante y la atribución de oraciones a cada hablante (lo que también se conoce como diarización ) para proporcionar la transcripción asincrónica o en tiempo real de cualquier conversación.Conversation Transcription is a speech-to-text solution that combines speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization ) to provide real-time and/or asynchronous transcription of any conversation. La transcripción de conversaciones distingue a los hablantes de una conversación para determinar quién dijo qué y cuándo, y facilita a los desarrolladores la tarea de agregar conversión de voz a texto a sus aplicaciones que realizan la diarización de varios hablantes.Conversation Transcription distinguishes speakers in a conversation to determine who said what and when, and makes it easy for developers to add speech-to-text to their applications that perform multi-speaker diarization.

Principales característicasKey features

  • Marcas de tiempo : cada expresión del hablante tiene una marca de tiempo, por lo que puede encontrar fácilmente cuándo se dijo una frase.Timestamps - each speaker utterance has a timestamp, so that you can easily find when a phrase was said.
  • Transcripciones legibles : el formato y la puntuación de las transcripciones se agregan automáticamente para garantizar que el texto coincide lo más posible con lo que se ha dicho.Readable transcripts - transcripts have formatting and punctuation added automatically to ensure the text closely matches what was being said.
  • Perfiles de usuario : los perfiles de usuario se generan mediante la recopilación de muestras de voz de usuarios y el envío de estas a la generación de firmas.User profiles - user profiles are generated by collecting user voice samples and sending them to signature generation.
  • Identificación del hablante : los hablantes se identifican mediante perfiles de usuario; a cada hablante se le asigna un identificador de hablante.Speaker identification - speakers are identified using user profiles and a speaker identifier is assigned to each.
  • Diarización de varios hablantes : determine quién dijo qué mediante la sintetización de la secuencia de audio con cada identificador de hablante.Multi-speaker diarization - determine who said what by synthesizing the audio stream with each speaker identifier.
  • Transcripción en tiempo real : proporcione transcripciones en directo de quién dice qué y en qué momento mientras tiene lugar la conversación.Real-time transcription – provide live transcripts of who is saying what and when while the conversation is happening.
  • Transcripción asincrónica : proporcione transcripciones con una mayor precisión mediante una secuencia de audio de varios canales.asynchronous transcription – provide transcripts with higher accuracy by using a multichannel audio stream.

Nota

Aunque la transcripción de conversaciones no impone un límite sobre el número de hablantes en la sala, está optimizada para entre 2 y 10 hablantes por sesión.Although Conversation Transcription does not put a limit on the number of speakers in the room, it is optimized for 2-10 speakers per session.

IntroducciónGet started

Consulte la guía de inicio rápido de transcripción de conversaciones en tiempo real para comenzar.See the real-time conversation transcription quickstart to get started.

Casos de usoUse cases

Para que las reuniones sean inclusivas para todo el mundo, por ejemplo, para los participantes sordos y con dificultades auditivas, es importante contar con transcripción en tiempo real.To make meetings inclusive for everyone, such as participants who are deaf and hard of hearing, it is important to have transcription in real time. La transcripción de conversaciones en tiempo real toma el audio de una reunión y determina quién dice qué, lo que permite a todos los participantes seguir la transcripción y participar en la reunión sin ningún retraso.Conversation Transcription in real-time mode takes meeting audio and determines who is saying what, allowing all meeting participants to follow the transcript and participate in the meeting without a delay.

Mayor eficaciaImproved efficiency

Los participantes en la reunión pueden centrarse en la reunión y dejar la toma de notas a la transcripción de conversaciones.Meeting participants can focus on the meeting and leave note-taking to Conversation Transcription. De este modo, pueden participar activamente en la reunión y realizar un seguimiento rápido de los pasos que vienen a continuación valiéndose de la transcripción en lugar de tomar notas y perderse algo posiblemente durante el evento.Participants can actively engage in the meeting and quickly follow up on next steps, using the transcript instead of taking notes and potentially missing something during the meeting.

FuncionamientoHow it works

Así es a grandes rasgos cómo funciona la transcripción de conversaciones.This is a high-level overview of how Conversation Transcription works.

Diagrama de importación de Transcripción de conversaciones

Entradas esperadasExpected inputs

Nota

Las muestras de voz de usuarios son opcionales.User voice samples are optional. Sin esta entrada, la transcripción mostrará los distintos oradores, pero se muestran como "Speaker1", "Speaker2", etc., en lugar de reconocerlos como nombres específicos de oradores inscritos previamente.Without this input, the transcription will show different speakers, but shown as "Speaker1", "Speaker2", etc. instead of recognizing as pre-enrolled specific speaker names.

Tiempo real frente a asincrónicoReal-time vs. asynchronous

La transcripción de conversaciones ofrece tres modos de transcripción:Conversation Transcription offers three transcription modes:

Tiempo realReal-time

Los datos de audio se procesan en directo para devolver el identificador y la transcripción del hablante.Audio data is processed live to return speaker identifier + transcript. Seleccione este modo si quiere usar la solución de transcripción para proporcionar a los participantes de la conversación una vista de la transcripción en directo de su conversación en curso.Select this mode if your transcription solution requirement is to provide conversation participants a live transcript view of their ongoing conversation. Por ejemplo, crear una aplicación para que las reuniones sean más accesibles para los participantes sordos y con dificultades auditivas es un caso de uso idóneo para la transcripción en tiempo real.For example, building an application to make meetings more accessible the deaf and hard of hearing participants is an ideal use case for real-time transcription.

Asincrónicos.Asynchronous

Los datos de audio se procesan por lotes para devolver el identificador y la transcripción del hablante.Audio data is batch processed to return speaker identifier and transcript. Seleccione este modo si quiere usar la solución de transcripción para proporcionar una mayor precisión sin la vista de la transcripción en directo.Select this mode if your transcription solution requirement is to provide higher accuracy without live transcript view. Por ejemplo, si quiere crear una aplicación para permitir que los participantes de la reunión se pongan al día fácilmente con las reuniones a las que han faltado, use el modo de transcripción asincrónica para obtener resultados de transcripción de alta precisión.For example, if you want to build an application to allow meeting participants to easily catch up on missed meetings, then use the asynchronous transcription mode to get high-accuracy transcription results.

Tiempo real y asincrónicoReal-time plus asynchronous

Los datos de audio se procesan en directo para devolver el identificador y la transcripción del hablante; además, se crea una solicitud para obtener también una transcripción de alta precisión mediante el procesamiento asincrónico.Audio data is processed live to return speaker identifier + transcript, and, in addition, a request is created to also get a high-accuracy transcript through asynchronous processing. Seleccione este modo si la aplicación necesita una transcripción en tiempo real, pero también requiere una transcripción de mayor precisión después de la conversación o reunión.Select this mode if your application has a need for real-time transcription but also requires a higher accuracy transcript for use after the conversation or meeting occurred.

Compatibilidad con idiomasLanguage support

Actualmente, la transcripción de conversaciones admite todos los idiomas de conversión de voz en texto en las siguientes regiones:  centralus, eastasia, eastus y westeurope.Currently, Conversation Transcription supports all speech-to-text languages in the following regions: centralus, eastasia, eastus, westeurope. Si necesita ayuda adicional con la configuración regional, póngase en contacto con el equipo de la característica Transcripción de conversaciones.If you require additional locale support, contact the Conversation Transcription Feature Crew.

Pasos siguientesNext steps