Che cos'è la trascrizione conversazione?

La trascrizione della conversazione è una soluzione voce-a-testo che fornisce la trascrizione in tempo reale o asincrona di qualsiasi conversazione. Questa funzionalità, attualmente in anteprima, combina riconoscimento vocale, identificazione voce e attribuzione di frasi per determinare chi ha detto cosa e quando, in una conversazione.

Nota

L'accesso alla conversazione multi-dispositivo è una funzionalità di anteprima.

Funzionalità principali

È possibile trovare le funzionalità seguenti della trascrizione della conversazione utile:

  • Timestamp: Ogni espressione dell'altoparlante ha un timestamp, in modo che sia possibile trovare facilmente quando è stata detta una frase.
  • Trascrizioni leggibili: Le trascrizioni hanno formattazione e punteggiatura aggiunte automaticamente per garantire che il testo corrisponda strettamente a ciò che è stato detto.
  • Profili utente: I profili utente vengono generati raccogliendo esempi di voce utente e inviandoli alla generazione di firme.
  • Identificazione dell'altoparlante: Gli altoparlanti vengono identificati usando i profili utente e a ogni identificatore di altoparlante viene assegnato un identificatore.
  • Diarizzazione multi-altoparlante: Determinare chi ha detto cosa sintetizzando il flusso audio con ogni identificatore dell'altoparlante.
  • Trascrizione in tempo reale: Fornire trascrizioni live di chi dice cosa e quando, mentre la conversazione sta accadendo.
  • Trascrizione asincrona: Fornire trascrizioni con maggiore accuratezza usando un flusso audio multicanale.

Nota

Anche se la trascrizione della conversazione non mette un limite al numero di altoparlanti nella sala, è ottimizzato per 2-10 altoparlanti per sessione.

Introduzione

Per iniziare, vedere la guida introduttiva alla trascrizione della conversazione in tempo reale.

Casi d'uso

Per rendere le riunioni inclusive per tutti, ad esempio i partecipanti che sono sordi e difficili da sentire, è importante avere trascrizione in tempo reale. La trascrizione della conversazione in modalità in tempo reale accetta l'audio della riunione e determina chi dice cosa, consentendo a tutti i partecipanti alla riunione di seguire la trascrizione e partecipare alla riunione, senza ritardo.

I partecipanti alla riunione possono concentrarsi sulla riunione e lasciare la trascrizione delle note alla conversazione. I partecipanti possono partecipare attivamente alla riunione e seguire rapidamente i passaggi successivi, usando la trascrizione invece di prendere appunti e potenzialmente mancante qualcosa durante la riunione.

Funzionamento

Il diagramma seguente mostra una panoramica generale del funzionamento della funzionalità.

Diagram that shows the relationships among different pieces of the conversation transcription solution.

Input previsti

La trascrizione della conversazione usa due tipi di input:

  • Flusso audio multicanale: Per informazioni dettagliate sulla specifica e sulla progettazione, vedere Suggerimenti sulla matrice del microfono.
  • Esempi di voce utente: La trascrizione delle conversazioni richiede profili utente in anticipo della conversazione per l'identificazione dell'altoparlante. Raccogliere registrazioni audio da ogni utente e quindi inviare le registrazioni al servizio di generazione delle firme per convalidare l'audio e generare profili utente.

Gli esempi di voce utente per le firme vocali sono necessari per l'identificazione dell'altoparlante. Gli altoparlanti che non dispongono di campioni vocali vengono riconosciuti come non identificati. Gli altoparlanti non identificati possono comunque essere differenziati quando la proprietà è abilitata (vedere l'esempio DifferentiateGuestSpeakers seguente). L'output di trascrizione mostra quindi gli altoparlanti come, ad esempio, Guest_0 e Guest_1, anziché riconoscerli come nomi di altoparlanti specifici pre-registrati.

config.SetProperty("DifferentiateGuestSpeakers", "true");

In tempo reale e asincrono

Le sezioni seguenti forniscono maggiori dettagli sulle modalità di trascrizione che è possibile scegliere.

Tempo reale

I dati audio vengono elaborati in tempo reale per restituire l'identificatore dell'altoparlante e la trascrizione. Selezionare questa modalità se il requisito della soluzione di trascrizione consiste nel fornire ai partecipanti della conversazione una visualizzazione di trascrizione live della conversazione in corso. Ad esempio, la creazione di un'applicazione per rendere le riunioni più accessibili ai partecipanti con perdita di udito o sordo è un caso d'uso ideale per la trascrizione in tempo reale.

Asincrono

I dati audio vengono elaborati in batch per restituire l'identificatore dell'altoparlante e la trascrizione. Selezionare questa modalità se il requisito della soluzione di trascrizione è quello di fornire un'accuratezza maggiore, senza la visualizzazione trascrizione live. Ad esempio, se si vuole creare un'applicazione per consentire ai partecipanti alle riunioni di recuperare facilmente le riunioni perse, usare la modalità di trascrizione asincrona per ottenere risultati di trascrizione ad alta accuratezza.

Tempo reale più asincrono

I dati audio vengono elaborati in tempo reale per restituire l'identificatore dell'altoparlante e la trascrizione e, inoltre, richiede una trascrizione con accuratezza elevata tramite l'elaborazione asincrona. Selezionare questa modalità se l'applicazione ha bisogno di trascrizione in tempo reale e richiede anche una trascrizione più precisa per l'uso dopo la conversazione o la riunione.

Lingue supportate

Attualmente, la trascrizione della conversazione supporta tutte le lingue voce-a-testo nelle aree seguenti: centralus, eastasia, eastus, westeurope.

Passaggi successivi