Che cos'è la conversazione per più dispositivi?

Articolo
01/23/2024

La conversazione multi-dispositivo semplifica la creazione di una conversazione vocale o di testo tra più client e coordinare i messaggi inviati tra di essi.

Nota

L'accesso alla conversazione multi-dispositivo è una funzionalità di anteprima.

Con la conversazione multi-dispositivo, è possibile:

Connettere più client nella stessa conversazione e gestire l'invio e la ricezione di messaggi tra di essi.
Trascrivere facilmente l'audio da ogni client e inviare la trascrizione agli altri, con traduzione facoltativa.
Inviare facilmente messaggi di testo tra client, con traduzione facoltativa.

È possibile creare una funzionalità o una soluzione che funziona in una matrice di dispositivi. Ogni dispositivo può inviare in modo indipendente messaggi (trascrizioni di messaggi audio o istantanei) a tutti gli altri dispositivi.

Mentre la trascrizione riunioni funziona su un singolo dispositivo con una matrice di microfoni multicanale, Conversazione multi-dispositivo è adatta per scenari con più dispositivi, ognuno con un singolo microfono.

Importante

La conversazione multi-dispositivo non supporta l'invio di file audio tra client: solo la trascrizione e/o la traduzione.

Funzionalità chiave

Trascrizione in tempo reale: tutti ricevono una trascrizione della conversazione, in modo che possano seguire il testo in tempo reale o salvarlo per un secondo momento.
Traduzione in tempo reale: Con più di 70 lingue supportate per la traduzione testuale, gli utenti possono tradurre la conversazione nelle lingue preferite.
Trascrizioni leggibili: la trascrizione e la traduzione sono facili da seguire, con punteggiatura e interruzioni di frase.
Input vocale o di testo: ogni utente può parlare o digitare nel proprio dispositivo, a seconda delle funzionalità di supporto della lingua abilitate per la lingua scelta dal partecipante. Fare riferimento al supporto linguistico.
Inoltro messaggi: il servizio di conversazione multi-dispositivo distribuisce i messaggi inviati da un client a tutti gli altri, nelle lingue preferite.
Identificazione del messaggio: ogni messaggio ricevuto dagli utenti nella conversazione viene contrassegnato con il nome alternativo dell'utente che lo ha inviato.

Utilizzare casi

Conversazioni leggere

La creazione e l'aggiunta di una conversazione è semplice. Un utente funge da "host" e crea una conversazione, che genera un codice di conversazione casuale di cinque lettere e un codice a matrice. Tutti gli altri utenti possono partecipare alla conversazione digitando il codice della conversazione o analizzando il codice a matrice.

Poiché gli utenti si uniscono tramite il codice di conversazione e non sono tenuti a condividere le informazioni di contatto, è facile creare conversazioni rapide e sul posto.

Riunioni inclusive

La trascrizione e la traduzione in tempo reale consentono di rendere accessibili le conversazioni per le persone che parlano lingue diverse e/o sono sordi o difficili da ascoltare. Ogni persona può anche partecipare attivamente alla conversazione, parlando la lingua preferita o inviando messaggi istantanei.

Presentazioni

È anche possibile fornire sottotitoli per presentazioni e conferenze sia sullo schermo che sui dispositivi dei membri del pubblico. Dopo che il gruppo di destinatari partecipa al codice della conversazione, può visualizzare la trascrizione nella lingua preferita, nel proprio dispositivo.

Funzionamento

Tutti i client usano Speech SDK per creare o partecipare a una conversazione. Speech SDK interagisce con il servizio di conversazione multi-dispositivo, che gestisce la durata di una conversazione. La conversazione include l'elenco dei partecipanti, la lingua scelta di ogni client e i messaggi inviati.

Ogni client può inviare messaggi audio o istantanei. Il servizio usa il riconoscimento vocale per convertire l'audio in testo e inviare messaggi istantanei così come sono. Se i client scelgono lingue diverse, il servizio converte tutti i messaggi nelle lingue specificate di ogni client.

Multi-device Conversation Overview Diagram

Panoramica di conversazione, host e partecipante

Una conversazione è una sessione avviata da un utente per consentire agli altri utenti partecipanti di partecipare. Tutti i client si connettono alla conversazione usando il codice di conversazione di cinque lettere.

Ogni conversazione crea metadati che includono:

Timestamp di quando la conversazione è iniziata e terminata
Elenco di tutti i partecipanti alla conversazione, che include il nome alternativo scelto di ogni utente e la lingua principale per l'input vocale o di testo.

Esistono due tipi di utenti in una conversazione: host e partecipante.

L'host è l'utente che avvia una conversazione e che funge da amministratore di tale conversazione.

Ogni conversazione può avere un solo host
L'host deve essere connesso alla conversazione durante la conversazione. Se l'host lascia la conversazione, la conversazione termina per tutti gli altri partecipanti.
L'host include alcuni controlli aggiuntivi per gestire la conversazione:
- Bloccare la conversazione: impedire a più partecipanti di partecipare
- Disattiva tutti i partecipanti: impedisci ad altri partecipanti di inviare messaggi alla conversazione, sia trascritti da messaggi vocali o istantanei
- Disattivare l'audio dei singoli partecipanti
- Riattivare l’audio di tutti i partecipanti
- Riattivare l'audio dei singoli partecipanti

Un partecipante è un utente che partecipa a una conversazione.

Un partecipante può uscire e partecipare nuovamente alla stessa conversazione in qualsiasi momento, senza terminare la conversazione per altri partecipanti.
I partecipanti non possono bloccare la conversazione o disattivare/riattivare l'audio di altri utenti

Nota

Ogni conversazione può avere fino a 100 partecipanti, di cui 10 possono parlare simultaneamente in qualsiasi momento.

Supporto di versioni in lingue diverse

Ogni utente deve scegliere una lingua primaria quando partecipa a una conversazione. La selezione è la lingua in cui parlano e inviano messaggi istantanei e anche la lingua in cui vedono i messaggi degli altri utenti.

Esistono due tipi di lingue: riconoscimento vocale e solo testo:

Se l'utente sceglie una lingua di sintesi vocale come lingua principale, può usare sia la voce che l'input di testo nella conversazione.
Se l'utente sceglie una lingua solo testo, può usare solo l'input di testo e inviare messaggi istantanei nella conversazione. Le lingue solo testo sono le lingue supportate per la traduzione testuale, ma non la sintesi vocale. È possibile visualizzare le lingue disponibili nella pagina del supporto linguistico.

Oltre alla lingua principale, ogni partecipante può anche specificare più lingue per la traduzione della conversazione.

La tabella seguente è un riepilogo delle operazioni che l'utente può eseguire in una conversazione multi-dispositivo, in base alla lingua primaria scelta.

Cosa può fare l'utente nella conversazione	Riconoscimento vocale	Solo testo
Usare l'input vocale	✔️	❌
Inviare messaggi istantanei	✔️	✔️
Tradurre la conversazione	✔️	✔️

Nota

Per un elenco delle lingue disponibili per il riconoscimento vocale e la traduzione testuale, vedere lingue supportate.

Passaggi successivi

Tradurre le conversazioni in tempo reale

Che cos'è la conversazione per più dispositivi?

Funzionalità chiave

Utilizzare casi

Conversazioni leggere

Riunioni inclusive

Presentazioni

Funzionamento

Panoramica di conversazione, host e partecipante

Supporto di versioni in lingue diverse

Passaggi successivi

Risorse aggiuntive