Che cos'è il modello Whisper?

Articolo
04/07/2024

Il modello Whisper è un modello di riconoscimento vocale da OpenAI che è possibile usare per trascrivere i file audio. Il training del modello viene eseguito su un set di dati di grandi dimensioni di audio e testo in inglese. Il modello è ottimizzato per la trascrizione dei file audio che contengono la voce in inglese. Il modello può essere usato anche per trascrivere file audio che contengono la voce in altre lingue. L'output del modello è testo in inglese.

I modelli Whisper sono disponibili tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Intelligenza artificiale di Azure. Le funzionalità differiscono per queste offerte. In Riconoscimento vocale di Azure, Whisper è solo uno dei diversi modelli di riconoscimento vocale che è possibile usare.

Ci si potrebbe chiedere:

Il modello Whisper è una scelta ottimale per lo scenario o è migliore un modello di Riconoscimento vocale di Intelligenza artificiale di Azure? Quali sono i confronti tra le API tra i due tipi di modelli?
Se si vuole usare il modello Whisper, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Modello Whisper o modelli di Riconoscimento vocale di Azure per intelligenza artificiale

Il modello Whisper o i modelli di Riconoscimento vocale di Azure per intelligenza artificiale sono appropriati a seconda degli scenari. Se si decide di usare Riconoscimento vocale di Intelligenza artificiale di Azure, è possibile scegliere tra diversi modelli, incluso il modello Whisper. Nella tabella seguente vengono confrontate le opzioni con le raccomandazioni su dove iniziare.

Scenario	Modello Sussurra	Modelli di Riconoscimento vocale di Intelligenza artificiale di Azure
Trascrizioni in tempo reale, didascalia e sottotitoli per audio e video.	Non disponibile	Consigliato
Trascrizioni, didascalia e sottotitoli per audio e video preregistrati.	Il modello Whisper tramite Azure OpenAI è consigliato per l'elaborazione rapida di singoli file audio. Il modello Whisper tramite Riconoscimento vocale di Intelligenza artificiale di Azure è consigliato per l'elaborazione batch di file di grandi dimensioni. Per altre informazioni, vedere Modello Whisper tramite Riconoscimento vocale di Azure per intelligenza artificiale o tramite il servizio OpenAI di Azure?	Consigliato per l'elaborazione batch di file di grandi dimensioni, la diarizzazione e i timestamp a livello di parola.
Trascrizione delle registrazioni delle chiamate telefoniche e analisi, ad esempio riepilogo delle chiamate, sentiment, argomenti chiave e informazioni dettagliate personalizzate.	Disponibile	Consigliato
Trascrizione e analisi in tempo reale per assistere gli agenti del call center con domande dei clienti.	Non disponibile	Consigliato
Trascrizione di registrazioni e analisi delle riunioni, ad esempio riepilogo delle riunioni, capitoli delle riunioni ed estrazione di elementi di azione.	Disponibile	Consigliato
Immissione di testo in tempo reale e generazione di documenti tramite dettatura vocale.	Non disponibile	Consigliato
Agente vocale del Centro contatti: routing delle chiamate e risposta vocale interattiva per i call center.	Disponibile	Consigliato
Assistente vocale: assistente vocale specifico per un set-top box, un'app per dispositivi mobili, un'auto e altri scenari.	Disponibile	Consigliato
Valutazione della pronuncia: valutare la pronuncia della voce di un parlante.	Non disponibile	Consigliato
Tradurre l'audio live da una lingua a un'altra.	Non disponibile	Consigliato tramite l'API traduzione vocale
Tradurre l'audio prerecordato da altre lingue in inglese.	Consigliato	Disponibile tramite l'API traduzione vocale
Tradurre l'audio prerecordato in lingue diverse dall'inglese.	Non disponibile	Consigliato tramite l'API traduzione vocale

Sussurrare il modello tramite Riconoscimento vocale di Azure per intelligenza artificiale o tramite il servizio OpenAI di Azure?

Se si decide di usare il modello Whisper, sono disponibili due opzioni. È possibile scegliere se usare il modello Whisper tramite Azure OpenAI o tramite Riconoscimento vocale di Intelligenza artificiale di Azure. In entrambi i casi, la leggibilità del testo trascritto è la stessa. È possibile immettere audio in lingua mista e l'output è in inglese.

Il modello Whisper tramite il servizio Azure OpenAI potrebbe essere ideale per:

Trascrizione rapida dei file audio uno alla volta
Tradurre audio da altre lingue in inglese
Fornire un prompt al modello per guidare l'output
Formati di file supportati: mp3, mp4, mpdevice, mpega, m4a, wav e webm

Il modello Whisper tramite Riconoscimento vocale di Intelligenza artificiale di Azure potrebbe essere ideale per:

Trascrizione di file di dimensioni superiori a 25 MB (fino a 1 GB). Il limite di dimensioni del file per il modello Azure OpenAI Whisper è di 25 MB.
Trascrizione di grandi batch di file audio
Diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Il servizio Voce fornisce informazioni sull'altoparlante che parlava una particolare parte del discorso trascritto. Il modello Whisper tramite Azure OpenAI non supporta la diarizzazione.
Timestamp a livello di parola
Formati di file supportati: mp3, wav e ogg
Personalizzazione del modello di base Whisper per migliorare l'accuratezza dello scenario (presto disponibile)

Il supporto regionale è un'altra considerazione.

Il modello Whisper tramite il servizio OpenAI di Azure è disponibile nelle aree seguenti: EastUS 2, India meridionale, Centro settentrionale, Norvegia orientale, Svezia centrale ed Europa occidentale.
Il modello Whisper tramite Riconoscimento vocale di Intelligenza artificiale di Azure è disponibile nelle aree seguenti: Australia orientale, Stati Uniti orientali, Stati Uniti centro-settentrionali, Stati Uniti centro-meridionali, Asia sud-orientale, Regno Unito meridionale ed Europa occidentale.

Che cos'è il modello Whisper?

Modello Whisper o modelli di Riconoscimento vocale di Azure per intelligenza artificiale

Sussurrare il modello tramite Riconoscimento vocale di Azure per intelligenza artificiale o tramite il servizio OpenAI di Azure?

Passaggi successivi

Risorse aggiuntive