Che cosa sono le voci sintesi vocale di OpenAI?

Articolo
04/25/2024

Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive.

Le voci di sintesi vocale OpenAI sono disponibili tramite due varianti di modello: Neural e NeuralHD.

Neural: ottimizzato per i casi d'uso in tempo reale con la latenza più bassa, ma con una qualità inferiore rispetto a NeuralHD.
NeuralHD: ottimizzato per la qualità.

Per una dimostrazione delle voci OpenAI in Azure OpenAI Studio e Speech Studio, vedere questo video introduttivo.

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Ci si potrebbe chiedere: se si vuole usare una voce di sintesi vocale OpenAI, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Ogni modello vocale offre funzionalità e caratteristiche distinte, consentendo di scegliere quella più adatta alle proprie esigenze specifiche. Si vogliono comprendere le opzioni e le differenze tra le voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure.

È possibile scegliere tra le seguenti voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure:

Voci di sintesi vocale OpenAI nel servizio OpenAI di Azure. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
Voci di sintesi vocale OpenAI in Riconoscimento vocale di Azure per intelligenza artificiale. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
Voci di sintesi vocale del servizio Voce di Azure AI. Disponibile in decine di aree. Vedere l'elenco delle aree.

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Se si vogliono usare le voci di sintesi vocale OpenAI, è possibile scegliere se usarle tramite Azure OpenAI o tramite Voce di Azure AI. In entrambi i casi, il risultato della sintesi vocale è lo stesso.

Ecco un confronto delle funzionalità tra voci di sintesi vocale OpenAI nel servizio OpenAI di Azure e voci di sintesi vocale OpenAI alle voci vocali in Voce di Azure AI.

Funzionalità	Servizio OpenAI di Azure (voci OpenAI)	Voce di Azure AI (voci OpenAI)	Voci di Voce di Azure AI
Area	Stati Uniti centro-settentrionali, Svezia centrale	Stati Uniti centro-settentrionali, Svezia centrale	Disponibile in decine di aree. Vedere l'elenco delle aree.
Varietà voce	6	6	Più di 400
Numero di voce multilingue	6	6	14
Copertura massima del linguaggio multilingue	57	57	77
Supporto di SSML (Speech Synthesis Markup Language)	Non supportato	Supporto per un subset di elementi SSML.	Supporto per il set completo di SSML in Voce di Azure AI.
Opzioni di sviluppo	REST API	Speech SDK, interfaccia della riga di comando di Voce, API REST	Speech SDK, interfaccia della riga di comando di Voce, API REST
Opzioni di distribuzione	Solo nel cloud	Solo nel cloud	Cloud, embedded, ibrido e contenitori.
Sintesi in tempo reale o batch	In tempo reale	Sintesi batch e in tempo reale	Sintesi batch e in tempo reale
Latenza	maggiore di 500 ms	maggiore di 500 ms	minori di 300 ms
Frequenza di campionamento dell'audio sintetizzato	24 kHz	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz
Formato audio di output vocale	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Sono disponibili funzionalità e funzionalità aggiuntive in Riconoscimento vocale di Intelligenza artificiale di Azure che non sono disponibili con le voci OpenAI. Ad esempio:

OpenAI text to speech voices in Azure AI Speech supporta solo un subset di elementi SSML. Le voci voce di Riconoscimento vocale di Azure supportano il set completo di elementi SSML.
Riconoscimento vocale di Azure supporta gli eventi limite delle parole. Le voci OpenAI non supportano gli eventi limite delle parole.

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione, una pausa o un silenzio. È possibile racchiudere il testo fra tag di evento, ad esempio segnalibro o visema, che possono essere elaborati in un secondo momento dall'applicazione.

La tabella seguente descrive gli elementi SSML (Speech Synthesis Markup Language) supportati da voci di sintesi vocale OpenAI in Voce di Azure AI. Per le voci OpenAI sono supportati solo il sottoinsieme di tag SSML seguente. Per altre informazioni, vedere Struttura ed eventi di documenti SSML.

Nome dell'elemento SSML	Descrizione
`<speak>`	Racchiude l'intero contenuto da pronunciare. È l’elemento radice di un documento SSML.
`<voice>`	Specifica una voce utilizzata per l'output di sintesi vocale.
`<sub>`	Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento.
`<say-as>`	Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento. Tutti i valori della proprietà `interpret-as` sono supportati per questo elemento ad eccezione di `interpret-as="name"`. Ad esempio, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` è supportato, ma `<say-as interpret-as="name">ED</say-as>` non lo è. Per altre informazioni, vedere Pronuncia con SSML.
`<s>`	Indica frasi.
`<lang>`	Indica le impostazioni locali predefinite per la lingua che si vuole che la voce neurale parli.
`<break>`	Utilizzare per eseguire l'override del comportamento predefinito di interruzioni o pause tra le parole.

Che cosa sono le voci sintesi vocale di OpenAI?

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Passaggi successivi

Risorse aggiuntive