Che cosa sono le voci sintesi vocale di OpenAI?

Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive.

Le voci di sintesi vocale OpenAI sono disponibili tramite due varianti di modello: Neural e NeuralHD.

  • Neural: ottimizzato per i casi d'uso in tempo reale con la latenza più bassa, ma con una qualità inferiore rispetto a NeuralHD.
  • NeuralHD: ottimizzato per la qualità.

Per una dimostrazione delle voci OpenAI in Azure OpenAI Studio e Speech Studio, vedere questo video introduttivo.

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Ci si potrebbe chiedere: se si vuole usare una voce di sintesi vocale OpenAI, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Ogni modello vocale offre funzionalità e caratteristiche distinte, consentendo di scegliere quella più adatta alle proprie esigenze specifiche. Si vogliono comprendere le opzioni e le differenze tra le voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure.

È possibile scegliere tra le seguenti voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure:

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Se si vogliono usare le voci di sintesi vocale OpenAI, è possibile scegliere se usarle tramite Azure OpenAI o tramite Voce di Azure AI. In entrambi i casi, il risultato della sintesi vocale è lo stesso.

Ecco un confronto delle funzionalità tra voci di sintesi vocale OpenAI nel servizio OpenAI di Azure e voci di sintesi vocale OpenAI alle voci vocali in Voce di Azure AI.

Funzionalità Servizio OpenAI di Azure (voci OpenAI) Voce di Azure AI (voci OpenAI) Voci di Voce di Azure AI
Area Stati Uniti centro-settentrionali, Svezia centrale Stati Uniti centro-settentrionali, Svezia centrale Disponibile in decine di aree. Vedere l'elenco delle aree.
Varietà voce 6 6 Più di 400
Numero di voce multilingue 6 6 14
Copertura massima del linguaggio multilingue 57 57 77
Supporto di SSML (Speech Synthesis Markup Language) Non supportato Supporto per un subset di elementi SSML. Supporto per il set completo di SSML in Voce di Azure AI.
Opzioni di sviluppo REST API Speech SDK, interfaccia della riga di comando di Voce, API REST Speech SDK, interfaccia della riga di comando di Voce, API REST
Opzioni di distribuzione Solo nel cloud Solo nel cloud Cloud, embedded, ibrido e contenitori.
Sintesi in tempo reale o batch In tempo reale Sintesi batch e in tempo reale Sintesi batch e in tempo reale
Latenza maggiore di 500 ms maggiore di 500 ms minori di 300 ms
Frequenza di campionamento dell'audio sintetizzato 24 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato audio di output vocale opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Sono disponibili funzionalità e funzionalità aggiuntive in Riconoscimento vocale di Intelligenza artificiale di Azure che non sono disponibili con le voci OpenAI. Ad esempio:

  • OpenAI text to speech voices in Azure AI Speech supporta solo un subset di elementi SSML. Le voci voce di Riconoscimento vocale di Azure supportano il set completo di elementi SSML.
  • Riconoscimento vocale di Azure supporta gli eventi limite delle parole. Le voci OpenAI non supportano gli eventi limite delle parole.

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione, una pausa o un silenzio. È possibile racchiudere il testo fra tag di evento, ad esempio segnalibro o visema, che possono essere elaborati in un secondo momento dall'applicazione.

La tabella seguente descrive gli elementi SSML (Speech Synthesis Markup Language) supportati da voci di sintesi vocale OpenAI in Voce di Azure AI. Per le voci OpenAI sono supportati solo il sottoinsieme di tag SSML seguente. Per altre informazioni, vedere Struttura ed eventi di documenti SSML.

Nome dell'elemento SSML Descrizione
<speak> Racchiude l'intero contenuto da pronunciare. È l’elemento radice di un documento SSML.
<voice> Specifica una voce utilizzata per l'output di sintesi vocale.
<sub> Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento.
<say-as> Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento.

Tutti i valori della proprietà interpret-as sono supportati per questo elemento ad eccezione di interpret-as="name". Ad esempio, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> è supportato, ma <say-as interpret-as="name">ED</say-as> non lo è. Per altre informazioni, vedere Pronuncia con SSML.
<s> Indica frasi.
<lang> Indica le impostazioni locali predefinite per la lingua che si vuole che la voce neurale parli.
<break> Utilizzare per eseguire l'override del comportamento predefinito di interruzioni o pause tra le parole.

Passaggi successivi