Share via


O que são as vozes de conversão de texto em fala da OpenAI?

Assim como as vozes do Fala de IA do Azure, as vozes de conversão de texto em fala do OpenAI oferecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso abre uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.

As vozes de conversão de texto em fala do OpenAI estão disponíveis em duas variantes de modelo: Neural e NeuralHD.

  • Neural: otimizado para casos de uso em tempo real com a menor latência, mas com qualidade inferior a NeuralHD.
  • NeuralHD: otimizado para qualidade.

Para obter uma demonstração das vozes da OpenAI no Estúdio da OpenAI e no Estúdio de Fala no do Azure, assista a esse vídeo de introdução.

Vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure

Você pode se perguntar: se eu quiser usar uma voz de conversão de texto em fala do OpenAI, devo usá-la por meio do Serviço OpenAI do Azure ou do Fala de IA do Azure? Quais são os cenários que me orientam a usar um ou outro?

Cada modelo de voz oferece recursos e funcionalidades diferentes, permitindo que você escolha o que melhor atende às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure.

Você pode escolher entre as seguintes vozes de conversão de texto em fala nos serviços de IA do Azure:

Vozes de conversão de texto em fala do OpenAI por meio do Serviço OpenAI do Azure ou por meio do Fala de IA do Azure?

Se quiser usar as vozes de conversão de texto em fala do OpenAI, você poderá escolher se deseja usá-las via OpenAI do Azure ou via Fala de IA do Azure. Em ambos os casos, o resultado da síntese de fala é o mesmo.

Aqui está uma comparação dos recursos entre as vozes de conversão de texto em fala do OpenAI no Serviço OpenAI do Azure e as vozes de conversão de texto em fala da OpenAI no Fala de IA do Azure.

Recurso Serviço OpenAI do Azure (vozes OpenAI) Fala da IA do Azure (vozes do OpenAI) Vozes do Fala de IA do Azure
Região Centro-Norte dos EUA, Suécia Central Centro-Norte dos EUA, Suécia Central Disponível em dezenas de regiões. Consulte a lista de regiões.
Variedade de Vozes 6 6 Mais de 400
Número de vozes multilíngue 6 6 14
Cobertura máxima de idiomas multilíngues 57 57 77
Suporte para Speech Synthesis Markup Language (SSML) Sem suporte Suporte para um subconjunto de elementos SSML. Suporte para o conjunto completo de SSML no Fala de IA do Azure.
Opções de desenvolvimento API REST SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST
Opção de implantação Somente na nuvem Somente na nuvem Nuvem, inserido, híbrido e contêineres.
Síntese em tempo real ou em lote Tempo Real Síntese em tempo real e em lote Síntese em tempo real e em lote
Latência maior que 500 ms maior que 500 ms menor que 300 ms
Taxa de amostragem de áudio sintetizado 24 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato do áudio da saída de fala opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Há recursos e recursos adicionais disponíveis na Fala de IA do Azure que não estão disponíveis com as vozes OpenAI. Por exemplo:

Elementos SSML com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure

O SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode colocar o texto entre marcas de evento, como indicador ou visema, que poderão ser processados depois pelo aplicativo.

A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure. Há suporte para apenas um subconjunto de marcas SSML das vozes do OpenAI. Consulte Estrutura do documento SSML e eventos para obter mais informações.

Nome do elemento SSML Descrição
<speak> Inclui todo o conteúdo a ser falado. É o elemento raiz de um documento SSML.
<voice> Especifica uma voz usada para saída da conversão de texto em fala.
<sub> Indica que o valor do texto do atributo de alias deve ser pronunciado em vez do texto contido no elemento.
<say-as> Indica o tipo de conteúdo, como número ou data, do texto do elemento.

Há suporte para todos os valores de propriedade interpret-as para esse elemento, exceto interpret-as="name". Por exemplo, há suporte para <say-as interpret-as="date" format="dmy">10-12-2016</say-as>, mas não há suporte para <say-as interpret-as="name">ED</say-as>. Para obter mais informações, confira pronúncia com SSML.
<s> Denota sentenças.
<lang> Indica a localidade padrão para o idioma que você deseja que a voz neural fale.
<break> Use para substituir o comportamento padrão de intervalos ou pausas entre as palavras.

Próximas etapas