O que é o modelo Whisper?

Artigo
04/11/2024

O modelo Whisper é um modelo de conversão de fala em texto do OpenAI que você pode usar para transcrever arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês. O modelo também pode ser usado para transcrever arquivos de áudio que contêm fala em outros idiomas. A saída do modelo é texto em inglês.

Os modelos Whisper estão disponíveis por meio do Serviço OpenAI do Azure ou por meio da Fala de IA do Azure. Os recursos diferem para essas ofertas. Na Fala de IA do Azure, o Whisper é apenas um dos vários modelos de conversão de fala em texto que você pode usar.

Você pode se perguntar:

O Modelo Whisper é uma boa opção para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?
Se eu quiser usar o Modelo Whisper, devo usá-lo por meio do Serviço OpenAI do Azure ou por meio da Fala de IA do Azure? Quais são os cenários que me orientam a usar um ou outro?

Modelo Whisper por meio de modelos de Fala de IA do Azure

O modelo Whisper ou os modelos de Fala de IA do Azure são apropriados dependendo de seus cenários. Se decidir usar a Fala de IA do Azure, você poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.

Cenário	Modelo Whisper	Modelos de Fala de IA do Azure
Transcrições, legendas e subtítulos em tempo real para áudio e vídeo.	Não disponível	Recomendado
Transcrições, legendas e subtítulos para áudio e vídeo pré-gravados.	O modelo Whisper por meio do OpenAI do Azure é recomendado para processamento rápido de arquivos de áudio individuais. O modelo Whisper por meio da Fala de IA do Azure é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, consulte Modelo Whisper por meio da Fala de IA do Azure ou por meio do Serviço OpenAI do Azure?	Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora no nível de palavra.
Transcrição de gravações e análises de chamadas telefônicas, como resumo de chamadas, sentimento, tópicos principais e insights personalizados.	Disponível	Recomendado
Transcrição e análise em tempo real para ajudar agentes do call center com perguntas de clientes.	Não disponível	Recomendado
Transcrição de gravações e análises de reunião, como resumo da reunião, capítulos de reunião e extração de itens de ação.	Disponível	Recomendado
Entrada de texto em tempo real e geração de documentos por meio de ditado de voz.	Não disponível	Recomendado
Agente de voz da central de atendimento: roteamento de chamadas e resposta de voz interativa para call centers.	Disponível	Recomendado
Assistente de voz: assistente de voz específica do aplicativo para um decodificador, aplicativo móvel, carro e outros cenários.	Disponível	Recomendado
Avaliação de pronúncia: avaliar a pronúncia da voz de um orador.	Não disponível	Recomendado
Traduzir áudio ao vivo de um idioma para outro.	Não disponível	Recomendado por meio da API de tradução de fala
Traduzir áudio pré-gravado de outros idiomas para o inglês.	Recomendado	Disponível por meio da API de tradução de fala
Traduzir áudio pré-gravado para idiomas diferentes do inglês.	Não disponível	Recomendado por meio da API de tradução de fala

Modelo Whisper modelo por meio da Fala de IA do Azure ou por meio do Serviço OpenAI do Azure?

Se decidir usar o modelo Whisper, você terá duas opções. Você pode escolher se deseja usar o Modelo Whisper por meio do OpenAI do Azure ou por meio da Fala de IA do Azure. Em ambos os casos, a legibilidade do texto transcrito é a mesma. É possível inserir áudio de idioma misto e a saída ser em inglês.

O Modelo Whisper por meio do Serviço OpenAI do Azure pode ser o melhor para:

Transcrever rapidamente arquivos de áudio um de cada vez
Traduzir áudio de outros idiomas para o inglês
Fornecer um prompt para o modelo para orientar a saída
Formatos de arquivo compatíveis: mp3, mp4, mpweg, mpga, m4a, wav e webm

O Modelo Whisper por meio da Fala de IA do Azure pode ser o melhor para:

Transcrever arquivos maiores que 25 MB (até 1 GB). O limite de tamanho do arquivo para o modelo Whisper do OpenAI do Azure é de 25 MB.
Transcrever grandes lotes de arquivos de áudio
Diarização para distinguir entre os diferentes palestrantes que participam da conversa. O Serviço de fala fornece informações sobre qual locutor estava falando uma parte específica da fala transcrita. O modelo Whisper por meio do OpenAI do Azure não dá suporte à diarização.
Carimbos de data/hora no nível da palavra
Formatos de arquivo compatíveis mp3, wav e ogg
Personalização do modelo base do Whisper para melhorar a precisão do seu cenário (em breve)

O suporte regional é outra consideração.

O modelo Whisper por meio do Serviço OpenAI do Azure está disponível nas seguintes regiões: Leste dos EUA 2, Sul da Índia, Centro-Norte, Leste da Noruega, Suécia Central e Oeste da Europa.
O modelo Whisper via Fala de IA do Azure está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático, Sul do Reino Unido e Europa Ocidental.

Share via

O que é o modelo Whisper?

Modelo Whisper por meio de modelos de Fala de IA do Azure

Modelo Whisper modelo por meio da Fala de IA do Azure ou por meio do Serviço OpenAI do Azure?

Próximas etapas

Recursos adicionais