Tipos de serviços de API de voz
Pode utilizar o serviço de Voz dos Serviços Cognitivos do Azure para realizar transformações de linguagem falada, incluindo conversão de voz em texto, conversão de texto em voz, tradução de voz e reconhecimento de orador.
Nota
Utilize o Serviço Cognitivo do Azure para idioma se quiser reunir informações sobre termos ou expressões ou obter uma análise contextual detalhada do idioma falado ou escrito.
Serviços
- A conversão de voz em texto pode converter fluxos de áudio em texto em tempo real ou em lote.
- A conversão de texto em voz permite que as aplicações convertam texto em voz humana.
- A tradução de voz fornece conversão de voz em voz em voz e conversão de voz em texto de transmissões de áudio em vários idiomas.
Como escolher um serviço de voz
Este fluxograma pode ajudá-lo a escolher o serviço de voz que se adequa às suas necessidades:
O lado esquerdo do diagrama ilustra os processos de áudio para áudio ou de áudio para texto.
- A conversão de voz em texto é utilizada para converter voz de uma origem de áudio num formato de texto.
- A conversão de voz em voz é utilizada para traduzir voz num idioma para voz noutro idioma.
O lado direito do diagrama ilustra os processos de texto para áudio.
- A conversão de texto em voz é utilizada para gerar áudio falado a partir de uma origem de texto.
Casos de utilização comuns
A tabela seguinte recomenda serviços para alguns casos de utilização comuns.
Caso de utilização | Serviço a utilizar |
---|---|
Fornecer legendas de áudio para vídeos gravados ou em direto | Conversão de voz em texto |
Criar uma transcrição de uma chamada telefónica ou reunião | Conversão de voz em texto |
Implementar o ditado de notas automatizado | Conversão de voz em texto |
Determinar a entrada de utilizador pretendida para processamento adicional | Conversão de voz em texto |
Gerar respostas faladas à entrada do utilizador | Conversão de texto em voz |
Criar menus de voz para sistemas telefónicos | Conversão de texto em voz |
Ler mensagens de e-mail ou sms em voz alta em cenários mãos livres | Conversão de texto em voz |
Difundir anúncios em localizações públicas, como estações ferroviárias ou aeroportos | Conversão de texto em voz |
Produzir legendagem de áudio em tempo real para um discurso ou tradução bidirecional simultânea de uma conversa falada | Conversão de voz em texto |
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuintes.
Autores principais:
- Kruti Mehta | Engenheiro Fast-Track Sénior do Azure
- Oscar Shimabukuro | Arquiteto Sénior de Soluções cloud
Outros contribuidores:
- Mick Alberts | Escritor Técnico
- Ashish Chahuan | Arquiteto Sénior de Soluções cloud
- Brandon Cowen | Arquiteto Sénior de Soluções cloud
- Manjit Singh | Engenheiro de Software
- Christina Skarpathiotaki | Arquiteto Sénior de Soluções cloud
- Nathan Widdup | Engenheiro Fast-Track Sénior do Azure
Para ver perfis do LinkedIn não públicos, inicie sessão no LinkedIn.
Passos seguintes
- O que é o serviço de Voz?
- Mensagem de blogue das APIs de Voz
- Percurso de aprendizagem: Aprovisionar e gerir os Serviços Cognitivos do Azure
- Percurso de aprendizagem: Processar e traduzir voz com os Serviços Cognitivos de Voz do Azure
Recursos relacionados
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários