O que há de novo na Fala de IA do Azure?

Artigo
04/22/2024

A Fala de IA do Azure é atualizada continuamente. Para mantê-lo atualizado com os desenvolvimentos mais recentes, este artigo fornece informações sobre novas versões e novos recursos.

Destaques recentes

O serviço de Fala de IA do Azure dá suporte ao texto OpenAI para vozes de conversão de texto em fala. Para obter mais informações, confira O que são as vozes de conversão de texto em fala do OpenAI?.
A API de voz personalizada está disponível para criar e gerir modelos de voz neural personalizados profissionais e pessoais.
A Fala de IA do Azure agora dá suporte ao modelo Whisper do OpenAI por meio da API de transcrição em lote. Para saber mais, marcar o guia Criar uma transcrição em lote.

Notas de versão

Escolher um serviço ou um recurso

Planos futuros para usuários do Linux e Android:

Cuidado

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planejamento adequadamente. Para obter mais informações, veja as orientações sobre fim da vida útil do CentOS.

Ubuntu 18.04 também atingiu o fim da vida útil em abril de 2023, então nossos usuários devem se preparar para movermos nossa versão mínima para o Ubuntu 20.04.

SDK de Fala 1.37.0: versão de abril de 2024

Novos recursos

Adicione suporte para streaming de texto de entrada na síntese de fala.
Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
Atualize builds do Android para usar o OpenSSL 3.x.

Correções de bug

Corrija falhas ocasionais de JVM durante a eliminação de SpeechRecognizer ao usar MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Aprimore a detecção de dispositivos de áudio padrão no Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Exemplos

Atualizado para novos recursos.

Serviço Cognitivo do Azure para Fala SDK 1.36.0: versão de março de 2024

Novos recursos

Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().

Correções de bug

Correção do evento SynthesisCanceled não disparado se parar for chamado durante o evento Synthesis Started (iniciado).
Corrija um problema de ruído na síntese de fala incorporada.
Corrigida uma falha no reconhecimento de fala integrado ao executar vários reconhecedores em paralelo.
Corrija a configuração do modo de detecção de frase nos pontos de extremidade v1/v2.
Correções para vários problemas com o Microsoft Audio Stack.

Exemplos

Atualizações para novos recursos.

SDK de Fala 1.35.0: versão de fevereiro de 2024

Novos recursos

Alterar a voz padrão da conversão de texto em fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
Suporte a detalhes em nível de palavra nos resultados da tradução de fala inserida usando o formato de saída detalhado.

Correções de bug

Corrigir a API do getter de posição do AudioDataStream em Python.
Corrigir a tradução de fala usando pontos de extremidade v2 sem detecção de idioma.
Corrigir uma falha aleatória e de eventos de limite de palavras duplicados na conversão de texto em fala inserida.
Retorna um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
Correção da falha no carregamento da biblioteca FPIEProcessor.dll quando o MAS é usado com C#.

Exemplos

Pequenas atualizações de formatação para amostras de reconhecimento inserido.

SDK de Fala 1.34.1: versão de janeiro de 2024

Alterações da falha

Somente correções de bug

Novos recursos

Somente correções de bug

Correções de bug

Correção da regressão introduzida na 1.34.0 na qual a URL do ponto de extremidade de serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.

SDK de Fala 1.34.0: versão de novembro de 2023

Alterações de quebra

SpeechRecognizer foi atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente um URL) que não dá mais suporte a parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.

Novos recursos

Compatibilidade com o .NET 8 (correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
Suporte para métricas de desempenho de fala inseridas que podem ser usadas para avaliar a capacidade de um dispositivo para executar a fala inserida.
Suporte para identificação de idioma de origem na tradução multilíngue inserida.
O suporte à conversão inserida de fala em texto, de texto em fala e tradução para iOS e Swift/Objective-C foi lançado em versão prévia.
O suporte inserido é fornecido no Cocoapod MicrosoftCognitiveServicesSpeechEmbedded-iOS.

Correções de bug

Correção do SDK do iOS 2 vezes o crescimento do tamanho binário · Problema nº 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção para Não foi possível obter carimbos de data/hora no nível da palavra na API de conversão de fala em texto do Azure · Problema nº 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção da fase de destruição DialogServiceConnector para desconectar eventos corretamente. Isso estava causando falhas ocasionalmente.
Correção para exceção durante a criação de um reconhecedor quando MAS é usado.
FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e ARM64 tinha dependência em bibliotecas de runtime de VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de runtime de VC (para UWP).
Correção para chamadas recorrentes [MAS] para recognizeOnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Problema nº 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção para falha de reconhecimento de fala inserida quando as listas de frases são usadas.

Exemplos

Amostras de conversão inserida de fala em texto, de texto em fala e tradução para iOS.

CLI de Fala 1.34.0: versão de novembro de 2023

Novos recursos

Suporte à saída de eventos de limite de palavras ao sintetizar a fala.

Correções de bug

A dependência do JMESPath atualizada para a versão mais recente melhora as avaliações de cadeia de caracteres

SDK de Fala 1.33.0: versão de outubro de 2023

Aviso de alteração interruptiva

O novo pacote NuGet adicionado para o MAS (Microsoft Audio Stack) agora é necessário para ser incluído por aplicativos que estão usando MAS nos respectivos arquivos de configuração de pacote.

Novos recursos

Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que fornece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
Avaliação de pronúncia: adição de suporte para avaliação de conteúdo e prosódia, que pode avaliar a fala em termos de prosódia, vocabulário, gramática e tópico.

Correções de bug

Corrigidos os desvios em resultados de reconhecimento de palavra-chave para que eles correspondam corretamente ao fluxo de áudio de entrada desde o início. A correção se aplica ao reconhecimento de palavra-chave autônoma e ao reconhecimento de fala disparado por palavra-chave.
Corrigido o problema em que o stopSpeaking do sintetizador não retorna imediatamente O método stopSpeaking() do SPXSpeechSynthesizer não pode retornar imediatamente no iOS 17 – Problema nº 2081
Corrigido o problema de importação do catalisador Mac no suporte do módulo Swift para mac catalyst com apple silicon. Problema nº 1948
JS: os carregamentos do módulo AudioWorkletNode agora usam uma URL confiável, com fallback para o navegador CDN incluso.
JS: os arquivos lib empacotados agora são destinados ao ES6 JS, e o suporte para ES5 JS foi removido.
JS: eventos intermediários para o cenário de tradução direcionados ao ponto de extremidade v2 são tratados corretamente
JS: a propriedade de idioma para TranslationRecognitionEventArgs agora está definida para eventos translation.hypothesis.
Síntese de Fala: o evento SynthesisCompleted tem a garantia de ser emitido após todos os eventos de metadados, portanto, ele pode ser usado para indicar o final dos eventos. Como detectar quando os visemes são recebidos completamente? Problema n. 2093 Azure-Samples/cognitive-services-speech-sdk

Exemplos

Exemplo adicionado para demonstrar streaming MULAW usando o Python)
Correção para exemplo de NAudio de conversão de fala em texto

CLI de Fala 1.33.0: versão de outubro de 2023

Novos recursos

Suporte à saída de eventos de limite de palavras ao sintetizar a fala.

Correções de bug

nenhum

SDK de Fala 1.32.1: versão de setembro de 2023

Correções de bug

Atualizações de pacotes do Android com as correções de segurança mais recentes do OpenSSL1.1.1v
JS – propriedade WebWorkerLoadType adicionada para permitir o bypass do carregamento de URL de dados para o trabalho de tempo limite
JS – Corrigir a desconexão da Tradução de Conversa após 10 minutos
JS – O token de autenticação da Tradução de Conversa a partir da Conversa agora se propaga para a conexão do serviço de Tradução

Exemplos

Transcrição de conversas com APIs Swift

SDK de Fala 1.31.0: versão de agosto de 2023

Novos recursos

O suporte para a diarização em tempo real está disponível em visualização pública com o SDK de Fala 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
O limite de palavras de síntese de fala sincronizada e eventos viseme com reprodução de áudio

Alterações de quebra

O antigo cenário de “transcrição de conversas” foi renomeado como “transcrição de reunião”. Por exemplo, use MeetingTranscriber em vez de ConversationTranscriber e use CreateMeetingAsync em vez de CreateConversationAsync. Embora os nomes de objetos e métodos do SDK tenham sido alterados, a renomeação não altera o recurso propriamente dito. Use objetos de transcrição de reunião para transcrever reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição de reunião para obter mais informações. Os objetos e métodos de “tradução de conversa” não são afetados por essas alterações. Você ainda pode usar o objeto ConversationTranslator e seus métodos para atender a cenários de tradução.

Para a diarização em tempo real, um novo objeto ConversationTranscriber é introduzido. O novo objeto de modelo de “transcrição de conversas” e os padrões de chamada são semelhantes ao reconhecimento contínuo com o objeto SpeechRecognizer. Uma diferença importante é que o objeto ConversationTranscriber foi projetado para ser usado em um cenário de conversa em que você deseja diferenciar vários locutores (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Confira o início rápido de diarização em tempo real para obter mais informações.

Essa tabela mostra os nomes de objeto anteriores e novos para diarização em tempo real e transcrição de reunião. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.

Nome do cenário	Nomes de objeto anteriores	Novos nomes de objeto
Diarização em tempo real	N/D	`ConversationTranscriber`
Transcrição da reunião	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Os objetos Participant, ParticipantChangedReason e User são aplicáveis aos cenários de transcrição de reunião e tradução de reunião.

² O objeto Meeting é novo e é usado com o objeto MeetingTranscriber.

Correções de bug

Correção da versão mínima com suporte https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017 do macOS
Corrigido o bug de avaliação de pronúncia:
- Resolvido o problema de pontuações de precisão de fonema. Agora, garante-se que elas refletirão com precisão apenas o fonema específico mal pronunciado. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Resolvido um problema em que o recurso Avaliação de Pronúncia identificava incorretamente pronúncias totalmente corretas como erradas, especialmente em situações em que as palavras podiam ter várias pronúncias válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Exemplos

SDK de Fala 1.30.0: versão de julho de 2023

Novos recursos

C++, C#, Java: foi adicionado suporte para DisplayWords no resultado detalhado do Reconhecimento de Fala Incorporado.
Objective-C/Swift: adicionado o suporte ao evento ConnectionMessageReceived em Objective-C/Swift.
Objective-C/Swift: modelos aprimorados de detecção de palavras-chave para iOS. Essa alteração aumentou o tamanho de determinados pacotes que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho em versões futuras.

Correções de bug

Corrigimos um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema no GitHub).
Corrigido um deadlock na API de conexão aberta de conversão de texto em fala.

Observações adicionais

Java: alguns métodos da API do Java public usados internamente foram alterados para o pacote internal, protected ou private. Essa alteração não deve afetar os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Anotado aqui para fins de transparência.

Exemplos

Novos exemplos de avaliação de pronúncia sobre como especificar um idioma de aprendizado no seu aplicativo
- C#: Consulte código de exemplo.
- C++: Consulte código de exemplo.
- JavaScript: consulte código de exemplo.
- Objective-C: consulte o código de exemplo.
- Python: consulte o código de exemplo.
- Swift: consulte o código de exemplo.

SDK de Fala 1.29.0: versão de junho de 2023

Novos recursos

C++, C#, Java: versão prévia das APIs de Tradução de Fala Inserida. Agora você pode fazer a tradução de fala sem conexão com a nuvem!
JavaScript: Identificação Contínua de Idioma (LID) agora habilitado para tradução de fala.
JavaScript: contribuição da comunidade para adicionar a propriedade LocaleName à classe VoiceInfo. Agradecemos ao usuário do GitHub shivsarthak pela solicitação de pull.
C++, C#, Java: adicionado o suporte para reamostragem da saída da conversão inserida de texto em fala da taxa de amostragem de 16 kHz para 48 kHz.
Adicionado suporte para a variante idiomática hi-IN no Reconhecimento de Intenções com Correspondência de Padrões Simples.

Correções de bug

Correção de uma falha causada por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
Correção de possíveis deadlocks no Reconhecimento de Intenções com o Correspondente de Padrões Simples

Exemplos

Novos exemplos de Tradução de Fala Inserida

SDK de Fala 1.28.0: versão de maio de 2023

Alteração da falha

SDK do JavaScript: OCSP (Protocolo de Status de Certificado Online) foi removido. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.28 em diante não incluirá mais nosso módulo OCSP personalizado.

Novos recursos

O Reconhecimento de Fala Inserido agora retorna NoMatchReason::EndSilenceTimeout quando um tempo limite de silêncio ocorre no final de um enunciado. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real.
SDK do JavaScript: defina propriedades em SpeechTranslationConfig usando valores de enumeração PropertyId.

Correções de bug

C# no Windows – corrija uma possível condição de corrida/deadlock na extensão de áudio do Windows. Em cenários que descartam o renderizador de áudio rapidamente e também usam o método Sintetizador para parar de falar, o evento seguinte não foi redefinido por parada e pode fazer com que o objeto renderizador nunca seja descartado, tudo isso enquanto pode estar mantendo um bloqueio global para descarte, congelando o thread do dotnet GC.

Exemplos

Adicionou um exemplo de fala inserida para MAUI.
Atualizada a amostra de fala inserida para Android Java de modo a incluir a conversão de texto em fala.

SDK de Fala 1.27.0: lançamento em abril de 2023

Notificação sobre as próximas alterações

Planejamos remover o Protocolo de Status de Certificados Online (OCSP) na próxima versão do SDK do JavaScript. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.

Novos recursos

JavaScript: suporte adicionado à entrada do microfone do navegador com Verificação e Identificação do Locutor.
Reconhecimento de Fala Incorporado: atualizar o suporte para a configuraçãoPropertyId::Speech_SegmentationSilenceTimeoutMs.

Correções de bug

Geral – atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto o JavaScript).
Geral – corrigir conversões de cadeia de caracteres vazando na memória no Windows (todas as linguagens de programação relevantes, exceto o JavaScript).
Reconhecimento de Fala Incorporado: corrige uma falha no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
Documentação do código-fonte: correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
Reconhecimento de intenção: corrigir prioridades da Correspondência padrão relacionadas às entidades da lista.

Exemplos

Tratar adequadamente a falha de autenticação na Transcrição de Conversa (CTS) em C#.
Foi adicionado um exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.

SDK de Fala 1.26.0: versão de março de 2023

Alterações de quebra

O Bitcode foi desabilitado em todos os destinos do iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança se deve à substituição do suporte ao bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando o Xcode versão 13 ou tiver habilitado explicitamente o Bitcode em seu aplicativo usando o SDK de Fala, poderá encontrar um erro informando que “a estrutura não contém bitcode e você deve recompilá-la”. Para resolver o problema, verifique se os destinos têm o bitcode desabilitado.
O destino mínimo de implantação do iOS foi atualizado para 11.0 nesta versão, o que significa que o hardware armv7 não é mais compatível.

Novos recursos

O Reconhecimento de Fala incorporado agora dá suporte aos áudios de entrada de taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
A sintetização de voz agora relata latências de conexão, rede e serviço no resultado a fim de ajudar na otimização da latência de ponta a ponta.
Novas regras de desempate para o Reconhecimento de Intenção com padrões correspondentes simples. À medida que mais bytes de caracteres forem correspondidos, vencerão as correspondências de padrão com a maior contagem deles. Exemplo: o padrão “Selecione {algo} no canto superior direito” prevalecerá sobre “Selecione {algo}”

Correções de bug

Síntese de Fala: correção de um bug em que o emoji não está correto em eventos de limite de palavras.
Reconhecimento de intenção com CLU (compreensão da linguagem coloquial):
- As intenções do fluxo de trabalho do orquestrador da CLU agora aparecem corretamente.
- O resultado JSON agora está disponível por meio da ID de propriedade LanguageUnderstandingServiceResponse_JsonResult.
Reconhecimento de fala com ativação de palavra-chave: correção para falta de áudio de aproximadamente 150 ms após o reconhecimento de uma palavra-chave.
Correção para a compilação da versão MAUI para iOS do NuGet do SDK de Fala, relatada pelo cliente (problema do GitHub)

Exemplos

Correção do exemplo do iOS para Swift, relatada pelo cliente (problema do GitHub)

SDK de Fala 1.25.0: versão de janeiro de 2023

Alterações de quebra

As APIs de Identificação de Idioma (versão prévia) foram simplificadas. Se você atualizar para o SDK de Fala 1.25 e ver uma quebra de compilação, visite a página Identificação de Idioma para saber mais sobre a nova propriedade SpeechServiceConnection_LanguageIdMode. Esta única propriedade substitui as duas anteriores SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. Não será mais necessário priorizar entre baixa latência e alta precisão após as melhorias recentes no modelo. Agora, você só precisa selecionar se quer executar a Identificação de Idioma contínua ou no início ao fazer tradução ou reconhecimento de fala contínua.

Novos recursos

C#/C++/Java: o SDK de Fala Inserida foi lançado agora em visualização pública restrita. Consulte a documentação Fala Inserida (versão prévia ). Agora, é possível fazer a conversão de fala em texto e a conversão de texto em fala no dispositivo quando a conectividade em nuvem estiver intermitente ou indisponível. Com suporte para plataformas Android, Linux, macOS e Windows
C# MAUI: suporte adicionado para destinos do Mac Catalyst e iOS no NuGet de SDK de Fala (problema de Cliente)
Unity: Arquitetura Android x86_64 adicionada ao pacote Unity (problema de Cliente)
Go:
- Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema de Cliente)
- Suporte adicionado para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição para a comunidade!
C#/C++: o Reconhecedor de Intenção agora dá suporte a modelos de Compreensão da Linguagem Coloquial em C++ e C# com orquestração no serviço Microsoft

Correções de bug

Correção para um travamento ocasional em KeywordRecognizer ao tentar pará-lo
Python:
- Correção para obter resultados da Avaliação de Pronúncia quando PronunciationAssessmentGranularity.FullText estiver definido como (problema de Cliente)
- Correção para propriedade de gênero para vozes Masculinas não sendo recuperadas, ao obter vozes de sintetização de voz
JavaScript
- Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema de Cliente)
- O SDK do JS agora compila sem usar npm-force-resolutions (problema de Cliente)
- O Tradutor de Conversa agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada utilizando SpeechConfig.fromEndpoint()

Exemplos

Exemplos adicionados mostrando como usar a Fala Inserida
Exemplo de Conversão de fala em texto adicionado para MAUI

Consulte Repositório de exemplos do SDK de Fala.

SDK de Fala 1.24.2: versão de novembro de 2022

Novos recursos

Sem novos recursos, apenas uma correção do mecanismo inserido para dar suporte a novos arquivos de modelo.

Correções de bug

Todas as linguagens de programação
- Corrigido um problema com a criptografia de modelos de reconhecimento de fala inseridos.

SDK de Fala 1.24.1: versão de novembro de 2022

Novos recursos

Pacotes publicados para a versão prévia de Fala Inserida. Consulte https://aka.ms/embedded-speech para obter mais informações.

Correções de bug

Todas as linguagens de programação
- Correção de falha de TTS inserido quando não há suporte para fonte de voz
- Correção de stopSpeaking() que não consegue parar a reprodução no Linux (nº 1686)
SDK do JavaScript
- Correção da regressão na forma como o transcritor da conversa restringiu o áudio.
Java
- Arquivos POM e Javadocs atualizados publicados temporariamente na Maven Central para permitir que o pipeline de documentos atualize documentos de referência online.
Python
- Correção da regressão em que speak_text(ssml) Python retorna void.

SDK de Fala 1.24.0: versão de outubro de 2022

Novos recursos

Todas as linguagens de programação: AMR-WB (16khz) adicionada à lista com suporte de formatos de saída de áudio de Conversão de texto em fala
Python: pacote adicionado para Linux ARM64 para distribuições Linux com suporte.
C#/C++/Java/Python: Suporte adicionado ao streaming direto do ALAW e MULAW para o serviço de fala (além do fluxo de PCM existente) usando AudioStreamWaveFormat.
C# MAUI: pacote NuGet atualizado para dar suporte a destinos do Android para desenvolvedores do .NET MAUI (problema do cliente)
Mac: adicionado um XCframework separado para Mac, que não contém binários iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários Mac usando um pacote XCframework menor.
Microsoft Audio Stack (MAS):
- Quando os ângulos de formação de feixe forem especificados, o som originado fora do intervalo especificado terá melhor supressão.
- Redução de aproximadamente 70% no tamanho do libMicrosoft.CognitiveServices.Speech.extension.mas.so para Linux ARM32 e Linux ARM64.
Reconhecimento de intenção usando padrões correspondentes:
- Adicionar suporte de ortografia para os idiomasfr, de, es, jp
- Adicionado suporte a inteiros predefinidos para o idioma es.

Correções de bug

iOS: corrigir o erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio compactado (problema do cliente).
JavaScript:
- Corrigir o token de autenticação que não está funcionando ao obter a lista de vozes de síntese de fala (problema do cliente).
- Usar a URL de dados para carregamento de trabalho (problema do cliente).
- Criar um worklet de processador de áudio somente quando o AudioWorklet tiver suporte no navegador (problema do cliente). Esta foi uma contribuição da comunidade de William Wong. Obrigado, William!
- Corrigir o retorno de chamada reconhecido quando a resposta connectionMessage do LUIS estiver vazia (problema do cliente).
- Definir corretamente o tempo limite de segmentação de fala.
Reconhecimento de intenção usando padrões correspondentes:
- Os caracteres não JSON dentro dos modelos agora serão carregados corretamente.
- Corrigir o problema de suspensão quando recognizeOnceAsync(text) foi chamado durante o reconhecimento contínuo.

SDK de Fala 1.23.0: versão de julho de 2022

Novos recursos

C#, C++, Java: adicionado suporte para os idiomas zh-cn e zh-hk no Reconhecimento de Intenção com Padrões Correspondentes.
C#: adicionado suporte para builds AnyCPU do .NET Framework

Correções de bug

Android: correção da vulnerabilidade OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
Python: correção da falha ao usar PushAudioInputStream
iOS: correção de "EXC_BAD_ACCESS: tentativa de desreferenciar ponteiro nulo", conforme relatado no iOS (problema do GitHub)

SDK de Fala 1.22.0: versão de junho de 2022

Novos recursos

Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para dar suporte ao mecanismo de “padrões correspondentes simples”.
Unity: suporte adicionado para Mac M1 (Apple Silicon) para pacote Unity (problema do GitHub)
C#: suporte adicionado para x86_64 para o Xamarin Android (problema do GitHub)
C#: a versão mínima do .NET Framework atualizada para o pacote v4.6.2 para SDK C# como v4.6.1 desativada (confira a Política de Ciclo de Vida do Componente do Microsoft .NET Framework)
Linux: suporte adicionado para Debian 11 e Ubuntu 22.04 LTS. O Ubuntu 22.04 LTS requer a instalação manual do libssl1.1 como um pacote binário por aqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64) ou a compilação por meio de fontes.

Correções de bug

UWP: dependência OpenSSL removida das bibliotecas UWP e substituída por WebsSocket WinRT e APIs do HTTP para atender à conformidade de segurança e menor volume binário.
Mac: corrigido o problema "Módulo MicrosoftCognitiveServicesSpeech não encontrado" ao usar projetos Swift direcionados à plataforma macOS
Windows, Mac: corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para serem transmitidas a uma taxa em tempo real às vezes ficavam para trás e eventualmente excediam a capacidade

Amostras (GitHub)

C#: .exemplos de estrutura .NET atualizados para usar a v4.6.2
Unity: exemplo de assistente virtual corrigido para Android e UWP
Unity: exemplos do Unity atualizados para a versão LTS do Unity 2020

SDK de Fala 1.21.0: versão de abril de 2022

Novos recursos

Java e JavaScript: Suporte adicionado para Identificação Contínua de Idioma ao usar o objeto SpeechRecognizer
JavaScript: APIs de Diagnóstico adicionadas para habilitar o registro em log do console e o registro em log de arquivo (somente nó) para ajudar a Microsoft a solucionar problemas relatados pelo cliente
Python: adicionado suporte para transcrição de conversas
Go: adicionado suporte para Reconhecimento do Locutor
C++ e C#: Suporte adicionado para um grupo obrigatório de palavras no Reconhecedor de Intenções (padrões correspondentes simples). Por exemplo: "(definir|iniciar|começar) um temporizador" em que os termos "definir", "iniciar" ou "começar" devem estar presentes para que a intenção seja reconhecida.
Todas as linguagens de programação, sintetização de fala: adicionada a propriedade de duração nos eventos de limite de palavras. Adicionado suporte para limites de pontuação e de sentença
Objective-C/Swift/Java: adicionados resultados em nível de palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações em nível de palavra (problema do GitHub)
Plataforma iOS: adicionado suporte experimental à arquitetura ARMv7

Correções de bug

Plataforma iOS: correção para permitir a criação do destino "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
Plataforma Android: a versão do OpenSSL foi atualizada para 1.1.1n a fim de corrigir a vulnerabilidade de segurança CVE-2022-0778
JavaScript: corrigido o problema em que o cabeçalho wav não era atualizado com o tamanho do arquivo (problema do GitHub)
JavaScript: corrigido o problema de dessincronização da ID da solicitação que está interrompendo os cenários de tradução (problema do GitHub)
JavaScript: corrigido problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
C++: corrigidos cabeçalhos do C++ para remover aviso ao compilar para C++ 17 ou mais recente

Amostras do GitHub

Novos exemplos de Java para Reconhecimento de Fala com Identificação de Idioma
Novos exemplos de Python e de Java para Transcrição de Conversas
Novo exemplo de Go para Reconhecimento de Locutor
Nova ferramenta de C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio para localiar a ID do dispositivo. Essa ID será necessária ao SDK de Fala se você planeja capturar ou renderizar áudios de/para dispositivos não padrão.

SDK de Fala 1.20.0: versão de janeiro de 2022

Novos recursos

Objective-C, Swift e Python: adição de suporte para DialogServiceConnector, usado para cenários de assistente de voz.
Python: adição de suporte para o Python 3.10. O suporte para o Python 3.6 foi removido, de acordo com o fim da vida útil da versão 3.6 do Python.
Unity: o SDK de Fala já é compatível com os aplicativos do Unity no Linux.
C++, C#: o IntentRecognizer com o uso de padrões correspondentes já é compatível com o C#. Além disso, já há suporte para cenários com entidades personalizadas, grupos opcionais e funções de entidade em C++ e em C#.
C++, C#: log de rastreamento de diagnóstico aprimorado com as novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes facilitam para os clientes a integração dos logs do SDK de Fala em um sistema próprio de log.
Todas as linguagens de programação: PronunciationAssessmentConfig já tem propriedades para definir o alfabeto de fonemas desejado (IPA ou SAPI) e a Contagem de Fonemas de N melhores (evitando a necessidade de criar um JSON de configuração de acordo com o problema 1284 do GitHub). Além disso, já há suporte para a saída de nível de sílaba.
Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para dar suporte a redes de largura de banda limitada. O SpeechSynthesizer já usa as funcionalidades de decodificação de áudio do sistema operacional para decodificar o áudio compactado transmitido do serviço de conversão de texto em fala.
Todas as linguagens de programação: o SpeechSynthesizer já dá suporte a três novos formatos do Opus de saída brutos (sem contêiner), que são amplamente usados em cenários de transmissão ao vivo.
JavaScript: adição da API getVoicesAsync() a SpeechSynthesizer para recuperar a lista de vozes de sintetização compatíveis (problema 1350 do GitHub)
JavaScript: adição da API getWaveFormat() a AudioStreamFormat para dar suporte a formatos wave não PCM (problema 452 do GitHub)
JavaScript: adição do volume getter/setter e das APIs mute()/unmute() a SpeakerAudioDestination (problema 463 do GitHub)

Correções de bug

C++, C#, Java, JavaScript, Objective-C e Swift: correção para remover um atraso de dez segundos durante a interrupção de um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre quando nenhum áudio novo é enviado por push depois que StopContinuousRecognition é chamado (problemas 1318 e 331 do GitHub)
Unity no Android e na UWP: correção dos metadados do Unity para a UWP, o Android ARM64 e o WSA (Subsistema Windows para Android) ARM64 (problema 1360 do GitHub)
iOS: a compilação do seu aplicativo do SDK de Fala em qualquer dispositivo iOS durante o uso do CocoaPods já foi corrigida (problema 1320 do GitHub)
iOS: quando o SpeechSynthesizer é configurado para gerar um áudio diretamente em um alto-falante, a reprodução é interrompida no início em raras condições. Esse problema foi corrigido.
JavaScript: use o fallback de processador de script para a entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
JavaScript: adição de protocolo ao agente para atenuar o bug encontrado na integração do Sentry (problema 465 do GitHub)

Amostras do GitHub

Exemplos de C++, C#, Python e Java que mostram como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativo, pontuação de confiança, forma lexical, forma normalizada, forma normalizada mascarada, com o tempo de nível de palavra para cada um.
Adição de exemplo do iOS usando o AVFoundation como a fonte de áudio externa.
Adição de exemplo do Java para mostrar como obter formato SRT (SubRip Text) usando o evento WordBoundary.
Exemplos do Android para avaliação de pronúncia.
C++ e C# mostrando o uso das novas classes de log de diagnósticos.

SDK de Fala 1.19.0: 2021: versão de novembro

Destaques

O Serviço de Reconhecimento do Locutor já está com disponibilidade geral (GA). As APIs do SDK de Fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento do Locutor, é possível verificar e identificar com precisão os locutores pelas características de voz exclusivas deles. Para obter mais informações sobre esse tópico, confira a documentação.
Removemos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Migre os fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.
A vinculação de OpenSSL em binários do Linux mudou para dinâmico. O tamanho binário do Linux foi reduzido em cerca de 50%.
Adição de suporte ao silício baseado no ARM do Mac M1.

Novos recursos

C++/C#/Java: novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com a Microsoft Audio Stack. Documentação aqui.
C++ : novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançados. Isso inclui as entidades de Lista e Inteiros predefinidos, bem como suporte para Agrupamento de intenções e entidades como modelos (documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).
Mac: suporte para silício com base em ARM64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados ao Problema do GitHub 1244.
iOS/Mac: agora, os binários de iOS e macOS estão empacotados em xcframework relacionado ao Problema GitHub 919.
iOS/Mac: suporte para catalisador Mac relacionado ao Problema GitHub 1171.
Linux: novo pacote tar adicionado para CentOS7 Sobre o SDK de Fala. O pacote .tar do Linux agora contém bibliotecas específicas para RHEL/CentOS 7 no lib/centos7-x64. As bibliotecas do SDK de Fala em lib/x64 ainda são aplicáveis a todas as outras distribuições compatíveis do Linux x64 (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.
JavaScript: APIs de VoiceProfile e SpeakerRecognizer tornadas assíncronas/aguardáveis.
JavaScript: suporte adicionado para regiões de Governo dos EUA do Azure.
Windows: suporte adicionado para reprodução em Plataforma Universal do Windows (UWP).

Correções de bug

Android: atualização de segurança do OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.
Python: resolução de bug em que a seleção de dispositivo do locutor no Python falha.
Core: reconectar automaticamente quando uma tentativa de conexão falha.
iOS: compactação de áudio desabilitada em pacotes do iOS devido a problemas de instabilidade e compilação de bitcode ao usar o GStreamer. Veja os detalhes no Problema GitHub 1209.

Amostras do GitHub

Mac/iOS: exemplos atualizados e inícios rápidos para usar o pacote xcframework.
.NET: amostras atualizadas para usar a versão .NET core 3.1.
JavaScript: adição de exemplo para assistentes de voz.

SDK de Fala 1.18.0: versão de julho de 2021

Nota: comece a usar o SDK de Fala aqui.

Resumo de destaques

O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, removeremos o suporte ao 16.04 em setembro de 2021. Migre os fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente até essa data.

Novos recursos

C++ : agora, os padrões correspondentes de linguagem simples com o reconhecedor de intenção facilita a implementação de cenários de reconhecimento de intenção simples.
C++/C#/Java: adicionamos uma nova API, GetActivationPhrasesAsync(), à classe VoiceProfileClient para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes.
- Importante: o recurso Reconhecimento do Locutor está em versão prévia. Todos os perfis de voz criados na versão prévia serão encerrados 90 dias depois que o recurso Reconhecimento do Locutor avançar de versão prévia para disponibilidade geral. Nesse ponto, os perfis de voz de versão prévia deixarão de funcionar.
Python: adição de suporte à LID (identificação de idioma) contínua nos objetos SpeechRecognizer e TranslationRecognizer existentes.
Python: adição de um novo objeto Python chamado SourceLanguageRecognizer para fazer a LID única ou contínua (sem reconhecimento nem tradução).
JavaScript: adição da API getActivationPhrasesAsync à classe VoiceProfileClient para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes.
Agora, é possível aguardar a API enrollProfileAsync do JavaScriptVoiceProfileClient de modo assíncrono. Veja este código de identificação independente, por exemplo, uso.

Aprimoramentos

Java: adição do suporte a AutoCloseable para muitos objetos Java. Agora, o modelo de experimentação com recursos é aceito para liberar recursos. Veja este exemplo que usa a experimentação com recursos. Confira também o tutorial de documentação do Oracle Java para ver A instrução sobre experimentação com recursos e aprender esse padrão.
O volume dos discos foi reduzido significativamente para muitas plataformas e arquiteturas. Exemplos do binário Microsoft.CognitiveServices.Speech.core: o Linux x64 é 475 KB menor (redução de 8,0%); o ARM64 Windows UWP é 464 KB menor (redução de 11,5%); o Windows x86 é 343 KB menor (redução de 17,5%); e o Windows x64 é 451 KB menor (redução de 19,4%).

Correções de bug

Java: correção do erro de sintetização quando o texto de síntese contém caracteres alternativos. Veja os detalhes aqui.
JavaScript: agora, o processamento de áudio do microfone do navegador usa AudioWorkletNode em vez do preterido ScriptProcessorNode. Veja os detalhes aqui.
JavaScript: as conversas são mantidas ativas corretamente durante os cenários de tradução de conversas de execução prolongada. Veja os detalhes aqui.
JavaScript: correção de um problema em que o reconhecedor se reconecta a um mediastream em reconhecimento contínuo. Veja os detalhes aqui.
JavaScript: correção de um problema em que o reconhecedor se reconecta a um pushStream em reconhecimento contínuo. Veja os detalhes aqui.
JavaScript: correção do cálculo de deslocamento em nível de palavra em resultados de reconhecimento detalhados. Veja os detalhes aqui.

Exemplos

Veja os exemplos de início rápido do Java atualizados aqui.
Os exemplos em JavaScript de Reconhecimento do Locutor foram atualizados para mostrar o novo uso de enrollProfileAsync(). Veja exemplos aqui.

SDK de Fala 1.17.0: versão de maio de 2021

Observação

Faça a introdução ao SDK de Fala aqui.

Resumo de destaques

Menor volume – continuamos a diminuir a memória e o volume em disco do SDK de Fala e seus componentes.
Uma nova API autônoma Identificação de Idioma permite que você reconheça o idioma que está sendo falado.
Desenvolva aplicativos de jogos e realidade misturada habilitados para fala usando o Unity no macOS.
Agora você pode usar a conversão de texto em fala, além do reconhecimento de fala da linguagem de programação Go.
Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!

Novos recursos

C++/C#: nova detecção de Idioma autônoma inicial e contínua por meio da API SourceLanguageRecognizer. Se você quiser apenas detectar os idiomas falados no conteúdo do áudio, essa é a API a ser usada. Veja mais detalhes para C++ e C#.
C++/C#: o Reconhecimento de Fala e o Reconhecimento de Tradução agora dão suporte à Identificação de Idioma inicial e contínua para que você possa determinar de modo programático quais idiomas estão sendo falados antes que eles sejam transcritos ou traduzidos. Consulte a documentação aqui para o Reconhecimento de fala e aqui para a Tradução de fala.
C#: suporte adicionado ao Unity para macOS (x64). Isso desbloqueia os casos de uso do reconhecimento de fala e da síntese de fala em realidade misturada e jogos!
Go: adicionamos suporte para a conversão de texto em fala de sintetização de fala para a linguagem de programação Go, a fim de disponibilizar a síntese de fala em mais casos de uso. Consulte nosso guia de início rápido ou nossa documentação de referência.
C++/C#/Java/Python/Objective-C/Go: o sintetizador de fala agora suporta o objeto connection. Isso ajuda a gerenciar e monitorar a conexão com o serviço de Fala, sendo especialmente útil para fazer uma pré-conexão a fim de reduzir a latência. Confira a documentação aqui.
C++/C#/Java/Python/Objective-C/Go: agora exponhamos a latência e o tempo de insuficiência no SpeechSynthesisResult para ajudar a monitorar e diagnosticar problemas de latência de síntese de fala. Para saber mais, consulte C++, C#, Java, Python, Objective-C e Go.
C++/C#/Java/Python/Objective-C: agora, a Conversão de texto em fala usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso proporciona saídas com maior fidelidade por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma de nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
C++/C#/Java/Python/Objective-C/Go: adicionamos a propriedade Gênero às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema nº 1055 do GitHub.
C++, C#, Java, JavaScript: já damos suporte a retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync e getAllProfilesAsync() no Reconhecimento do Locutor para facilitar o gerenciamento de usuários de todos os perfis de voz de determinada conta. Consulte a documentação para C++, C#, Java e JavaScript. Isso resolve o problema nº 338 do GitHub.
JavaScript: adicionamos a repetição para falhas de conexão, aprimorando os aplicativos de fala baseados em JavaScript.

Aprimoramentos

Os binários do SDK de Fala do Linux e do Android foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
Melhorias no tamanho do código:
- O Reconhecimento vocal agora está dividido em uma biblioteca "lu" separada.
- O tamanho binário principal do Windows x64 diminuiu em 14,4%.
- O tamanho binário principal do Android ARM64 diminuiu em 13,7%.
- outros componentes também diminuíram de tamanho.

Correções de bug

Todos: corrigido o problema nº 842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio muito longos usando o SDK de Fala sem conexão com o serviço que termina com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
C# : corrigido o problema nº 947 do GitHub em que nenhuma entrada de fala poderia deixar seu aplicativo em um estado ruim.
Java: corrigido o problema n°. 997 do GitHub em que o SDK de Fala para Java 1.16 falha ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
Correção de uma falha quando o reconhecimento de fala é interrompido abruptamente (por exemplo, usando CTRL+C no aplicativo de console).
Java: adicionada uma correção para excluir arquivos temporários no Windows ao usar o SDK de Fala para Java.
Java: corrigido o problema nº 994 do GitHub em que chamar DialogServiceConnector.stopListeningAsync poderia resultar em um erro.
Java: corrigido um problema de cliente no início rápido do assistente virtual.
JavaScript: foi corrido o problema nº 366 do GitHub em que ConversationTranslator gerava um erro 'this.cancelSpeech não é uma função'.
JavaScript: corrigido o problema nº 298 do GitHub em que o exemplo reproduzido soava em voz alta ‘Obter resultado como um fluxo na memória’.
JavaScript: foi corrigido o problema nº 350 do GitHub em que a chamada a AudioConfig podia resultar em um erro 'ReferenceError: MediaStream não está definido'.
JavaScript: corrigido o alerta UnhandledPromiseRejection no Node.js para sessões de longa execução.

Exemplos

Atualize a documentação de exemplos do Unity para macOS aqui.
Uma exemplo do React Native para o serviço de reconhecimento de Fala de IA do Azure agora está disponível aqui.

SDK de Fala 1.16.0: versão de março de 2021

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Novos recursos

C++/C#/Java/Python: migração para a última versão do GStreamer (1.18.3) para adição de suporte à transcrição de qualquer formato de mídia no Windows, no Linux e no Android. Confira a documentação aqui.
C++/C#/Java/Objective-C/Python: adição de suporte à decodificação de áudio sintetizado/TTS compactado ao SDK. Se você definir o formato de áudio de saída como PCM e o GStreamer estiver disponível no sistema, o SDK solicitará automaticamente o áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Defina SpeechServiceConnection_SynthEnableCompressedAudioTransmission como false para desabilitar esse recurso. Veja mais detalhes para C++, C#, Java, Objective-C e Python.
JavaScript: os usuários do Node.js já podem usar a API AudioConfig.fromWavFileInput. Isso resolve o problema nº 252 do GitHub.
C++/C#/Java/Objective-C/Python: a adição do método GetVoicesAsync() à TTS retorna todas as vozes de sintetização disponíveis. Veja mais detalhes para C++, C#, Java, Objective-C e Python.
C++/C#/Java/JavaScript/Objective-C/Python: adição do evento VisemeReceived para a sintetização de voz/TTS para retornar a animação de visema síncrona. Confira a documentação aqui.
C++/C#/Java/JavaScript/Objective-C/Python: adição do evento BookmarkReached para TTS. Defina indicadores no SSML de entrada e obter os deslocamentos de áudio de cada indicador. Confira a documentação aqui.
Java: adição de suporte para APIs de Reconhecimento do Locutor. Veja os detalhes aqui.
C++/C#/Java/JavaScript/Objective-C/Python: adição de dois novos formatos de áudio de saída com o contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Esses são formatos melhores para streaming de áudio com o codec Opus. Veja mais detalhes para C++, C#, Java, JavaScript, Objective-C e Python.
C++/C#/Java: adição de suporte para recuperar o perfil de voz para o cenário de Reconhecimento do Locutor. Veja mais detalhes para C++, C# e Java.
C++/C#/Java/Objective-C/Python: adição de suporte à biblioteca compartilhada separada para o microfone de áudio e o controle de alto-falante. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
Objective-C/Swift: adição de suporte para a estrutura de módulo com cabeçalho de abrangência. Isso permite que o desenvolver importe o SDK de Fala como um módulo em aplicativos Objective-C/Swift no iOS/no Mac. Isso resolve o problema nº 452 do GitHub.
Python: adição de suporte para o Python 3.9 e remoção de suporte para o Python 3.5 de acordo com o fim da vida útil do Python para 3.5.

Problemas conhecidos

C++/C#/Java: DialogServiceConnector não pode usar um CustomCommandsConfig para acessar um aplicativo de Comandos Personalizados, pois ocorrerá um erro de conexão. Isso pode ser solucionado adicionando manualmente a ID do aplicativo à solicitação com config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). O comportamento esperado de CustomCommandsConfig será restaurado na próxima versão.

Aprimoramentos

Como parte de nosso esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala, os binários do Android já são 3% a 5% menores.
Melhor precisão e legibilidade. Confira também as seções da documentação de referência do C# aqui.

Correções de bug

JavaScript: os cabeçalhos grandes de arquivos WAV agora são analisados corretamente (aumento da fatia do cabeçalho para 512 bytes). Isso resolve o problema nº 962 do GitHub.
JavaScript: correção do problema de tempo de microfone quando o fluxo do microfone termina antes da conclusão do reconhecimento, resolvendo um problema de não funcionamento do reconhecimento de fala no Firefox.
JavaScript: agora, tratamos corretamente da promessa de inicialização quando o navegador força o desligamento do microfone antes da conclusão de turnOn.
JavaScript: substituímos a dependência de URL pela análise de URL. Isso resolve o problema nº 264 do GitHub.
Android: correção de retornos de chamada que não funcionavam quando minifyEnabled era definido como verdadeiro.
C++/C#/Java/Objective-C/Python: TCP_NODELAY será definido corretamente como a E/S de soquete subjacente da TTS a fim de reduzir a latência.
C++/C#/Java/Python/Objective-C/Go: correção de uma falha ocasional em que o reconhecedor era destruído logo após o início de um reconhecimento.
C++/C#/Java: correção de uma falha ocasional na destruição do reconhecedor de locutor.

Exemplos

JavaScript: os exemplos do navegador não exigem mais um download separado do arquivo de biblioteca JavaScript.

SDK de Fala 1.15.0: versão de janeiro de 2021

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Resumo de destaques

Memória e espaço em disco menores, tornando o SDK mais eficiente.
Formatos de saída de alta fidelidade disponíveis para a versão prévia privada da sintetização de voz personalizada.
O Reconhecedor de Intenção agora pode retornar mais do que a intenção principal, dando a você a capacidade de fazer uma avaliação separada sobre a intenção do cliente.
Agora os bots e assistentes de voz estão mais fáceis de configurar e você pode fazê-los parar de escutar imediatamente, além de exercer maior controle sobre como eles respondem aos erros.
Aprimoramento no desempenho do dispositivo, tornando a compactação opcional.
Uso do SDK de Fala no Windows ARM/ARM64.
Aprimoramento da depuração de nível baixo.
O recurso Avaliação de Pronúncia já está mais amplamente disponível.
Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!

Aprimoramentos

O SDK de Fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala. Como uma primeira etapa, fizemos reduções significativas no tamanho do arquivo em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
- As bibliotecas do Windows compatíveis com o UWP de 64 bits são aproximadamente 30% menores.
- As bibliotecas do Windows de 32 bits ainda não registraram um aprimoramento de tamanho.
- As bibliotecas do Linux são 20 a 25% menores.
- As bibliotecas do Android são 3 a 5% menores.

Novos recursos

Todas as linguagens: novos formatos de saída de 48 kHz disponíveis para a versão prévia privada da Voz Neural Personalizada por meio da API de sintetização de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm e riff-48khz-16bit-mono-pcm.
Todas as linguagens: a Voz Personalizada também ficou mais fácil de usar. Adição de suporte para configuração da Voz Personalizada por meio de EndpointId (EndpointId, C#, Java, JavaScript, Objective-C e Python). Antes dessa alteração, os usuários da Voz Personalizada precisavam definir a URL do ponto de extremidade por meio do método FromEndpoint. Agora, os clientes podem usar o método FromSubscription como vozes predefinidas e fornecer a ID de implantação configurando EndpointId. Isso simplifica a configuração de vozes personalizadas.
C++/C#/Java/Objective-C/Python: obtenha mais do que a intenção principal do IntentRecognizer. Agora, ele dá suporte à configuração de um resultado JSON que contém todas as intenções e não apenas a intenção com a pontuação mais alta por meio do método LanguageUnderstandingModel FromEndpoint usando o parâmetro de URI verbose=true. Isso resolve o problema nº 880 do GitHub. Veja a documentação atualizada aqui.
C++/C#/Java: faça com que o seu assistente de voz ou bot pare de escutar imediatamente. O DialogServiceConnector (C++, C# e Java) agora tem um método StopListeningAsync() para acompanhar ListenOnceAsync(). Isso interromperá imediatamente a captura de áudio e aguardará normalmente um resultado, tornando-o perfeito para uso com cenários de pressionamento de botão "Parar agora".
C++/C#/Java/JavaScript: faça com que o seu assistente de voz ou bot reaja melhor aos erros do sistema subjacentes. O DialogServiceConnector (C++, C#, Java e JavaScript) agora tem um novo manipulador de eventos TurnStatusReceived. Esses eventos opcionais correspondem a cada resolução ITurnContext no bot e relatarão as falhas de execução de turno quando elas ocorrerem, por exemplo, como resultado de uma exceção sem tratamento, do tempo limite ou de uma queda de rede entre o Direct Line Speech e o bot. TurnStatusReceived facilita a resposta às condições de falha. Por exemplo, se um bot levar muito tempo em uma consulta de banco de dados de back-end (por exemplo, pesquisando um produto), o TurnStatusReceived permitirá que o cliente saiba reformular o que disse com "Desculpe, não entendi muito bem. Poderia tentar novamente?" ou algo semelhante.
C++/C# : uso do SDK de Fala em mais plataformas. O pacote NuGet do SDK de Fala agora dá suporte a binários nativos da área de trabalho do Windows ARM/ARM64 (já havia suporte para o UWP) a fim de tornar o SDK de Fala mais útil em mais tipos de computadores.
Java: o DialogServiceConnector agora tem um método setSpeechActivityTemplate() que não foi excluído intencionalmente da linguagem anteriormente. Isso é equivalente a definir a propriedade Conversation_Speech_Activity_Template e solicitará que todas as futuras atividades do Bot Framework originadas pelo serviço do Direct Line Speech mesclem o conteúdo fornecido no respectivo conteúdo JSON.
Java: aprimoramento da depuração de nível baixo. Agora, a classe Connection tem um evento MessageReceived, semelhante a outras linguagens de programação (C++ e C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração.
JavaScript: configuração mais fácil para assistentes de voz e bots por meio do BotFrameworkConfig, que agora tem métodos de alocador fromHost() e fromEndpoint() que simplificam o uso de localizações de serviço personalizadas comparado à definição manual de propriedades. Também padronizamos a especificação opcional de botId para usar um bot não padrão entre os alocadores de configuração.
JavaScript: aprimoramento no desempenho do dispositivo por meio da propriedade de controle de cadeia de caracteres adicionada para compactação do WebSocket. Por motivos de desempenho, desabilitamos a compactação do WebSocket por padrão. Isso pode ser habilitado novamente para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema nº 242 do GitHub.
JavaScript: adição de suporte à Avaliação de Pronúncia para habilitar a avaliação de pronúncia de fala. Confira o guia de início rápido aqui.

Correções de bug

Todas as linguagens (exceto JavaScript): correção de uma regressão na versão 1.14, em que a memória em excesso era alocada pelo reconhecedor.
C++: correção de um problema de coleta de lixo com o DialogServiceConnector, resolvendo o problema nº 794 do GitHub.
C# : correção de um problema com o desligamento de thread que fazia com que os objetos fossem bloqueados por aproximadamente um segundo quando descartados.
C++/C#/Java: correção de uma exceção que impedia um aplicativo de definir o token de autorização de fala ou o modelo de atividade mais de uma vez em um DialogServiceConnector.
C++/C#/Java: correção de uma falha do reconhecedor devido a uma condição de corrida na desinstalação.
JavaScript: anteriormente, o DialogServiceConnector não respeitava o parâmetro botId opcional especificado nos alocadores de BotFrameworkConfig. Com isso, foi necessário definir o parâmetro de cadeia de consulta botId manualmente para uso de um bot não padrão. O bug foi corrigido, e os valores botId fornecidos para os alocadores de BotFrameworkConfig serão respeitados e usados, incluindo as novas adições fromHost() e fromEndpoint(). Isso também se aplica ao parâmetro applicationId de CustomCommandsConfig.
JavaScript: correção do problema nº 881 do GitHub, permitindo a reutilização do objeto do reconhecedor.
JavaScript: correção de um problema em que o SKD enviava speech.config várias vezes em uma sessão da TTS, desperdiçando largura de banda.
JavaScript: simplificação do tratamento de erro na autorização do microfone, permitindo que mensagens mais descritivas sejam exibidas quando o usuário não tiver permitido a entrada do microfone no navegador.
JavaScript: correção do problema nº 249 do GitHub, em que os erros de tipo em ConversationTranslator e ConversationTranscriber causavam um erro de compilação para usuários do TypeScript.
Objective-C: correção de um problema em que o build do GStreamer falhava para o iOS no Xcode 11.4, resolvendo o problema nº 911 do GitHub.
Python: correção do problema nº 870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido para dar lugar a importlib".

Exemplos

O exemplo de arquivo de navegador de JavaScript agora usa arquivos para reconhecimento de fala. Isso resolve o problema nº 884 do GitHub.

SDK de Fala 1.14.0: versão de outubro de 2020

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Novos recursos

Linux: adição de suporte para Debian 10 e Ubuntu 20.04 LTS.
Python/Objective-C: adição de suporte para a API KeywordRecognizer. Encontre a documentação aqui.
C++/Java/C #: adição de suporte para definição de qualquer chave/valor HttpHeader por meio de ServicePropertyChannel::HttpHeader.
JavaScript: adição de suporte para a API ConversationTranscriber. Leia a documentação aqui.
C++/C#: adição do novo método AudioDataStream FromWavFileInput (para leitura de arquivos .WAV) aqui (C++) e aqui (C#).
C++/C#/Java/Python/Objective-C/Swift: adicionado um método de stopSpeakingAsync() para interromper a sintetização da conversão de texto em fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift).
C# e C++ e Java: adição de uma função FromDialogServiceConnector() à classe Connection que pode ser usada para monitorar eventos de conexão e desconexão do DialogServiceConnector. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java).
C++/C#/Java/Python/Objective-C/Swift: adição de suporte à avaliação de pronúncia, que avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Leia a documentação aqui.

Alteração da falha

JavaScript: PullAudioOutputStream.read() tem uma alteração do tipo de retorno de uma promessa interna para uma promessa de JavaScript nativa.

Correções de bug

Todas as linguagens: correção da regressão da versão 1.13 em SetServiceProperty, na qual os valores com alguns caracteres especiais eram ignorados.
C# : correção de exemplos de console do Windows no Visual Studio 2019 que não localizavam DLLs nativas.
C#: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do KeywordRecognizer.
Objective-C/Swift: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do reconhecedor.
Windows: correção de problema de coexistência com o BT HFP/A2DP na UWP.
JavaScript: correção de mapeamento das IDs de sessão para aprimorar o log e auxiliar nas correlações internas de depuração/serviço.
JavaScript: adição de correção para o DialogServiceConnector desabilitar as chamadas ListenOnce depois que a primeira chamada é feita.
JavaScript: correção do problema em que a saída do resultado sempre era apenas "simples".
JavaScript: correção de um problema de reconhecimento contínuo no Safari no macOS.
JavaScript: mitigação de carga de CPU para o cenário de alta taxa de transferência de solicitação.
JavaScript: permissão de acesso aos detalhes do resultado do Registro do Perfil de Voz.
JavaScript: adição de correção para reconhecimento contínuo no IntentRecognizer.
C++/C#/Java/Python/Swift/Objective-C: correção de uma URL incorreta para australiaeast e brazilsouth no IntentRecognizer.
C++/C#: adição de VoiceProfileType como um argumento na criação de um objeto VoiceProfile.
C++/C#/Java/Python/Swift/Objective-C: correção de um SPX_INVALID_ARG potencial na tentativa de ler AudioDataStream de determinada posição.
iOS: correção de uma falha com o reconhecimento de fala no Unity

Exemplos

Objective-C: adição de um exemplo para o reconhecimento de palavra-chave aqui.
C#/JavaScript: adição de um guia de início rápido da transcrição de conversas aqui (C#) e aqui (JavaScript).
C++/C#/Java/Python/Swift/Objective-C: adição de um exemplo da Avaliação de Pronúncia aqui
Xamarin: atualização do guia de início rápido para o modelo mais recente do Visual Studio aqui.

Problema conhecido

Por padrão, não há suporte para o certificado DigiCert Global Root G2 no HoloLens 2 e no Android 4.4 (KitKat). Ele precisa ser adicionado ao sistema para tornar o SDK de Fala funcional. O certificado será adicionado às imagens do sistema operacional do HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.

Testes reduzidos devido à COVID-19

Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!

SDK de Fala 1.13.0: versão de julho de 2020

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe-o e instale-o aqui.

Novos recursos

C# : adição de suporte para transcrição de conversas assíncrona. Confira a documentação aqui.
JavaScript: adição de suporte ao Reconhecimento do Locutor no navegador e no Node.js.
JavaScript: adição de suporte para Identificação de Idioma/ID de idioma. Confira a documentação aqui.
Objective-C: adição de suporte para conversa em vários dispositivos e transcrição de conversas.
Python: adição de suporte de áudio compactado para o Python no Windows e no Linux. Confira a documentação aqui.

Correções de bug

Todas as linguagens: correção de um problema que fazia com que o KeywordRecognizer não avançasse nos fluxos após um reconhecimento.
Todas as linguagens: correção de um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
Todas as linguagens: correção de um problema em que o SendMessageAsync não enviava realmente a mensagem pela conexão depois que os usuários paravam de aguardar.
Todas as linguagens: correção de uma falha nas APIs de Reconhecimento do Locutor quando os usuários chamavam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não aguardavam a conclusão das chamadas.
Todas as linguagens: correção da habilitação do log de arquivo nas classes VoiceProfileClient e SpeakerRecognizer.
JavaScript: correção de um problema com a limitação quando o navegador era minimizado.
JavaScript: correção de um problema com uma perda de memória nos fluxos.
JavaScript: adição de um cache para as respostas de OCSP do NodeJS.
Java: correção de um problema que fazia com que os campos BigInteger sempre retornassem 0.
iOS: correção de um problema com a publicação de aplicativos baseados no SDK de Fala na iOS App Store.

Exemplos

C++ : adição de um código de exemplo para o Reconhecimento do Locutor aqui.

Testes reduzidos devido à COVID-19

SDK de Fala 1.12.1: versão de junho de 2020

Novos recursos

C#, C++: versão prévia do Reconhecimento do Locutor: esse recurso permite a identificação do locutor (quem está falando?) e a verificação do locutor (é o locutor que afirma ser?). Comece com uma visão geral, leia o artigo de conceitos básicos sobre o Reconhecimento do Locutor ou os documentos de referência de API.

Correções de bug

C e C++: correção da gravação do microfone que não funcionava na versão 1.12 no Reconhecimento do Locutor.
JavaScript: correções da Conversão de texto em fala no Firefox e no Safari, no macOS e no iOS.
Correção da falha na violação de acesso do verificador de aplicativos do Windows na transcrição de conversas durante o uso do fluxo de oito canais.
Correção de uma falha na violação de acesso do verificador de aplicativos do Windows na tradução de conversas em vários dispositivos.

Exemplos

C#: exemplo de código do Reconhecimento do Locutor.
C++: exemplo de código do Reconhecimento do Locutor.
Java: exemplo de código para o reconhecimento de intenção no Android.

Testes reduzidos devido à COVID-19

SDK de Fala 1.12.0: versão de maio de 2020

Novos recursos

Go: suporte à nova linguagem Go para reconhecimento de fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo.
JavaScript: adicionado suporte ao navegador para a conversão de texto em fala. Confira a documentação aqui.
C++, C# e Java: suporte às APIs e ao novo objeto KeywordRecognizer nas plataformas Windows, Android, Linux e iOS. Leia a documentação aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo.
Java: adição de conversa em vários dispositivos com suporte à tradução. Confira o documento de referência aqui.

Aprimoramentos e otimizações

JavaScript: otimização da implementação do microfone do navegador, aprimorando a precisão do reconhecimento de fala.
Java: refatoração das associações por meio da implementação de JNI direta sem o SWIG. Essa alteração reduz em dez vezes o tamanho das associações de todos os pacotes Java usados para Windows, Android, Linux e Mac, além de facilitar o desenvolvimento adicional da implementação Java do SDK de Fala.
Linux: atualização da documentação de suporte com as últimas notas específicas sobre o RHEL 7.
Aprimoramento da lógica de conexão para várias tentativas de conexão quando ocorrem erros de serviço e de rede.
Atualização da página de Início Rápido de Fala em portal.azure.com para ajudar os desenvolvedores a executarem a próxima etapa na jornada de Fala de IA do Azure.

Correções de bug

C# e Java: correção de um problema com o carregamento de bibliotecas do SDK no ARM do Linux (de 32 e 64 bits).
C#: correção do descarte explícito de identificadores nativos para os objetos TranslationRecognizer, IntentRecognizer e Connection.
C# : correção do gerenciamento do tempo de vida de entrada de áudio para o objeto ConversationTranscriber.
Correção de um problema em que o motivo do resultado de IntentRecognizer não era definido corretamente no reconhecimento de intenções com frases simples.
Correção de um problema em que o deslocamento do resultado de SpeechRecognitionEventArgs não era definido corretamente.
Correção de uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão do WebSocket. Era reproduzível para TranslationRecognizer durante a adição de participantes.
Correção de perdas de memória no mecanismo reconhecedor de palavras-chave.

Exemplos

Go: adição de guias de início rápido para o reconhecimento de fala e o assistente de voz personalizado. Encontre o código de exemplo aqui.
JavaScript: adição de guias de início rápido para a Conversão de texto em fala, a Tradução e o Reconhecimento de Intenção.
Exemplos de reconhecimento de palavras-chave para C# e Java (Android).

Testes reduzidos devido à COVID-19

SDK de Fala 1.11.0: versão de março de 2020

Novos recursos

Linux: adição de suporte para o RHEL (Red Hat Enterprise Linux)/o CentOS 7 x64 com instruções sobre como configurar o sistema para o SDK de Fala.
Linux: adição de suporte para o .NET Core C# no Linux ARM32 e ARM64. Leia mais aqui.
C# e C++: adição de UtteranceId em ConversationTranscriptionResult, uma ID consistente em todos os intermediários e o resultado do reconhecimento de fala final. Veja mais detalhes para C# e C++.
Python: adição de suporte para Language ID. Confira speech_sample.py no repositório GitHub.
Windows: adição de suporte ao formato de entrada de áudio compactado na plataforma Windows para todos os aplicativos de console do Win32. Veja os detalhes aqui.
JavaScript: suporte à sintetização de voz (conversão de texto em fala) no NodeJS. Saiba mais aqui.
JavaScript: adição de novas APIs para habilitar a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.

Correções de bug

C# e C++: correção de um problema. Agora, SendMessageAsync envia uma mensagem binária como um tipo binário. Veja mais detalhes para C# e C++.
C# e C++: correção de um problema em que o uso do evento Connection MessageReceived podia causar uma falha quando Recognizer era descartado antes do objeto Connection. Veja mais detalhes para C# e C++.
Android: o tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms a fim de aprimorar a latência.
Android: correção de um problema com o emulador do Android x86 no Android Studio.
JavaScript: adição de suporte para regiões na China com a API fromSubscription. Veja os detalhes aqui.
JavaScript: adição de mais informações de erro para falhas de conexão do NodeJS.

Exemplos

Unity: correção do exemplo público de reconhecimento de intenção, em que a importação de JSON do LUIS falhava. Veja os detalhes aqui.
Python: adição de exemplo para Language ID. Veja os detalhes aqui.

Testes reduzidos devido à COVID-19: devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual de dispositivo quanto normalmente fazemos. Por exemplo, não pudemos testar a entrada do microfone e a saída do locutor no Linux, no iOS e no macOS. Não fizemos nenhuma alteração que achamos que poderia causado alguma interrupção nessas plataformas, e tudo foi aprovado em nossos testes automatizados. É improvável que esteja faltando algo, mas se estiver, informe-nos no GitHub.
Agradecemos seu apoio contínuo. Como sempre, poste perguntas ou comentários no GitHub ou no Stack Overflow.
Cuide-se!

SDK de Fala 1.10.0: versão de fevereiro de 2020

Novos recursos

Adição de pacotes do Python para dar suporte à nova versão 3.8 do Python.
Suporte para o RHEL (Red Hat Enterprise Linux)/o CentOS 8 x64 (C++, C#, Java e Python).

Observação

Os clientes precisam configurar o OpenSSL de acordo com estas instruções.
Suporte do Linux ARM32 para Debian e Ubuntu.
O DialogServiceConnector agora dá suporte a um parâmetro opcional "ID do bot" em BotFrameworkConfig. Esse parâmetro permite o uso de vários bots do Direct Line Speech com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração de canal do Direct Line Speech) será usado.
O DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para pré-preencher uma grande variedade de campos compatíveis em todas as atividades que chegam a um bot do Direct Line Speech, incluindo atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
A TTS agora usa a chave de assinatura para autenticação, reduzindo a latência de primeiro byte do primeiro resultado da sintetização após a criação de um sintetizador.
Atualização dos modelos de reconhecimento de fala para 19 localidades com uma redução média da taxa de erros de palavra de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT e tr-TR). Os novos modelos trazem aprimoramentos significativos em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.

Correções de bug

Correção de um bug em que o transcritor de conversas não aguardava corretamente nas APIs Java
Correção do emulador do Android x86 para o problema do GitHub referente ao Xamarin
Adição dos métodos de propriedade (Get|Set) ausentes em AudioConfig
Correção de um bug da TTS em que o audioDataStream não podia ser interrompido quando a conexão falhava
O uso de um ponto de extremidade sem uma região causava falhas de USP no tradutor de conversas
A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo de GUID apropriadamente exclusivo. Anteriormente e de maneira não intencional, ele usava o padrão de implementação fragmentada que costumava produzir colisões em grandes conjuntos de interações.

Exemplos

Exemplo do Unity para o uso do SDK de Fala com o streaming do modo push e o microfone do Unity

Outras alterações

Atualização da documentação de configuração do OpenSSL para Linux

SDK de Fala 1.9.0: versão de janeiro de 2020

Novos recursos

Conversa em vários dispositivos: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza as mensagens enviadas entre eles. Saiba mais neste artigo.
Adição de suporte de reconhecimento de palavras-chave ao pacote .aar do Android e adição de suporte para as variantes x86 e x64.
Objective-C: adição dos métodos SendMessage e SetMessageProperty ao objeto Connection. Confira a documentação aqui.
Agora, a API da TTS para C++ dá suporte a std::wstring como a entrada de texto de sintetização, removendo a necessidade de converter um wstring em uma cadeia de caracteres antes de transmiti-lo para o SDK. Veja os detalhes aqui.
C#: a ID de idioma e a configuração do idioma de origem já estão disponíveis.
JavaScript: adição de um recurso ao objeto Connection para transmitir mensagens personalizadas do serviço de Fala como um retorno de chamada receivedServiceMessage.
JavaScript: adição de suporte a FromHost API para facilitar o uso com contêineres locais e nuvens soberanas. Confira a documentação aqui.
JavaScript: agora NODE_TLS_REJECT_UNAUTHORIZED é respeitado graças a uma contribuição de NODE_TLS_REJECT_UNAUTHORIZED. Veja os detalhes aqui.

Alterações interruptivas

O OpenSSL foi atualizado para a versão 1.1.1b e é vinculado estaticamente à biblioteca principal do SDK de Fala para Linux. Poderá haver uma interrupção se o OpenSSL de caixa de entrada não for instalado no diretório /usr/lib/ssl do sistema. Confira a documentação do SDK de Fala para encontrar uma solução alternativa para o problema.
Alteramos o tipo de dados retornado para WordLevelTimingResult.Offset em C# de int para long a fim de permitir o acesso aos WordLevelTimingResults quando os dados de fala forem maiores do que dois minutos.
O PushAudioInputStream e o PullAudioInputStream agora enviam informações de cabeçalho WAV para o serviço de Fala com base em AudioStreamFormat, opcionalmente especificado quando eles são criados. Agora, os clientes precisam usar o formato de entrada de áudio compatível. Qualquer outro formato terá resultados de reconhecimento abaixo do ideal ou poderá causar outros problemas.

Correções de bug

Confira a atualização do OpenSSL em Alterações interruptivas acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) no Linux e no Java.
Java: aprimoramentos no fechamento de objetos em cenários de alta simultaneidade.
Reestruturação do nosso pacote NuGet. Removemos as três cópias de Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll nas pastas da biblioteca, tornando o pacote NuGet menor e mais rápido para download e adicionamos os cabeçalhos necessários para compilar alguns aplicativos nativos do C++.
Encontre os exemplos de início rápido corrigidos aqui. Eles saiam sem exibir a exceção "Microfone não encontrado" no Linux, no macOS e no Windows.
Correção de uma falha do SDK com longos resultados de reconhecimento de fala em alguns caminhos de código como este exemplo.
Correção de um erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver este problema do cliente.
Correção de um erro na TTS durante o uso da marca <voice> múltipla ou da marca <audio> para resolver <voice>.
Correção de um erro 401 na TTS quando o SDK era recuperado do estado suspenso.
JavaScript: correção de uma importação circular de dados de áudio graças a uma contribuição de euirim.
JavaScript: adição de suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
JavaScript: correção de um problema em que um erro de conexão podia resultar em tentativas de reconexão contínuas e sem êxito do WebSocket.

Exemplos

Adição de exemplo de reconhecimento de palavras-chave para Android aqui.
Adição de exemplo na TTS para o cenário de servidor aqui.
Adição de guias de início rápido de conversa em vários dispositivos para C# e C++ aqui.

Outras alterações

Otimização do tamanho da biblioteca principal do SDK no Android.
O SDK da versão 1.9.0 em diante dá suporte aos tipos int e string no campo de versão da assinatura de voz para o transcritor de conversas.

SDK de Fala 1.8.0: versão de novembro de 2019

Novos recursos

Adição de uma API FromHost() para facilitar o uso com contêineres locais e nuvens soberanas.
Adição de Identificação de Idioma de Origem para o Reconhecimento de fala (em Java e C++)
Adição do objeto SourceLanguageConfig para reconhecimento de fala, usado para especificar os idiomas de origem esperados (em Java e C++)
Adição de suporte a KeywordRecognizer no Windows (UWP), no Android e no iOS por meio dos pacotes NuGet e Unity
Adição da API Java de Conversa Remota para fazer a transcrição de conversas em lotes assíncronos.

Alterações interruptivas

Migração das funcionalidades do transcritor de conversas para o namespace Microsoft.CognitiveServices.Speech.Transcription.
Migração de algumas partes dos métodos do transcritor de conversas para a nova classe Conversation.
Remoção do suporte para o iOS de 32 bits (ARMv7 e x86)

Correções de bug

Correção de uma falha quando o KeywordRecognizer local era usado sem uma chave de assinatura válida do serviço de Fala

Exemplos

Exemplo do Xamarin para KeywordRecognizer
Exemplo do Unity para KeywordRecognizer
Exemplos de C++ e Java para Identificação de Automática de Idioma de Origem.

SDK de Fala 1.7.0: versão de setembro de 2019

Novos recursos

Adição de suporte beta para o Xamarin no UWP (Plataforma Universal do Windows), no Android e no iOS
Adição de suporte do iOS para Unity
Adição de suporte de entrada Compressed para o ALAW, o MULAW, o FLAC no Android, no iOS e no Linux
Adição de SendMessageAsync à classe Connection para envio de uma mensagem ao serviço
Adição de SetMessageProperty à classe Connection para definição da propriedade de uma mensagem
Adição de associações da TTS para Java (JRE e Android), Python, Swift e Objective-C
Adição de suporte à reprodução da TTS para macOS, iOS e Android.
Adição de informações de "limite de palavra" à TTS.

Correções de bug

Correção do problema de build do IL2CPP no Unity 2019 para Android
Correção do problema com o processamento incorreto de cabeçalhos malformados na entrada de arquivo WAV
Correção do problema com UUIDs que não eram exclusivos em algumas propriedades de conexão
Correção de alguns avisos sobre especificadores de nulidade nas associações do Swift (pode exigir pequenas alterações de código)
Correção de um bug que fazia com que as conexões do WebSocket fossem fechadas de modo anormal sob carga de rede
Correção de um problema no Android que, às vezes, resultava no uso de IDs de impressão duplicadas pelo DialogServiceConnector
Aprimoramentos na estabilidade de conexões entre interações de várias rodadas e o relatório de falhas (por meio de eventos Canceled) quando elas ocorriam com o DialogServiceConnector
Agora, os inícios da sessão do DialogServiceConnector fornecerão eventos, incluindo ao chamar ListenOnceAsync() durante um StartKeywordRecognitionAsync() ativo
Correção de uma falha associada ao recebimento das atividades do DialogServiceConnector

Exemplos

Guia de início rápido do Xamarin
Atualização do guia de início rápido do CPP com informações do Linux ARM64
Atualização do guia de início rápido do Unity com informações do iOS

SDK de Fala 1.6.0: versão de junho de 2019

Exemplos

Exemplos de início rápido para a conversão de texto em fala no UWP e no Unity
Exemplo de início rápido para o Swift no iOS
Exemplos do Unity para Reconhecimento de Fala e Intenção e Tradução
Atualização dos exemplos de início rápido para DialogServiceConnector

Melhorias/Alterações

Namespace de caixa de diálogo:
- SpeechBotConnector foi renomeado para DialogServiceConnector
- BotConfig foi renomeado para DialogServiceConfig
- BotConfig::FromChannelSecret() foi renomeado para DialogServiceConfig::FromBotSecret()
- Todos os clientes do Direct Line Speech existentes continuam tendo suporte após a renomeação
Atualização do adaptador REST da TTS para dar suporte à conexão persistente por proxy
Aprimoramento da mensagem de erro exibida quando uma região inválida era transmitida
Swift/Objective-C:
- Aprimoramento do relatório de erros: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um objeto NSError para tratamento de erro e outra que gera uma exceção. Os primeiros são expostos ao Swift. Essa alteração exige adaptações no código SWIFT existente.
- Aprimoramento da manipulação de eventos

Correções de bug

Correção para TTS: em que o SpeakTextAsync futuro era retornado sem aguardar até que o áudio concluísse a renderização
Correção para o marshaling de cadeias de caracteres em C# para habilitar o suporte completo ao idioma
Correção de um problema do aplicativo .NET Core para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
Correção do fechamento confiável de soquete da Web
Correção de uma possível falha durante a abertura de uma conexão sob carga pesada no Linux
Correção de metadados ausentes no pacote da estrutura para macOS
Correção para problemas com pip install --user no Windows

SDK de Fala 1.5.1

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

Correções de bug

Correção de FromSubscription quando usada com a transcrição de conversas.
Correção de um bug na detecção de palavras-chave para assistentes de voz.

SDK de Fala 1.5.0: versão de maio de 2019

Novos recursos

A KWS (detecção de palavras-chave) já está disponível para o Windows e o Linux. A funcionalidade da KWS pode ser usada com qualquer tipo de microfone, o suporte oficial da KWS, mas, atualmente, está limitada às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
A funcionalidade de dica de frase está disponível por meio do SDK. Para mais informações, consulte aqui.
A funcionalidade de transcrição de conversas está disponível por meio do SDK.
Adição de suporte para assistentes de voz que usam o Direct Line Speech.

Exemplos

Adição de exemplos para novos recursos ou novos serviços compatíveis com o SDK.

Melhorias/Alterações

Adição de várias propriedades do reconhecedor para ajustar o comportamento ou os resultados do serviço (como mascaramento de conteúdo ofensivo e outros).
Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que você tenha criado o FromEndpoint do reconhecedor.
Objective-C: adição da propriedade OutputFormat a SPXSpeechConfiguration.
O SDK agora dá suporte ao Debian 9 como uma distribuição do Linux.

Correções de bug

Corrigido um problema em que o recurso do locutor era destruído cedo demais na conversão de texto em fala.

SDK de Fala 1.4.2

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

SDK de Fala 1.4.1

Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

Prevenção do carregamento do https-proxy-agent pelo do webpack.

SDK de Fala 1.4.0: versão de abril de 2019

Novos recursos

O SDK agora dá suporte ao serviço de Conversão de texto em fala como uma versão beta. Há suporte na área de trabalho do Windows e do Linux por meio do C++ e do C#. Para obter mais informações, confira a Visão geral da conversão de texto em fala.
O SDK agora dá suporte a arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Esse recurso só está disponível no Linux por meio do C++ e do C# e, no momento, está na versão beta (mais detalhes aqui).
O SDK de Fala para Java, .NET Core, C++ e Objective-C ganhou suporte para macOS. Atualmente, o suporte a Objective-C para macOS está na versão beta.
iOS: o SDK de Fala para iOS (Objective-C) agora também é publicado como um CocoaPod.
JavaScript: suporte para microfone não padrão como um dispositivo de entrada.
JavaScript: suporte a proxy para Node.js.

Exemplos

Adição de exemplos de uso do SDK de Fala com o C++ e o Objective-C no macOS.
Adição de exemplos que demonstram o uso do serviço de Conversão de texto em fala.

Melhorias/Alterações

Python: agora, as propriedades adicionais dos resultados do reconhecimento são expostas por meio da propriedade properties.
Para obter suporte adicional de desenvolvimento e depuração, redirecione as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
JavaScript: aprimoramento do desempenho de processamento de áudio.

Correções de bug

Mac/iOS: correção de um bug que resultava em uma longa espera quando uma conexão com o serviço de Fala não podia ser estabelecida.
Python: aprimoramento do tratamento de erro para argumentos em retornos de chamada do Python.
JavaScript: correção do relatório de estado incorreto para a fala encerrada em RequestSession.

SDK de Fala 1.3.1: atualização de fevereiro de 2019

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

Correção de bug

Correção de uma perda de memória durante o uso da entrada do microfone. A entrada de arquivo ou baseada em fluxo não foi afetada.

SDK de Fala 1.3.0: versão de fevereiro de 2019

Novos recursos

O SDK de Fala dá suporte à seleção do microfone de entrada por meio da classe AudioConfig. Isso permite que você transmita dados de áudio para o serviço de Fala de um microfone não padrão. Para obter mais informações, confira a documentação que descreve a seleção do dispositivo de entrada de áudio. Esse recurso ainda não está disponível no JavaScript.
O Speech SDK agora dá suporte ao Unity em uma versão beta. Envie comentários por meio da seção de problemas no repositório GitHub de exemplo. Essa versão dá suporte ao Unity no Windows x86 e x64 (área de trabalho ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso início rápido do Unity.
O arquivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornecido em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK do Core.

Exemplos

O novo conteúdo a seguir está disponível no nosso repositório de exemplo:

Exemplos adicionais para AudioConfig.FromMicrophoneInput.
Mais exemplos do Python para conversão e reconhecimento de intenção.
Exemplos adicionais para usar o objeto Connection no iOS.
Exemplos adicionais de Java para tradução com saída de áudio.
Novo exemplo para usar a API REST de Transcrição de Lote.

Melhorias/Alterações

Python
- Aprimoramento da verificação de parâmetro e mensagens de erro em SpeechConfig.
- Adição de suporte para o objeto Connection.
- Suporte para Python de 32 bits (x86) no Windows.
- O Speech SDK para Python está fora do beta.
iOS
- O SDK agora é construído com relação ao SDK versão 12.1 do iOS.
- O SDK agora dá suporte a iOS versões 9.2 e posteriores.
- Melhore a documentação de referência e conserte vários nomes de propriedade.
JavaScript
- Adição de suporte para o objeto Connection.
- Adicione arquivos de definição de tipo para JavaScript agrupado
- Suporte inicial e implementação para dicas de frase.
- Retornar a coleção de propriedades com o serviço de JSON para reconhecimento
DLLs do Windows agora contêm um recurso de versão.
Se você criar um FromEndpoint do reconhecedor, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. Usando o FromEndpoint, você não pode configurar o reconhecedor por meio das propriedades de configuração padrão.

Correções de bug

O nome de usuário de proxy e a senha de proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário do proxy e a senha do proxy como uma cadeia de caracteres vazia, eles não serão enviados durante a conexão com o proxy.
As SessionIds criadas pelo SDK nem sempre eram realmente aleatórias para algumas linguagens/ambientes. Adição da inicialização aleatória do gerador para corrigir esse problema.
Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique SpeechConfig e deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume.
Em alguns casos, o objeto Connection não era liberado corretamente. Esse problema foi corrigido.
O exemplo de JavaScript foi corrigido para dar suporte para saída de áudio para síntese de conversão também no Safari.

Speech SDK 1.2.1

Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

Acionar o final do fluxo no turn.end, não no speech.end.
Correção de um bug na bomba de áudio que não agendava o próximo envio em caso de falha do envio atual.
Consertar reconhecimento contínuo com o token de autenticação.
Correção de bug para diferentes reconhecedores/pontos de extremidade.
Melhorias na documentação.

SDK de Fala 1.2.0: versão de dezembro de 2018

Novos recursos

Python
- A versão Beta do suporte do Python (3.5 e posterior) está disponível com esta versão. Para saber mais, acesse aqui](../../quickstart-python.md).
JavaScript
- O SDK de Fala para o JavaScript tem sido livre. O código-fonte está disponível no GitHub.
- Agora damos suporte a node. js, mais informações podem ser encontradas aqui.
- A restrição de comprimento para sessões de áudio foi removida, a reconexão ocorrerá automaticamente sob a tampa.
Objeto Connection
- No Recognizer, você pode acessar um objeto Connection. Esse objeto permite iniciar a conexão de serviço e inscrever-se para se conectar e desconectar de eventos explicitamente. (Esse recurso ainda não está disponível no JavaScript e no Python.)
Suporte para Ubuntu 18.04.
Android
- Suporte do ProGuard habilitado durante a geração de APK.

Aprimoramentos

Melhorias no uso de thread interno, reduzindo o número de threads, bloqueios e exclusões mútuas.
Relatório/informações de erros aprimorados. Em vários casos, as mensagens de erro não eram propagadas por completo.
As dependências de desenvolvimento atualizadas do JavaScript para usar módulos atualizados.

Correções de bug

Correção de perdas de memória devido a tipos incompatíveis em RecognizeAsync.
Em alguns casos, as exceções foram sendo vazadas.
Corrigindo o vazamento de memória em argumentos de evento de tradução.
Corrigido um problema de bloqueio na reconexão longa de sessões em execução.
Correção de um problema que podia levar a um resultado final ausente para traduções com falha.
C#: quando uma operação async não era colocada em espera no thread principal, era possível que o reconhecedor fosse descartado antes da conclusão da tarefa assíncrona.
Java: correção de um problema que resultava em uma falha da VM Java.
Objective-C: correção do mapeamento de enumeração: em vez de RecognizingIntent, RecognizedIntent era retornado.
JavaScript: definição do formato de saída padrão como 'simples' em SpeechConfig.
JavaScript: remoção da inconsistência entre as propriedades no objeto de configuração em JavaScript e em outras linguagens.

Exemplos

Atualização e correção de vários exemplos (por exemplo, vozes de saída para tradução etc.).
Adicionados exemplos do Node. js no repositório de exemplo.

SDK de Fala 1.1.0

Novos recursos

Suporte para Android x86/x64.
Suporte de proxy: no objeto SpeechConfig, agora você pode chamar uma função para definir as informações do proxy (nome do host, porta, nome de usuário e senha). Esse recurso ainda não está disponível no iOS.
Melhor código de erro e mensagens. Se um reconhecimento retornou um erro, isso já definiu Reason (no evento cancelado) ou CancellationDetails (no resultado do reconhecimento) para Error. O evento cancelado agora contém dois membros adicionais, ErrorCode e ErrorDetails. Se o servidor retornou informações de erro adicionais com o erro relatado, agora ele estará disponível nos novos membros.

Aprimoramentos

Adicionada verificação adicional na configuração do reconhecedor e adicionada outra mensagem de erro.
Manipulação aprimorada de silêncio de longa duração no meio de um arquivo de áudio.
Pacote NuGet: para projetos do .NET Framework, ele impede a construção com a configuração AnyCPU.

Correções de bug

Corrigido várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em evento Canceled.
Corrigir um vazamento de memória no gerenciamento de propriedades.
Corrigido o erro no qual um arquivo de entrada de áudio poderia travar o reconhecedor.
Corrigido um bug no qual os eventos podiam ser recebidos após um evento de parada da sessão.
Corrigidas algumas condições de corrida no threading.
Corrigido um problema de compatibilidade do iOS que poderia resultar em uma falha.
Melhorias de estabilidade para suporte de microfone Android.
Corrigido um erro em que um reconhecedor em JavaScript ignoraria o idioma de reconhecimento.
Correção de um bug que impedia a definição de EndpointId (em alguns casos) no JavaScript.
Alteração da ordem dos parâmetros em AddIntent no JavaScript e adição de uma assinatura JavaScript AddIntent ausente.

Exemplos

Adição de exemplos do C++ e do C# para uso de fluxo de pull e push no repositório de exemplos.

SDK de Fala 1.0.1

Melhorias na confiabilidade e correções de bugs:

Corrigido erro fatal potencial devido à condição de corrida no reconhecedor de descarte
Correção de erro fatal potencial quando ocorriam propriedades não definidas.
Adicionado erro adicional e verificação de parâmetros.
Objective-C: corrigido possível erro fatal causado por substituição de nome em NSString.
Objective-C: visibilidade ajustada da API
JavaScript: corrigido em relação a eventos e cargas.
Melhorias na documentação.

Em nosso repositório de exemplos, um novo exemplo para JavaScript foi adicionado.

SDK de Fala de IA do Azure 1.0.0: versão de setembro de 2018

Novos recursos

Suporte para Objective-C no iOS. Confira nosso Início Rápido do Objective-C para iOS.
Suporte para JavaScript no navegador. Confira nosso Início Rápido do JavaScript.

Alterações interruptivas

Com esta versão, várias alterações interruptivas foram introduzidas. Confira esta página para obter detalhes.

SDK de Fala de IA do Azure 0.6.0: versão de agosto de 2018

Novos recursos

Os aplicativos UWP criados com o SDK de Fala agora podem ser aprovados pelo WACK (Kit de Certificação de Aplicativos Windows). Confira o Início Rápido do UWP.
Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
Experimental: dê suporte Java 8 no Windows (64 bits) e no Linux (Ubuntu 16.04 x64). Confira o Início Rápido do Java Runtime Environment.

Alteração funcional

Expor informações de detalhe de erro adicionais sobre erros de conexão.

Alterações interruptivas

No Java (Android), a função SpeechFactory.configureNativePlatformBindingWithDefaultCertificate não requer mais um parâmetro de caminho. Agora, o caminho é detectado automaticamente em todas as plataformas com suporte.
O get-accessor da propriedade EndpointUrl em Java e C# foi removido.

Correções de bug

Em Java, o resultado da síntese de áudio no reconhecedor de tradução agora está implementado.
Foi corrigido um bug que podia causar threads inativos e um grande número de soquetes abertos e não usados.
Foi corrigido um problema em que o reconhecimento de execução longa podia terminar no meio da transmissão.
Corrigida uma condição de corrida no desligamento do reconhecedor.

SDK de Fala de IA do Azure 0.5.0: versão de julho de 2018

Novos recursos

Suporte a plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o Início Rápido para Android.
Suporte para .NET Standard 2.0 no Windows. Confira o Início Rápido para .NET Core.
Experimental: Suporte a UWP no Windows (versão 1709 ou posterior).
- Confira o Início Rápido do UWP.
- Observe que os aplicativos UWP criados com o SDK de Fala ainda não foram aprovados pelo WACK (Kit de Certificação de Aplicativos do Windows).
Suporte ao reconhecimento de execução longa com reconexão automática.

Alterações funcionais

O StartContinuousRecognitionAsync() dá suporte ao reconhecimento de execução longa.
O resultado do reconhecimento contém mais campos. Eles são deslocados do início do áudio e da duração (ambos em tiques) do texto reconhecido e dos valores adicionais que representam o status de reconhecimento, por exemplo, InitialSilenceTimeout e InitialBabbleTimeout.
Suporte para AuthorizationToken para criar instâncias de fábrica.

Alterações interruptivas

Eventos de reconhecimento: o tipo de evento NoMatch foi mesclado no evento Error.
O SpeechOutputFormat em C# foi renomeado para OutputFormat a fim de permanecer alinhado com o C++.
O tipo de retorno de alguns métodos da interface AudioInputStream foi um pouco alterado:
- Em Java, o método read agora retorna long em vez de int.
- Em C#, o método Read agora retorna uint em vez de int.
- Em C++, os métodos Read e GetFormat agora retornam size_t em vez de int.
C++: as instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um shared_ptr.

Correções de bug

Foram corrigidos os valores retornados incorretos no resultado quando RecognizeAsync() atinge o tempo limite.
A dependência das bibliotecas do Media Foundation no Windows foi removida. O SDK agora usa as APIs Core Audio.
Correção da documentação: uma página de regiões foi adicionada para descrever as regiões com suporte.

Problema conhecido

O SDK de Fala para Android não relata os resultados da síntese de fala para tradução. Esse problema será corrigido na próxima versão.

SDK de Fala de IA do Azure 0.4.0: versão de junho de 2018

Alterações funcionais

AudioInputStream

Agora, um reconhecedor pode consumir um fluxo como a fonte de áudio. Para obter mais detalhes, confira o guia de instruções relacionado.
Formato de saída detalhado

Ao criar um SpeechRecognizer, você pode solicitar o formato de saída Detailed ou Simple. O DetailedSpeechRecognitionResult contém uma pontuação de confiança, texto reconhecido, forma léxica bruta, forma normalizada e forma normalizada com obscenidades mascaradas.

Alteração da falha

Alterado para SpeechRecognitionResult.Text de SpeechRecognitionResult.RecognizedText em C#.

Correções de bug

Foi corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
Se um reconhecedor consumir um arquivo de entrada de áudio, ele manteve o identificador de arquivo por mais tempo do que o necessário.
Foram removidos vários deadlocks entre a bomba de mensagens e o reconhecedor.
Dispare um resultado NoMatch quando o tempo de resposta do serviço esgotar.
As bibliotecas do Media Foundation no Windows são carregadas com atraso. Essa biblioteca é necessária apenas para entrada do microfone.
A velocidade de carregamento de dados de áudio é limitada a duas vezes a velocidade do áudio original.
No Windows, agora os assemblies .NET em C# têm nomes fortes.
Correção de documentação: Region são as informações necessárias para criar um reconhecedor.

Mais exemplos foram adicionados e são atualizados constantemente. Para obter o último conjunto de exemplos, confira o Repositório GitHub de exemplos do SDK de Fala.

SDK de Fala de IA do Azure 0.2.12733: versão de maio de 2018

Esta é a primeira versão de visualização pública do SDK de Fala de IA do Azure.

CLI de Fala 1.37.0: versão de abril de 2024

Atualizado para usar o Serviço Cognitivo do Azure para Fala SDK 1.37.0

Novos recursos

nenhum

Correções de bug

nenhum

Serviço Cognitivo do Azure para Fala CLI 1.36.0: versão de março de 2024

Atualizado para usar o Serviço Cognitivo do Azure para Fala SDK 1.36.0

Novos recursos

nenhum

Correções de bug

nenhum

CLI de Fala 1.35.0: versão de fevereiro de 2024

Atualizado para usar o SDK de Fala 1.35.0

Novos recursos

nenhum

Correções de bug

Atualizar a dependência do JMESPath para a versão mais recente

CLI de Fala 1.34.0: versão de novembro de 2023

Atualizado para usar o SDK de Fala 1.34.0

CLI de Fala 1.33.0: versão de outubro de 2023

Atualizado para usar o SDK de Fala 1.34.0

CLI de Fala 1.31.0: versão de agosto de 2023

Atualizado para usar o SDK de Fala 1.31.0

CLI de Fala 1.30.0: versão de julho de 2023

Atualizado para usar o SDK de Fala 1.30.0

CLI de Fala 1.29.0: versão de junho de 2023

Atualizado para usar o SDK de Fala 1.29.0

CLI de Fala 1.28.0: versão de maio de 2023

Atualizado para usar o SDK de Fala 1.28.0

CLI de Fala 1.27.0: lançamento em abril de 2023

Atualizações

Atualizado para usar o SDK de Fala 1.27.0
Atualize o ponto de extremidade padrão para usar as APIs REST v3.1 para Reconhecimento de fala personalizada e Reconhecimento de Fala em Lote.

Correções de bug

Correções relacionadas a como os parâmetros de consulta são analisados/configurados.

CLI de Fala 1.26.0: versão de março de 2023

Atualização para uso do SDK de Fala 1.26.0.

CLI de Fala 1.25.0: versão de janeiro de 2023

Atualização para uso do SDK de Fala 1.25.0.

CLI de Fala 1.24.0: versão de outubro de 2022

Usa o SDK de Fala 1.24.0.

Novos recursos

"Verificação spx" expandida para dar suporte a consultas JMESPath em todos os eventos spx

Correções de bug

Vários aprimoramentos na robustez em relação às avaliações de consulta JMESPath
Correção de truncamentos em gravações de arquivo que podem ocorrer em computadores com restrição de recurso

CLI de Fala 1.23.0: versão de julho de 2022

Usa o SDK de Fala 1.23.0.

Novos recursos

Melhor legenda (--output vtt e --output srt), com divisão de resultados grandes (máximo de 37 caracteres, 3 linhas)
Opções spx synthesize--format documentadas (consulte spx help synthesize format)
Documentou a maioria dos spx csr comandos/opções (confira spx help csr)
Adição do comando spx csr model copy (consulte spx help csr model copy)
Opção --check result adicionada usando consultas JMES (consulte spx help check result)
Mensagens de erro aprimoradas ao especificar opções de comando inválidas
Mudança do .NET Core 3.1 para o .NET 6.0. Para executar a CLI de Fala, você precisará instalar o Runtime do .NET 6.0 (ou superior).

Correções de bug

Todos as URLs foram atualizadas para remover o idioma (por exemplo, “en-US”)
Correção de informações de versão para relatar corretamente em todos os casos (anteriormente, às vezes, mostrava um espaço em branco)

CLI de Fala 1.22.0: versão de junho de 2022

Usa o SDK de Fala 1.22.0.

Novos recursos

Comando spx init adicionado para orientar os usuários por meio da criação da chave de recurso de fala sem ir ao Portal da Web do Azure.
Os contêineres do docker de Fala agora têm a CLI do Azure incluída, para que o comando spx init funcione imediatamente.
Adicionado carimbo de data/hora como uma opção de saída de evento, para tornar o SPX mais útil ao calcular latências.

CLI de Fala 1.21.0: versão de abril de 2022

Usa o SDK de Fala 1.21.0.

Novos recursos

Geração de legenda WEBVTT
- Adicionado o suporte --output vtt para spx translate
- Dá suporte a --output vtt file FILENAME para substituir o VTT FILENAME padrão
- Dá suporte a --output vtt file - para gravar na saída padrão
- Arquivos VTT individuais são criados para cada idioma de destino (por exemplo, --target en;de;fr)
Geração de legenda SRT
- Adicionado suporte a --output srt para spx recognize, spx intent e spx translate
- Dá suporte a --output srt file FILENAME para substituir o SRT FILENAME padrão
- Dá suporte a --output srt file - para gravar na saída padrão
- Para spx translate, os arquivos SRT individuais são criados para cada idioma de destino (por exemplo, --target en;de;fr)

Correções de bug

Saída de intervalo de tempo do WEBVTT corrigida para usar corretamente o formato hh:mm:ss.fff

CLI 1.20.0 de Fala: versão de janeiro de 2022

Novos recursos

Reconhecimento de locutor
- spx profile enroll e spx speaker [identify/verify] já dão suporte à entrada do microfone
Reconhecimento de intenção (spx intent)
- --keyword FILE.table
- --pattern e --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (contínuo agora padrão)
- --output all/each connection EVENT
- --output all/each connection message (por exemplo, text, path)
Verificação/criação de expectativa de saída do console da CLI:
- Suporte de --expect PATTERN e --not expect PATTERN em todos os comandos
- --auto expect para auxiliar a criação de padrões esperados
Verificação/criação de expectativa de saída de log do SDK
- Suporte de --log expect PATTERN e --not log expect PATTERN em todos os comandos
- Suporte de --log auto expect [FILTER] em todos os comandos
- Suporte de --log FILE em spx profile e spx speaker
Entrada do arquivo de áudio
- Suporte de --format ANY em todos os comandos
- Suporte de --file - (leitura da entrada padrão, habilitação de cenários de pipe)
Saída do arquivo de áudio
- Gravação de --audio output - na saída padrão, habilitação de cenários de pipe
Arquivos de saída
- Gravação de --output all/each file - na saída padrão
- Gravação de --output batch file - na saída padrão
- Gravação de --output vtt file - na saída padrão
- Gravação de --output json file - na saída padrão, para os comandos spx csr e spx batch
Propriedades de saída
- --output […] result XXX property (PropertyId ou cadeia de caracteres)
- --output […] connection message received XXX property (PropertyId ou cadeia de caracteres)
- --output […] recognizer XXX property (PropertyId ou cadeia de caracteres)
Integração do Azure WebJob
- spx webjob agora segue o padrão de subcomando
- Atualização da ajuda do WebJob para refletir o padrão de subcomando (confira spx help webjob)

Correções de bug

Correção do bug que ocorre quando --output vtt FILE e --output batch FILE são usados ao mesmo tempo
spx [...] --zip ZIPFILENAME agora inclui todos os binários necessários para todos os cenários (se houver)
Os comandos spx profile e spx speaker agora retornam informações de erro detalhadas sobre o cancelamento

Versão de maio de 2021

Novos recursos

Adição de suporte para perfil, ID do locutor e verificação do locutor. Experimente usar spx profile e spx speaker na linha de comando.
Também adicionamos o suporte para diálogo. Experimente usar spx dialog na linha de comando.
A ajuda de spx foi aprimorada. Envie-nos comentários sobre como isso funciona para você, abrindo um problema do GitHub.
Reduzimos o tamanho da instalação da ferramenta do .NET.

Testes reduzidos devido à COVID-19

Conforme a pandemia continua exigindo que nossos engenheiros trabalhem em casa, os scripts de verificação manual antes da pandemia foram reduzidos significativamente. Fizemos o teste em menos dispositivos com menos configurações, e a probabilidade de bugs específicos do ambiente não detectados pode aumentar. Ainda realizamos uma validação rigorosa com um amplo conjunto de testes de automação. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!

Versão de março de 2021

Novos recursos

Adição do comando spx intent para reconhecimento de intenção, substituindo spx recognize intent.
O reconhecimento e a intenção agora podem usar o Azure Functions para calcular a taxa de erros de palavras por meio de spx recognize --wer url <URL>.
Agora, o reconhecimento pode gerar resultados como arquivos VTT por meio de spx recognize --output vtt file <FILENAME>.
As informações de chave confidenciais agora são obscurecidas na saída de depuração/detalhada.
Adição da verificação de URL e da mensagem de erro ao campo de conteúdo na criação da transcrição em lote.

Testes reduzidos devido à COVID-19

Versão de janeiro de 2021

Novos recursos

A CLI de Fala já está disponível como um pacote NuGet e pode ser instalada por meio da CLI do .NET como uma ferramenta global do .NET que pode ser chamada por meio da linha de comando/do shell.
O repositório de Modelos do DevOps de fala personalizada foi atualizado para usar a CLI de Fala para os fluxos de trabalho de fala personalizada.

Testes reduzidos devido à COVID-19

Versão de outubro de 2020

O SPX é a interface de linha de comando para usar o serviço Fala sem escrever código. Baixe a última versão aqui.

Novos recursos

spx csr dataset upload --kind audio|language|acoustic: crie conjuntos de dados com base em dados locais, não apenas em URLs.
spx csr evaluation create|status|list|update|delete: compare novos modelos com a verdade de linha de base/outros modelos.
spx * list: dá suporte à experiência não paginável (não exige --top X --skip X).
spx * --http header A=B: dá suporte a cabeçalhos personalizados (adicionados ao Office para autenticação personalizada).
spx help: aprimoramento de texto e de texto com acento grave codificado por cor (azul).

Versão de junho de 2020

Adição de recursos de pesquisa na ajuda da CLI:
- spx help find --text TEXT
- spx help find --topic NAME
Atualização para trabalhar com as APIs de fala personalizada e do Lote v3.0 recém-implantadas:
- spx help batch examples
- spx help csr examples

Testes reduzidos devido à COVID-19

CLI de Fala (também conhecida como SPX) – Versão de maio de 2020

A SPX é uma nova ferramenta de linha de comando que permite executar reconhecimento, sintetização, tradução, transcrição em lote e gerenciamento de fala personalizada na linha de comando. Use-a para testar o serviço de Fala ou para gerar scripts das tarefas do serviço de Fala que você precisa executar. Baixe a ferramenta e leia a documentação aqui.

Lançamento de abril de 2024

Avatar de conversão de texto em fala

Agora você pode configurar uma imagem de fundo estática para seus avatares. Para usar essa funcionalidade, basta usar a propriedade avatarConfig.backgroundImage e especificar uma URL que direcione para a imagem desejada. Para mais detalhes, confira Como editar a tela de fundo.

Versão de março de 2024

Voz neural predefinida

Geralmente, nove vozes multilíngues estão disponíveis em todas as regiões: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural e zh-CN-XiaoxiaoMultilingualNeural. Consulte a lista completa de idiomas e vozes para obter mais informações.
Apresentando uma nova voz multilíngue para visualização pública: ja-JP-MasaruMultilingualNeural. Consulte a lista completa de idiomas e vozes para obter mais informações.
Atualizações adicionais:
- en-US-RyanMultilingualNeural geralmente está disponível em todas as regiões.
- en-US-JennyMultilingualV2Neural geralmente está disponível em todas as regiões, mesclado com en-US-JennyMultilingualNeural.
- Versão prévia disponível para os en-IN-NeerjaNeural e hi-IN-SwaraNeural atualizados com três novos estilos no Leste dos EUA, Oeste da Europa e Sudeste da Ásia.
- Versão prévia disponível para novas vozes femininas na Índia Central: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural e hi-IN-AnanyaNeural.

Avatar de conversão de texto em fala

Removida a dependência do Serviços de Comunicação do Azure (ACS) TURN para avatar em tempo real. O código de amostra foi atualizado adequadamente para refletir essa alteração.
Preços de avatar de conversão de texto em fala publicados. Para mais detalhes, veja a página de preços. Observe que o preço do avatar só estará visível para regiões de serviço onde o recurso está disponível, incluindo Oeste dos EUA 2, Oeste da Europa e Sudeste da Ásia.

Versão de fevereiro de 2024

Vozes do OpenAI

O serviço Fala de IA do Azure dá suporte a vozes de conversão de texto em fala do OpenAI nas seguintes regiões: Centro-Norte dos EUA e Suécia Central. Assim como as vozes do Fala de IA do Azure, as vozes de conversão de texto em fala do OpenAI oferecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso abre uma ampla gama de possibilidades para experiências de usuário imersivas e interativas. Para obter mais informações, confira O que são as vozes de conversão de texto em fala do OpenAI?.

Observação

As vozes de conversão de texto em fala do OpenAI também estão disponíveis no Serviço OpenAI do Azure.
Com essa atualização, ajustamos o preço das vozes neurais predefinidas com a Fala de IA do Azure. Verifique o preço atualizado aqui.

Voz pessoal

O recurso de voz pessoal agora dá suporte a modelos DragonLatestNeural e PhoenixLatestNeural. Esses novos modelos aumentam a naturalidade das vozes sintetizadas, aproximando-se mais das características da fala da voz no prompt. Para obter mais detalhes, consulte Integrar voz pessoal em seu aplicativo.

Versão de dezembro de 2023

API de voz personalizada

A API de voz personalizada está disponível para criar e gerir modelos de voz neural personalizados profissionais e pessoais.

Sintetização de voz personalizada

Os modelos de voz recém-treinados agora dão suporte à taxa de amostra de 48 kHz, independentemente da versão do modelo. Para modelos de voz treinados anteriormente, é necessário atualizar a versão do mecanismo para pelo menos a versão 2023.11.13.0 para aprimorar a taxa de amostra para 48 kHz.

Voz neural predefinida

Apresentando novas vozes multilíngues para visualização pública:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`de-DE`	Alemão (Alemanha)	`de-DE-FlorianMultilingualNeural` (Masculino)
`de-DE`	Alemão (Alemanha)	`de-DE-SeraphinaMultilingualNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-AvaMultilingualNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-EmmaMultilingualNeural` (Feminino)
`fr-FR`	Francês (França)	`fr-FR-RemyMultilingualNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-BrianMultilingualNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-AndrewMultilingualNeural` (Masculino)
`fr-FR`	Francês (França)	`fr-FR-VivienneMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaoxiaoMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaochenMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-YunyiMultilingualNeural` (Masculino)

Apresentando novas vozes zh-CN-XiaoxiaoDialectsNeural em versão prévia que dão suporte a vários dialetos e sotaques chineses:

Nome da voz	Idioma secundário	Dialeto/sotaque
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chinês (Zhongyuan Mandarim Shaanxi, Simplificado)
	`zh-CN-sichuan`	Chinês (Mandarim do Sudoeste, Simplificado)
	`zh-CN-shanxi`	Chinês (mandarim com sotaque shanxi, simplificado)
	`nan-CN`	Chinês (min do sul, simplificado)
	`zh-CN-anhui`	Chinês (mandarim jianghuai de Anhui, simplificado)
	`zh-CN-hunan`	Chinês (mandarim com sotaque hunan, simplificado)
	`zh-CN-gansu`	Chinês (mandarim lanyin de Gansu, simplificado)
	`zh-CN-shandong`	Chinês (Jilu Mandarim, Simplificado)
	`zh-CN-henan`	Chinês (Zhongyuan Mandarim Henan, Simplificado)
	`zh-CN-liaoning`	Chinês (Mandarim, Simplificado)
	`zh-TW`	Chinês (Mandarim Taiwanês, tradicional)

Versão de novembro de 2023

Voz pessoal

A voz pessoal está disponível em versão prévia nas seguintes regiões: Oeste da Europa, Leste dos EUA e Sudeste da Ásia. Com a voz pessoal (versão prévia), você pode obter a replicação gerada por IA da sua voz (ou usuários do aplicativo) em alguns segundos. Você fornece um exemplo de fala de um minuto como prompt de áudio e, em seguida, usa-o para gerar fala em qualquer um dos mais de 90 idiomas com suporte em mais de 100 localidades.

Para obter mais informações, consulte a voz pessoal.

Avatar de conversão de texto em fala

O avatar de conversão de texto em fala está disponível em versão prévia nas seguintes regiões: Oeste dos EUA 2, Oeste da Europa e Sudeste da Ásia.

O avatar de conversão de texto em fala converte texto em um vídeo digital de um humano fotorrealista (um avatar predefinido ou um avatar de conversão de texto em fala personalizado) falando com uma voz natural. O vídeo de avatar de conversão de texto em fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com o avatar de conversão de texto em fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Para obter mais informações, consulte avatar de conversão de texto em fala, notas de transparência e divulgação para talentos de voz e avatar.

Sintetização de voz personalizada

Adicionado suporte para as 24 novas localidades para voz multilíngue. Consulte a lista completa de idiomas para obter mais informações.

Voz neural predefinida

Apresentando novas vozes para visualização pública:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`de-DE`	Alemão (Alemanha)	`SeraphinaNeural` (Feminino)
`es-ES`	Espanhol (Espanha)	`XimenaNeural` (Feminino)
`fr-CA`	Francês (Canadá)	`ThierryNeural` (Masculino)
`fr-FR`	Francês (França)	`VivienneNeural` (Feminino)
`it-IT`	Italiano (Itália)	`GiuseppeNeural` (Masculino)
`ko-KR`	Coreano (Coreia do Sul)	`HyunsuNeural` (Masculino)
`pt-BR`	Português (Brasil)	`ThalitaNeural` (Feminino)

Modelos atualizados com bugs corrigidos e melhoria da qualidade:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`es-ES`	Espanhol (Espanha)	`AlvaroNeural` (Masculino)
`en-GB`	Inglês (Reino Unido)	`RyanNeural` (Masculino)
`ko-KR`	Coreano (Coreia do Sul)	`InjoonNeural` (Masculino)

Consulte a lista completa de idiomas e vozes para obter mais informações.

Versão de outubro de 2023

Sintetização de voz personalizada

Adicionado suporte para as 12 novas localidades com a Voz Neural Personalizada Pro. Consulte a lista completa de idiomas para obter mais informações.

Versão de setembro de 2023

Voz neural predefinida

Apresentando novas vozes para visualização pública:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`en-US`	Inglês (Estados Unidos)	`en-US-EmmaNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-AndrewNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-BrianNeural` (Masculino)

Consulte a lista completa de idiomas e vozes para obter mais informações.

Voz neural inserida

Todas as 147 localidades aqui (exceto fa-IR, persa (Irã)) estão disponíveis prontas para uso com 1 voz feminina e/ou 1 voz masculina selecionadas.

Versão de agosto de 2023

Sintetização de voz personalizada

A versão mais recente da receita de treinamento CNV Lite foi lançada. Esta versão traz vários aprimoramentos na qualidade de seus modelos de linguagem. Experimente o Speech Studio.

Versão de julho de 2023

Sintetização de voz personalizada

A voz de vários estilos está em disponibilidade geral.
Foram adicionadas duas novas localidades na visualização pública para voz de vários estilos: ja-JP e zh-CN. Consulte a lista completa de idiomas e vozes para obter mais informações. Consulte a lista de estilos predefinidos para diferentes idiomas.
A voz multilíngue está em disponibilidade geral.
Foram adicionadas duas novas localidades para voz multilíngue: id-ID e nl-NL. Consulte a lista completa de idiomas e vozes para obter mais informações.

Serviço de Vozes Neural TTS Pré-compilada

Introdução à nova voz neutra de gênero en-US para visualização pública:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`en-US`	Inglês (Estados Unidos)	`en-US-BlueNeural` (Neutra)

Apresentando novas vozes multilíngues para visualização pública:

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`en-US`	Inglês (Estados Unidos)	`en-US-JennyMultilingualV2Neural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-RyanMultilingualNeural` (Masculino)

As vozes multilíngues en-US-JennyMultilingualV2Neural e en-US-RyanMultilingualNeural detectam automaticamente o idioma do texto de entrada. No entanto, você ainda pode usar o elemento <lang> para ajustar a linguagem de fala para essas vozes.

Essas novas vozes multilíngues podem falar em 41 idiomas e sotaques: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Essas vozes multilíngues não dão suporte total a determinados elementos SSML, como quebra, ênfase, silêncio e sub.

Importante

A voz en-US-JennyMultilingualV2Neural é fornecida temporariamente em visualização pública somente para fins de avaliação. Isso será removido no futuro.

Para falar em um idioma diferente do inglês, a implementação atual da voz en-US-JennyMultilingualNeural requer que você defina o elemento <lang xml:lang>. Prevemos que, durante o 4º trimestre de 2023, a voz en-US-JennyMultilingualNeural será atualizada para falar no idioma do texto de entrada sem o elemento <lang xml:lang>. Isso estará em paridade com a voz en-US-JennyMultilingualV2Neural.

Apresentando novos recursos em visualização pública para as vozes abaixo:

Adição de entrada em latim para vozes sérvias (Sérvia) sr-RS: sr-latn-RS-SophieNeural e sr-latn-RS-NicholasNeural.
Adição do suporte à pronúncia em inglês para vozes albanesas (Albânia) sq-AL: sq-AL-AnilaNeural e sq-AL-IlirNeural.

A versão de maio de 2023

Criação de Conteúdo de Áudio

Todas as vozes predefinidas com estilos de fala e vozes personalizadas de vários estilos dão suporte ao ajuste de grau de estilo.
Agora você pode corrigir a pronúncia de uma palavra falando a palavra e gravando-a. Os fonemas podem ser reconhecidos automaticamente por meio da gravação. Agora o recurso Reconhecer pela fala está em versão prévia pública.

Versão de abril de 2023

Serviço de Vozes Neural TTS Pré-compilada

Os seguintes recursos dessas vozes foram movidos de visualização pública para disponibilidade geral:

Estilo	Vozes da conversão de texto em fala
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`, e `it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` e `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` e `fr-FR-HenriNeural`

Melhore a pronúncia em inglês para as vozes hi-IN, ta-IN e te-IN. Esse recurso agora está em versão prévia em regiões de visualização pública

Para obter mais informações, consulte a lista de idiomas e vozes.

Versão de março de 2023

Novos recursos

A Linguagem de Marcação de Síntese de Fala (SSML) foi atualizada para dar suporte a elementos processadores de efeito de áudio que otimizam a qualidade da saída de fala sintetizada para cenários específicos em dispositivos. Saiba mais na marcação de síntese de fala.

Sintetização de voz personalizada

Adicionado suporte para a localidade nl-BE com a Voz Neural Personalizada Pro. Consulte a lista completa de idiomas e vozes para obter mais informações.

Serviço de Vozes Neural TTS Pré-compilada

As seguintes vozes estão agora disponíveis para o público geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`en-AU`	Inglês (Austrália)	`en-AU-AnnetteNeural` (Feminino) `en-AU-CarlyNeural` (Feminino) `en-AU-DarrenNeural` (Masculino) `en-AU-DuncanNeural` (Masculino) `en-AU-ElsieNeural` (Feminino) `en-AU-FreyaNeural` (Feminino) `en-AU-JoanneNeural` (Feminino) `en-AU-KenNeural` (Masculino) `en-AU-KimNeural` (Feminino) `en-AU-NeilNeural` (Masculino) `en-AU-TimNeural` (Masculino) `en-AU-TinaNeural` (Feminino) `en-AU-WilliamNeural` (Masculino)
`en-GB`	Inglês (Reino Unido)	`en-GB-RyanNeural` (Masculino) `en-GB-SoniaNeural` (Feminino)
`es-ES`	Espanhol (Espanha)	`es-ES-AbrilNeural` (Feminino) `es-ES-ArnauNeural` (Masculino) `es-ES-DarioNeural` (Masculino) `es-ES-EliasNeural` (Masculino) `es-ES-EstrellaNeural` (Feminino) `es-ES-IreneNeural` (Feminino) `es-ES-LaiaNeural` (Feminino) `es-ES-LiaNeural` (Feminino) `es-ES-NilNeural` (Masculino) `es-ES-SaulNeural` (Masculino) `es-ES-TeoNeural` (Masculino) `es-ES-TrianaNeural` (Feminino) `es-ES-VeraNeural` (Feminino)
`es-MX`	Espanhol (México)	`es-MX-JorgeNeural` (Masculino)
`fr-FR`	Francês (França)	`fr-FR-HenriNeural` (Masculino)
`it-IT`	Italiano (Itália)	`it-IT-IsabellaNeural` (Feminino)
`ja-JP`	Japonês (Japão)	`ja-JP-AoiNeural` (Feminino) `ja-JP-DaichiNeural` (Masculino) `ja-JP-MayuNeural` (Feminino) `ja-JP-NaokiNeural` (Masculino) `ja-JP-ShioriNeural` (Feminino)

Foi adicionado suporte para o estilocheerful com a voz de-DE-ConradNeural.

Versão de fevereiro de 2023

Serviço de Vozes Neural TTS Pré-compilada

As seguintes vozes estão agora disponíveis para o público geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaomengNeural` (Feminino) `zh-CN-XiaoyiNeural` (Feminino) `zh-CN-XiaozhenNeural` (Feminino) `zh-CN-YunfengNeural` (Masculino) `zh-CN-YunhaoNeural` (Masculino) `zh-CN-YunjianNeural` (Masculino) `zh-CN-YunxiaNeural` (Masculino) `zh-CN-YunzeNeural` (Masculino)
`zh-CN-henan`	Chinês (Zhongyuan Mandarim Henan, Simplificado)	`zh-CN-henan-YundengNeural` (Masculino)

Versão de dezembro de 2022

API REST de síntese em lotes (versão prévia)

A API de síntese em lotes está atualmente em versão prévia pública. Depois que estiver em disponibilidade geral, a API de áudio longo será preterida. Para obter mais informações, confira Migrar para a API de síntese em lotes.

Versão de novembro de 2022

Serviço de Voz TTS neural pré-criada (GA)

As seguintes vozes estão agora disponíveis para o público geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`es-MX`	Espanhol (México)	`es-MX-BeatrizNeural` (Feminino) `es-MX-CandelaNeural` (Feminino) `es-MX-CarlotaNeural` (Feminino) `es-MX-CecilioNeural` (Masculino) `es-MX-GerardoNeural` (Masculino) `es-MX-LarissaNeural` (Feminino) `es-MX-LibertoNeural` (Masculino) `es-MX-LucianoNeural` (Masculino) `es-MX-MarinaNeural` (Feminino) `es-MX-NuriaNeural` (Feminino) `es-MX-PelayoNeural` (Masculino) `es-MX-RenataNeural` (Feminino) `es-MX-YagoNeural` (Masculino)
`it-IT`	Italiano (Itália)	`it-IT-BenignoNeural` (Masculino) `it-IT-CalimeroNeural` (Masculino) `it-IT-CataldoNeural` (Masculino) `it-IT-FabiolaNeural` (Feminino) `it-IT-FiammaNeural` (Feminino) `it-IT-GianniNeural` (Masculino) `it-IT-ImeldaNeural` (Feminino) `it-IT-IrmaNeural` (Feminino) `it-IT-LisandroNeural` (Masculino) `it-IT-PalmiraNeural` (Feminino) `it-IT-PierinaNeural` (Feminino) `it-IT-RinaldoNeural` (Masculino)
`pt-BR`	Português (Brasil)	`pt-BR-BrendaNeural` (Feminino) `pt-BR-DonatoNeural` (Masculino) `pt-BR-ElzaNeural` (Feminino) `pt-BR-FabioNeural` (Masculino) `pt-BR-GiovannaNeural` (Feminino) `pt-BR-HumbertoNeural` (Masculino) `pt-BR-JulioNeural` (Masculino) `pt-BR-LeilaNeural` (Feminino) `pt-BR-LeticiaNeural` (Feminino) `pt-BR-ManuelaNeural` (Feminino) `pt-BR-NicolauNeural` (Masculino) `pt-BR-ValerioNeural` (Masculino) `pt-BR-YaraNeural` (Feminino)

Sintetização de voz personalizada

O suporte à localidade a seguir é adicionado para a Voz Neural Personalizada. Consulte a lista completa de idiomas e vozes para obter mais informações.

Adicionado suporte para a localidade fr-BE com a Voz Neural Personalizada Pro.
Adicionado suporte para a localidade es-ES com a Voz Neural Personalizada Lite.

Versão de outubro de 2022

Serviço de Voz TTS neural pré-criada (GA)

As seguintes vozes estão agora disponíveis para o público geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`eu-ES`	Basco	`eu-ES-AinhoaNeural` (Feminino) `eu-ES-AnderNeural` (Masculino)
`hy-AM`	Armênio (Armênia)	`hy-AM-AnahitNeural` (Feminino) `hy-AM-HaykNeural` (Masculino)

Serviço de Voz TTS neural pré-criada (versão prévia)

As seguintes vozes agora estão disponíveis em visualização pública. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes da conversão de texto em fala
`en-AU`	Inglês (Austrália)	`en-AU-AnnetteNeural`(Feminino) `en-AU-CarlyNeural`(Feminino) `en-AU-DarrenNeural`(Masculino) `en-AU-DuncanNeural`(Masculino) `en-AU-ElsieNeural`(Feminino) `en-AU-FreyaNeural`(Feminino) `en-AU-JoanneNeural`(Feminino) `en-AU-KenNeural`(Masculino) `en-AU-KimNeural`(Feminino) `en-AU-NeilNeural`(Masculino) `en-AU-TimNeural`(Masculino) `en-AU-TinaNeural`(Feminino)
`es-ES`	Espanhol (Espanha)	`es-ES-AbrilNeural`(Feminino) `es-ES-AlvaroNeural`(Masculino) `es-ES-ArnauNeural`(Masculino) `es-ES-DarioNeural`(Masculino) `es-ES-EliasNeural`(Masculino) `es-ES-EstrellaNeural`(Feminino) `es-ES-IreneNeural`(Feminino) `es-ES-LaiaNeural`(Feminino) `es-ES-LiaNeural`(Feminino) `es-ES-NilNeural`(Masculino) `es-ES-SaulNeural`(Masculino) `es-ES-TeoNeural`(Masculino) `es-ES-TrianaNeural`(Feminino) `es-ES-VeraNeural`(Feminino)
`ja-JP`	Japonês (Japão)	`ja-JP-AoiNeural`(Feminino) `ja-JP-DaichiNeural`(Masculino) `ja-JP-MayuNeural`(Feminino) `ja-JP-NaokiNeural`(Masculino) `ja-JP-ShioriNeural`(Feminino)
`ko-KR`	Coreano (Coreia do Sul)	`ko-KR-BongJinNeural`(Masculino) `ko-KR-GookMinNeural`(Masculino) `ko-KR-JiMinNeural`(Feminino) `ko-KR-SeoHyeonNeural`(Feminino) `ko-KR-SoonBokNeural`(Feminino) `ko-KR-YuJinNeural`(Feminino)
`wuu-CN`	Chinês (Wu, Simplificado)	`wuu-CN-XiaotongNeural` (Feminino) `wuu-CN-YunzheNeural` (Masculino)
`yue-CN`	Chinês (Cantonês, Simplificado)	`yue-CN-XiaoMinNeural` (Feminino) `yue-CN-YunSongNeural` (Masculino)

Atualizações gerais de voz TTS

Qualidade aprimorada das vozes fil-PH-AngeloNeural e fil-PH-BlessicaNeural.
As regras de normalização de texto são atualizadas para vozes com as localidades es-CL espanhola (Chile) e uz-UZ uzbeque (Uzbequistão).
Adição de letras em inglês às vozes com as localidades sq-AL albanesa (Albânia) e az-AZ azerbaijanesa (Azerbaijão).
Pronúncia em inglês aprimorada da voz zh-HK-WanLungNeural.
Tom de pergunta aprimorado das vozes nl-NL-MaartenNeural e pt-BR-AntonioNeural.
Suporte adicionado à marca <lang ="en-US"> para melhor pronúncia em inglês com as seguintes vozes: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural e it-IT-IsabellaNeural.
Suporte adicionado à marca style="chat" com as seguintes vozes: en-GB-RyanNeural, es-MX-JorgeNeural e it-IT-IsabellaNeural.
Suporte adicionado à marca style="cheerful" com as seguintes vozes: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural e it-IT-IsabellaNeural.
Suporte adicionado à marca style="sad" com as seguintes vozes: en-GB-SoniaNeural, fr-FR-DeniseNeural e fr-FR-HenriNeural.

Versão de setembro de 2022

Serviço de Voz TTS neural pré-criada

Todas as vozes neurais predefinidas foram atualizadas para vozes de alta fidelidade com taxa de amostragem de 48kHz.

Versão de agosto de 2022

Serviço de Voz TTS neural pré-criada

Lançamento de novas vozes em versão prévia:

Vozes de inglês (Estados Unidos): en-US-AIGenerate1Neural e en-US-AIGenerate2Neural.
Vozes para idiomas regionais chineses: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural e zh-CN-shandong-YunxiangNeural.

Para obter mais informações, consulte a lista de idiomas e vozes.

Versão de julho de 2022

Serviço de Voz TTS neural pré-criada

Adicionadas cinco novas vozes de zh-CN em chinês (mandarim, simplificado) e uma nova voz de en-US em inglês (Estados Unidos) na Visualização Pública. Confira a lista completa de vozes e idiomas.

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaomengNeural`^Novo	Geral, vários estilos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaoyiNeural`^Novo	Geral, vários estilos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaozhenNeural`^Novo	Geral, vários estilos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Masculino	`zh-CN-YunxiaNeural`^Novo	Geral, vários estilos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Masculino	`zh-CN-YunzeNeural`^Novo	Geral, vários estilos disponíveis usando SSML
Inglês (Estados Unidos)	`en-US`	Masculino	`en-US-RogerNeural`^Novo	Geral

Estilos e funções com suporte para as vozes neurais adicionadas.

Voz	Estilos	Grau de estilo	Funções
zh-CN-XiaomengNeural ^{Versão prévia pública}	`chat`	Com suporte
zh-CN-XiaoyiNeural ^{Versão prévia pública}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	Com suporte
zh-CN-XiaozhenNeural ^{Versão prévia pública}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Com suporte
zh-CN-YunxiaNeural ^{Versão prévia pública}	`angry`, `calm`, `cheerful`, `fearful`, `sad`	Com suporte
zh-CN-YunzeNeural ^{Versão prévia pública}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	Com suporte	Com suporte

Obter posição facial com viseme

Adicionado suporte para combinação de formas para conduzir os movimentos faciais de um caractere 3D que você projetou. Saiba mais sobre como obter a posição facial com viseme.
SSML atualizado para dar suporte ao elemento viseme. Consulte marcação de síntese de fala.

Versão de junho de 2022

Serviço de Voz TTS neural pré-criada

Foram adicionados 9 novos idiomas e variantes à Conversão de texto em fala neural:

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Árabe (Líbano)	`ar-LB`	Feminino	`ar-LB-LaylaNeural`^Novo	Geral
Árabe (Líbano)	`ar-LB`	Masculino	`ar-LB-RamiNeural`^Novo	Geral
Árabe (Omã)	`ar-OM`	Feminino	`ar-OM-AyshaNeural`^Novo	Geral
Árabe (Omã)	`ar-OM`	Masculino	`ar-OM-AbdullahNeural`^Novo	Geral
Azerbaijano (Azerbaijão)	`az-AZ`	Feminino	`az-AZ-BabekNeural`^Novo	Geral
Azerbaijano (Azerbaijão)	`az-AZ`	Masculino	`az-AZ-BanuNeural`^Novo	Geral
Bósnio (Bósnia e Herzegovina)	`bs-BA`	Feminino	`bs-BA-VesnaNeural`^Novo	Geral
Bósnio (Bósnia e Herzegovina)	`bs-BA`	Masculino	`bs-BA-GoranNeural`^Novo	Geral
Georgiano (Geórgia)	`ka-GE`	Feminino	`ka-GE-EkaNeural`^Novo	Geral
Georgiano (Geórgia)	`ka-GE`	Masculino	`ka-GE-GiorgiNeural`^Novo	Geral
Mongol (Mongólia)	`mn-MN`	Feminino	`mn-MN-YesuiNeural`^Novo	Geral
Mongol (Mongólia)	`mn-MN`	Masculino	`mn-MN-BataaNeural`^Novo	Geral
Nepalês (Nepal)	`ne-NP`	Feminino	`ne-NP-HemkalaNeural`^Novo	Geral
Nepalês (Nepal)	`ne-NP`	Masculino	`ne-NP-SagarNeural`^Novo	Geral
Albanês (Albânia)	`sq-AL`	Feminino	`sq-AL-AnilaNeural`^Novo	Geral
Albanês (Albânia)	`sq-AL`	Masculino	`sq-AL-IlirNeural`^Novo	Geral
Tâmil (Malásia)	`ta-MY`	Feminino	`ta-MY-KaniNeural`^Novo	Geral
Tâmil (Malásia)	`ta-MY`	Masculino	`ta-MY-SuryaNeural`^Novo	Geral

Vozes GA 36 da versão prévia pública para Inglês en-GB (Reino Unido), Francês fr-FR (França) e Alemão de-DE (Alemanha):

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-AbbiNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-BellaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-HollieNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-MaisieNeural`	Geral, voz infantil
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-OliviaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-SoniaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-AlfieNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ElliotNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-EthanNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-NoahNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-OliverNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ThomasNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-BrigitteNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CelesteNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CoralieNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-EloiseNeural`	Geral, voz infantil
Francês (França)	`fr-FR`	Feminino	`fr-FR-JacquelineNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JosephineNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-YvetteNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-AlainNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-ClaudeNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-JeromeNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-MauriceNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-YvesNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-AmalaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-ElkeNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-GiselaNeural`	Geral, voz infantil
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-KlarissaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-LouisaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-MajaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-TanjaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-BerndNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-ChristophNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KasperNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KillianNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KlausNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-RalfNeural`	Geral

Foram adicionadas 40 novas vozes de espanhol es-MX (México), italiano it-IT (Itália), português pt-BR (Brasil) e dois sotaques para chinês zh-CN (mandarim, simplificado) na versão prévia pública:

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Espanhol (México)	`es-MX`	Feminino	`es-MX-BeatrizNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-CarlotaNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-NuriaNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-RenataNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-LarissaNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-CandelaNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-MarinaNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-FiammaNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-IrmaNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-FabiolaNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-PalmiraNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-ImeldaNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-PierinaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-ElzaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-ManuelaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-BrendaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-LeilaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-YaraNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-GiovannaNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-LeticiaNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-CecilioNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-LibertoNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-LucianoNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-PelayoNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-YagoNeural`^Novo	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-GerardoNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-BenignoNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-CataldoNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-LisandroNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-CalimeroNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-RinaldoNeural`^Novo	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-GianniNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-DonatoNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-HumbertoNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-FabioNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-JulioNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-ValerioNeural`^Novo	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-NicolauNeural`^Novo	Geral
Chinês (mandarim, simplificado)	`zh-CN-sichuan`	Masculino	`zh-CN-sichuan-YunxiSichuanNeural`^Novo	Geral, sotaque de Sichuan
Chinês (mandarim, simplificado)	`zh-CN-liaoning`	Feminino	`zh-CN-liaoning-XiaobeiNeural`^Novo	Geral, sotaque de Liaoning

Qualidade aprimorada para en-SG-LunaNeural e en-SG-WayneNeural
Suporte a saída de 48 kHz para a versão prévia pública com en-US-JennyNeural, en-US-AriaNeural e zh-CN-XiaoxiaoNeural

Sintetização de voz personalizada

Habilitado para corrigir problemas de dados online. Saiba mais sobre como resolver os problemas de dados no Speech Studio.
Adicionada a versão da receita de treinamento. Saiba mais sobre como selecionar a versão da receita de treinamento para o modelo de voz.

Ferramenta de Criação de Conteúdo de Áudio

Paginação compatível.
Habilitado para classificar globalmente por nome, tipo de arquivo e tempo de atualização na página do arquivo de trabalho.

Versão de maio de 2022

Serviço de Voz TTS neural pré-criada

Lançadas cinco novas vozes em visualização pública com vários estilos para enriquecer a variedade em inglês americano. Confira a lista completa de vozes e idiomas.
Suporte para os novos estilos Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering na visualização pública para en-US-AriaNeural.
Suporte para os novos estilos Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering na visualização pública para en-US-GuyNeural, en-US-JennyNeural.
Suporte para os novos estilos Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified e Whispering na visualização pública para en-US-SaraNeural. Consulte estilos e funções de voz.
Lançamento de novas vozes zh-CN-YunjianNeuralzh-CN-YunhaoNeural e zh-CN-YunfengNeural em visualização pública. Confira a lista completa de vozes e idiomas.
Suporte para dois novos estilos sports-commentary, sports-commentary-excited na visualização pública para zh-CN-YunjianNeural. Consulte estilos e funções de voz.
Suporte para um novo estilo advertisement-upbeat na visualização pública para zh-CN-YunhaoNeural. Consulte estilos e funções de voz.
Os estilos cheerful e sad para fr-FR-DeniseNeural geralmente estão disponíveis em todas as regiões.
SSML atualizado para dar suporte a elementos MathML para vozes en-US e en-AU. Saiba mais na marcação de síntese de fala.

Sintetização de voz personalizada

Habilitado para cancelar o treinamento durante o modelo de voz de treinamento. Saiba mais sobre como cancelar o treinamento.
Habilitado para clonar o modelo (renomear modelo de voz). Saiba mais sobre como renomear seu modelo de voz.
Habilitado para testar o modelo de voz adicionando seu próprio script de teste. Saiba mais sobre como carregar seu script de teste.
Habilitado para atualizar a versão do mecanismo do modelo de voz. Saiba mais sobre como atualizar a versão do mecanismo do modelo.
Mais regiões de treinamento compatíveis. Confira suporte a regiões.
10 localidades compatíveis para a Voz Neural Personalizada Lite (versão prévia). Confira suporte a idiomas.

Ferramenta de Criação de Conteúdo de Áudio

Habilitado para experimentar a ferramenta Criação de Conteúdo de Áudio sem conectar.
Layout aprimorado para ajustar fonemas.
Desempenho aprimorado: especificado o número máximo (200) de arquivos a serem carregados ao mesmo tempo.
Desempenho aprimorado: especificado o nível máximo de profundidade do diretório (5 níveis).

Versão de março de 2022

Serviço de Voz TTS neural pré-criada

Adicionado suporte em versão prévia para os estilos Cheerful e Sad com fr-FR-DeniseNeural. Consulte estilos e funções de voz.
Liberados contêineres desconectados para vozes TTS neurais pré-criadas em versão prévia pública. Consulte Usar contêineres do Docker em ambientes desconectados.

Sintetização de voz personalizada

Controle de acesso baseado em função com suporte. Saiba mais sobre Controle de acesso baseado em função do Azure no Speech Studio
Pontos de extremidade privados e pontos de extremidade de serviço de rede virtual com suporte. Saiba mais sobre como usar pontos de extremidade privados com os serviços de fala.

Ferramenta de Criação de Conteúdo de Áudio

Atualizado o tamanho do arquivo e o limite de simultaneidade para recursos de camada gratuita (F0) para tornar a experiência consistente com o SDK de Fala e as APIs. Consulte cotas e limites do serviço de fala.

Versão de fevereiro de 2022

Sintetização de voz personalizada

Voz Neural Personalizada Lite lançada em versão prévia pública. Saiba mais sobre o que é a Voz Neural Personalizada Lite.
Suporte de idioma ampliado para 49 localidades. Confira suporte a idiomas.
Mais regiões/datacenters com suporte. Confira suporte a regiões.

Ferramenta de Criação de Conteúdo de Áudio

Removeu o limite de comprimento de saída para baixar áudios.

Versão de janeiro de 2022

Novos idiomas e vozes

Foram adicionados 10 novos idiomas e variantes à Conversão de texto em fala neural:

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Bengali (India)	`bn-IN`	Feminino	`bn-IN-TanishaaNeural`^Novo	Geral
Bengali (India)	`bn-IN`	Masculino	`bn-IN-BashkarNeural`^Novo	Geral
Islandês (Islândia)	`is-IS`	Feminino	`is-IS-GudrunNeural`^Novo	Geral
Islandês (Islândia)	`is-IS`	Masculino	`is-IS-GunnarNeural`^Novo	Geral
canarim (Índia)	`kn-IN`	Feminino	`kn-IN-SapnaNeural`^Novo	Geral
canarim (Índia)	`kn-IN`	Masculino	`kn-IN-GaganNeural`^Novo	Geral
Cazaque (Cazaquistão)	`kk-KZ`	Feminino	`kk-KZ-AigulNeural`^Novo	Geral
Cazaque (Cazaquistão)	`kk-KZ`	Masculino	`kk-KZ-DauletNeural`^Novo	Geral
Laosiano (Laos)	`lo-LA`	Feminino	`lo-LA-KeomanyNeural`^Novo	Geral
Laosiano (Laos)	`lo-LA`	Masculino	`lo-LA-ChanthavongNeural`^Novo	Geral
Macedônio (República da Macedônia do Norte)	`mk-MK`	Feminino	`mk-MK-MarijaNeural`^Novo	Geral
Macedônio (República da Macedônia do Norte)	`mk-MK`	Masculino	`mk-MK-AleksandarNeural`^Novo	Geral
Malaiala (Índia)	`ml-IN`	Feminino	`ml-IN-SobhanaNeural`^Novo	Geral
Malaiala (Índia)	`ml-IN`	Masculino	`ml-IN-MidhunNeural`^Novo	Geral
Pashto (Afeganistão)	`ps-AF`	Feminino	`ps-AF-LatifaNeural`^Novo	Geral
Pashto (Afeganistão)	`ps-AF`	Masculino	`ps-AF-GulNawazNeural`^Novo	Geral
Sérvio (Sérvia, cirílico)	`sr-RS`	Feminino	`sr-RS-SophieNeural`^Novo	Geral
Sérvio (Sérvia, cirílico)	`sr-RS`	Masculino	`sr-RS-NicholasNeural`^Novo	Geral
Cingalês (Sri Lanka)	`si-LK`	Feminino	`si-LK-ThiliniNeural`^Novo	Geral
Cingalês (Sri Lanka)	`si-LK`	Masculino	`si-LK-SameeraNeural`^Novo	Geral

Para ver uma lista completa de vozes disponíveis, confira Suporte de idiomas.

Novas vozes em versão prévia

Foram adicionadas novas vozes para en-GB, fr-FR e de-DE na versão prévia:

Idioma	Local	Gênero	Nome da voz	Suporte de estilo
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-AbbiNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-BellaNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-HollieNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-OliviaNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Menina	`en-GB-MaisieNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-AlfieNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ElliotNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-EthanNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-NoahNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-OliverNeural`^Novo	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ThomasNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-BrigitteNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CelesteNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CoralieNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JacquelineNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JosephineNeural`^Novo	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-YvetteNeural`^Novo	Geral
Francês (França)	`fr-FR`	Menina	`fr-FR-EloiseNeural`^Novo	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-AlainNeural`^Novo	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-ClaudeNeural`^Novo	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-JeromeNeural`^Novo	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-MauriceNeural`^Novo	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-YvesNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-AmalaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-ElkeNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-KlarissaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-LouisaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-MajaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-TanjaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Menina	`de-DE-GiselaNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-BerndNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-ChristophNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KasperNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KillianNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KlausNeural`^Novo	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-RalfNeural`^Novo	Geral

Para ver uma lista completa de vozes disponíveis, confira Suporte de idiomas.

Precisão da pronúncia

A pronúncia de palavras em inglês foi aprimorada em todas as vozes he-IL.
Precisão de pronúncia aprimorada no nível da palavra em cs-CZ e da-DK.
Melhoria nos diacríticos árabes e no tratamento dos nikuds do Hebraico.
Leitura de entidade aprimorada para ja-JP

Estúdio de Fala

Voz Neural Personalizada: teste de modelo adicional habilitado usando a API do lote (API de áudio longo)
Criação de Conteúdo de Áudio: mais formatos de saída habilitados

Versão de outubro de 2021

Novos idiomas e vozes

Foram adicionados 49 novos idiomas e 98 vozes à Conversão de texto em fala neural:

Adri em africâner af-ZA (África do Sul), Willem em africâner af-ZA (África do Sul), Mekdes em amárico am-ET (Etiópia), Ameha em amárico am-ET (Etiópia), Fatima em árabe ar-AE (Emirados Árabes Unidos), Hamdan em árabe ar-AE (Emirados Árabes Unidos), Laila em árabe ar-BH (Barein), Ali em árabe ar-BH (Barein), Amina em árabe ar-DZ (Argélia), Ismael em árabe ar-DZ (Argélia), Rana em árabe ar-IQ (Iraque), Bassel em árabe ar-IQ (Iraque), Sana em árabe ar-JO (Jordânia), Taim em árabe ar-JO (Jordânia), Noura em árabe ar-KW (Kuwait), Fahed em árabe ar-KW (Kuwait), Iman em árabe ar-LY (Líbia), Omar em árabe ar-LY (Líbia), Mouna em árabe ar-MA (Marrocos), Jamal em árabe ar-MA (Marrocos), Amal em árabe ar-QA (Catar), Moaz em árabe ar-QA (Catar), Amany em árabe ar-SY (Síria), Laith em árabe ar-SY (Síria), Reem em árabe ar-TN (Tunísia), Hedi em árabe ar-TN (Tunísia), Maryam em árabe ar-YE (Iêmen), Saleh em árabe ar-YE (Iêmen), Nabanita em bengali bn-BD (Bangladesh), Pradeep em bengali bn-BD (Bangladesh), Asilia em inglês en-KE (Quênia), Chilemba em inglês en-KE (Quênia), Ezinne em inglês en-NG (Nigéria), Abeo em inglês en-NG (Nigéria), Imani em inglês en-TZ (Tanzânia), Elimu em inglês en-TZ (Tanzânia), Sofia em espanhol es-BO (Bolívia), Marcelo em espanhol es-BO (Bolívia), Catalina em espanhol es-CL (Chile), Lorenzo em espanhol es-CL (Chile), Maria em espanhol es-CR (Costa Rica), Juan em espanhol es-CR (Costa Rica), Belkys em espanhol es-CU (Cuba), Manuel em espanhol es-CU (Cuba), Ramona em espanhol es-DO (República Dominicana), Emilio em espanhol es-DO (República Dominicana), Andrea em espanhol es-EC (Equador), Luis em espanhol es-EC (Equador), Teresa em espanhol es-GQ (Guiné Equatorial), Javier em espanhol es-GQ (Guiné Equatorial), Marta em espanhol es-GT (Guatemala), Andres em espanhol es-GT (Guatemala), Karla em espanhol es-HN (Honduras), Carlos em espanhol es-HN (Honduras), Yolanda em espanhol es-NI (Nicarágua), Federico em espanhol es-NI (Nicarágua), Margarita em espanhol es-PA (Panamá), Roberto em espanhol es-PA (Panamá), Camila em espanhol es-PE (Peru), Alex em espanhol es-PE (Peru), Karina em espanhol es-PR (Porto Rico), Victor em espanhol es-PR (Porto Rico), Tania em espanhol es-PY (Paraguai), Mario em espanhol es-PY (Paraguai), Lorena em espanhol es-SV (El Salvador), Rodrigo em espanhol es-SV (El Salvador), Valentina em espanhol es-UY (Uruguai), Mateo em espanhol es-UY (Uruguai), Paola em espanhol es-VE (Venezuela), Sebastian em espanhol es-VE (Venezuela), Dilara em persa fa-IR (Irã), Farid em persa fa-IR (Irã), Blessica em filipino fil-PH (Filipinas), Angelo em filipino fil-PH (Filipinas), Sabela em galego gl-ES, Roi em galego gl-ES, Siti em javanês jv-ID (Indonésia), Dimas em javanês jv-ID (Indonésia), Sreymom em khmer km-KH (Camboja), Piseth em khmer km-KH (Camboja), Nilar em birmanês my-MM (Myanmar), Thiha em birmanês my-MM (Myanmar), Ubax em somali so-SO (Somália), Muuse em somali so-SO (Somália), Tuti em sundanês su-ID (Indonésia), Jajang em sundanês su-ID (Indonésia), Rehema em suaíli sw-TZ (Tanzânia), Daudi em suaíli sw-TZ (Tanzânia), Saranya em tâmil ta-LK (Sri Lanka), Kumar em tâmil ta-LK (Sri Lanka), Venba em tâmil ta-SG (Singapura), Anbu em tâmil ta-SG (Singapura), Gul em urdu ur-IN (Índia), Salman em urdu ur-IN (Índia), Madina em uzbeque uz-UZ (Uzbequistão), Sardor em uzbeque uz-UZ (Uzbequistão), Thando em zulu zu-ZA (África do Sul) e Themba em zulu zu-ZA (África do Sul).

Versão de setembro de 2021

Nova voz do chatbot em en-US Inglês (EUA): Sara, representa uma jovem adulta que se comunica de forma mais casual e se adapta melhor aos cenários de chatbots.
Novos estilos adicionados para ja-JP a voz japonesa Nanami: três novos estilos agora estão disponíveis para Nanami: chat, atendimento ao cliente e alegre.
Melhoria geral na pronúncia: Ardi em id-ID, Premwadee em th-TH, Christel em da-DK, HoaiMy e NamMinh em vi-VN.
Duas novas vozes em zh-CN chinês (mandarim, China) em versão prévia: Xiaochen e Xiaoyan, otimizadas para cenários de fala espontânea e atendimento ao cliente.

Versão de julho de 2021

Atualizações da Conversão de texto em fala neural

Redução de erros de pronúncia em hebraico em 20%.

Atualizações do Speech Studio

Voz Neural Personalizada: atualização do pipeline de treinamento para UniTTSv3, que aprimora a qualidade do modelo e, ao mesmo tempo, reduz em 50% o tempo de treinamento para modelos acústicos.
Criação de Conteúdo de Áudio: correção do problema de desempenho de "Exportação" e o bug na seleção de voz neural personalizada.

Versão de junho de 2021

Atualizações do Speech Studio

Voz Neural Personalizada: o treinamento em Voz Neural Personalizada foi estendido para dar suporte ao Sudeste da Ásia. Foram lançados novos recursos para dar suporte à verificação do status de upload dos dados.
Criação de Conteúdo de Áudio: foi lançado um novo recurso para dar suporte ao léxico personalizado. Com esse recurso, os usuários podem criar arquivos de léxico facilmente e definir a pronúncia personalizada de sua saída de áudio.

Versão de maio de 2021

Adição de novos idiomas e vozes à TTS neural

Dez idiomas novos foram introduzidos – 20 vozes novas em 10 localidades novas foram adicionadas à lista de idiomas neurais do TTS: Yan em inglês (Hong Kong) en-HK, Sam em inglês (Hong Kong) en-HK, Molly em inglês (Nova Zelândia) en-NZ, Mitchell em inglês (Nova Zelândia) en-NZ, Luna em inglês (Singapura) en-SG, Wayne em inglês (Singapura) en-SG, Leah em inglês (África do Sul) en-ZA, Luke em inglês (África do Sul) en-ZA, Dhwani em guzerate (Índia) gu-IN, Niranjan em guzerate (Índia) gu-IN, Aarohi em marathi (Índia) mr-IN, Manohar em marathi (Índia) mr-IN, Elena em espanhol (Argentina) es-AR, Tomas em espanhol (Argentina) es-AR, Salome em espanhol (Colômbia) es-CO, Gonzalo em espanhol (Colômbia) es-CO, Paloma em espanhol (EUA) es-US, Alonso em espanhol (EUA) es-US, Zuri em suaíli (Quênia) sw-KE, Rafiki em suaíli (Quênia) sw-KE.
11 vozes novas em en-US na versão prévia – 11 vozes novas em en-US na versão prévia foram adicionadas ao inglês americano. São elas: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica e Jacob.
Cinco zh-CN vozes em chinês (mandarim, simplificado) geralmente estão disponíveis – 5 vozes em chinês (mandarim, simplificado) foram alteradas na versão prévia para se tornarem disponíveis em geral. Eles são Yunxi, Xiaomo, Xiaoman, Xiaoxuan e Xiaorui. Agora, essas vozes estão disponíveis em todas as regiões. O Yunxi foi adicionado com um novo estilo de "assistente", que é adequado para chat bot e agente de voz. Os estilos de voz do Xiaomo foram refinados para serem mais naturais e caracterizados.

Versão de abril de 2021

A Conversão de texto em fala neural está disponível em 21 regiões

Doze novas regiões foram adicionadas – A Conversão de texto em fala neural já está disponível nestas novas 12 regiões: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US e West US 2. Selecione aqui para obter uma lista completa das 21 regiões com suporte.

Versão de março de 2021

Adição de novos idiomas e vozes à TTS neural

Seis novos idiomas introduzidos: 12 novas vozes em seis novas localidades foram adicionadas à lista de idiomas da TTS neural: Nia em galês cy-GB (Reino Unido), Aled em galês cy-GB (Reino Unido), Rosa em inglês en-PH (Filipinas), James em inglês en-PH (Filipinas), Charline em francês fr-BE (Bélgica), Gerard em francês fr-BE (Bélgica), Dena em holandês nl-BE (Bélgica), Arnaud em holandês nl-BE (Bélgica), Polina em ucraniano uk-UA (Ucrânia), Ostap em ucraniano uk-UA (Ucrânia), Uzma em urdu ur-PK (Paquistão) e Asad em urdu ur-PK (Paquistão).
Cinco idiomas passaram da versão prévia para a GA – dez vozes em cinco localidades introduzidas em novembro já estão em GA: Kert em estoniano et-EE (Estônia), Colm em irlandês ga-IE (Irlanda), Nils em letão lv-LV (Letônia), Leonas em lituano lt-LT (Lituânia) e Joseph em maltês mt-MT (Malta).
Nova voz masculina adicionada ao francês (Canadá): uma nova voz Antoine está disponível para o francês fr-CA (Canadá).
Aprimoramento da qualidade: redução da taxa de erros de pronúncia em húngaro hu-HU, 48,17%, norueguês nb-NO, 52,76%, e holandês nl-NL (Países Baixos), 22,11%.

Com esta versão, agora damos suporte a um total de 142 vozes neurais em 60 idiomas/localidades. Além disso, mais de 70 vozes padrão estão disponíveis em 49 idiomas/localidades. Acesse Suporte de idiomas para obter a lista completa.

Obter eventos de pose facial para animar personagens

A Conversão de texto em fala neural agora inclui o evento viseme. Os eventos viseme permitem que os usuários obtenham uma sequência de poses faciais junto com a fala sintetizada. O viseme pode ser usado para controlar a movimentação de modelos de avatar 2D e 3D, combinando perfeitamente movimentos da boca com a fala sintetizada. No momento, os eventos viseme estão disponíveis somente para voz en-US-AriaNeural.

Adicionar o elemento indicador ao SSML (Speech Synthesis Markup Language)

O elemento indicador permite que você insira marcadores personalizados no SSML para obter o deslocamento de cada marcador no fluxo de áudio. Ele pode ser usado para referenciar uma localização específica na sequência de texto ou de marca.

Versão de fevereiro de 2021

GA da Voz Neural Personalizada

A Voz Neural Personalizada passou a ser GA em fevereiro em 13 idiomas: chinês (mandarim e simplificado), inglês (Austrália), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (Canadá), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), coreano (Coreia), português (Brasil), espanhol (México) e espanhol (Espanha). Saiba mais sobre o que é a Voz Neural Personalizada e como usá-la com responsabilidade. O recurso de Voz Neural Personalizada requer registro e a Microsoft poderá limitar o acesso com base em critérios próprios de qualificação. Saiba mais sobre o acesso limitado.

Versão de dezembro de 2020

Novas vozes neurais em GA e em versão prévia

Lançamos 51 novas vozes de um total de 129 vozes neurais em 54 idiomas/localidades:

46 novas vozes em localidades de GA: Shakir em ar-EG árabe (Egito), Hamed em ar-SA árabe (Arábia Saudita), Borislav em bg-BG búlgaro (Bulgária), Joana em ca-ES catalão, Antonin em cs-CZ tcheco (República Tcheca), Jeppe em da-DK dinamarquês (Dinamarca), Jonas em de-AT alemão (Áustria), Jan em de-CH alemão (Suíça), Nestoras em el-GR grego (Grécia), Liam em en-CA inglês (Canadá), Connor em inglês en-IE (Irlanda), Madhur em en-IN híndi (Índia), Mohan em en-IN télugo (Índia), Prabhat em en-IN inglês (Índia), Valluvar em en-IN tâmil (Índia), Enric em es-ES catalão, Kert em et-EE estoniano (Estônia), Harri em fi-FI finlandês (Finlândia), Selma em fi-FI finlandês (Finlândia), Fabrice em fr-CH francês (Suíça), Colm em ga-IE irlandês (Irlanda), Avri em he-IL hebraico (Israel), Srecko em hr-HR croata (Croácia), Tamas em hu-HU húngaro (Hungria), Gadis em id-ID indonésio (Indonésia), Leonas em lt-LT lituano (Lituânia), Nils em lv-LV letão (Letônia), Osman em ms-MY malaio (Malásia), Joseph em mt-MT maltês (Malta), Finn em nb-NO norueguês, Bokmål (Noruega), Pernille em nb-NO norueguês, Bokmål (Noruega), Fenna em nl-NL holandês (Países Baixos), Maarten em nl-NL holandês (Países Baixos), Agnieszka em pl-PL polonês (Polônia), Marek em pl-PL polonês (Polônia), Duarte em pt-BR português (Brasil), Raquel em pt-PT português (Portugal), Emil em ro-RO romeno (Romênia), Dmitry em ru-RU russo (Rússia), Svetlana em ru-RU russo (Rússia), Lukas em sk-SK eslovaco (Eslováquia), Rok em sl-SI esloveno (Eslovênia), Mattias em sv-SE sueco (Suécia), Sofie em sv-SE sueco (Suécia), Niwat em th-TH tailandês (Tailândia), Ahmet em tr-TR Turco (Turquia), NamMinh em vi-VN vietnamita (Vietnã), HsiaoChen em zh-TW taiwanês mandarim (Taiwan), YunJhe em zh-TW taiwanês mandarim (Taiwan), HiuMaan em zh-HK chinês cantonês (Região Administrativa Especial de Hong Kong), WanLung em zh-HKchinês cantonês (Hong Kong SAR).
Cinco novas vozes em localidades de versão prévia: Kert em estoniano et-EE (Estônia), Colm em irlandês ga-IE (Irlanda), Nils em letão lv-LV (Letônia), Leonas em lituano lt-LT (Lituânia) e Joseph em maltês mt-MT (Malta).

Com esta versão, agora damos suporte a um total de 129 vozes neurais em 54 idiomas/localidades. Além disso, mais de 70 vozes padrão estão disponíveis em 49 idiomas/localidades. Acesse Suporte de idiomas para obter a lista completa.

Atualizações da Criação de Conteúdo de Áudio

Aprimoramento da interface do usuário de seleção de voz com categorias de voz e descrições de voz detalhadas.
Habilitação do ajuste de entonação para todas as vozes neurais em diferentes idiomas.
Automatização da localização da interface do usuário com base no idioma do navegador.
Habilitação dos controles StyleDegree para todas as vozes neurais zh-CN. Acesse a ferramenta Criação de Conteúdo de Áudio para conferir os novos recursos.

Atualizações para as vozes zh-CN

Atualização de todas as vozes neurais zh-CN para dar suporte à fala em inglês.
Habilitação de todas as vozes neurais zh-CN para dar suporte ao ajuste de entonação. A ferramenta Criação de Conteúdo de Áudio ou o SSML pode ser usado para ajuste para a melhor entonação.
Atualização de todas as vozes neurais zh-CN de vários estilos para dar suporte ao controle StyleDegree. A intensidade de emoção (suave ou forte) é ajustável.
Atualização de zh-CN-YunyeNeural para dar suporte a vários estilos que podem expressar diferentes emoções.

Versão de novembro de 2020

Novas localidades e vozes em versão prévia

Cinco novas vozes e idiomas foram introduzidos no portfólio da Conversão de texto em fala neural. Elas são: Grace em maltês (Malta), Ona em lituano (Lituânia), Anu em estoniano (Estônia), Orla em irlandês (Irlanda) e Everita em letão (Letônia).
Cinco novas vozes zh-CN com vários estilos e funções dão suporte a: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan e Yunxi.

Essas vozes estão disponíveis em versão prévia pública em três regiões do Azure: EastUS, SouthEastAsia e WestEurope.

GA do Contêiner de Conversão de texto em fala neural

Com o Contêiner da Conversão de texto em fala neural, os desenvolvedores podem executar a sintetização de voz com as vozes digitais mais naturais em um ambiente próprio para atender a requisitos específicos de segurança e governança de dados. Confira como instalar os Contêineres de Fala.

Novos recursos

Voz Personalizada: habilitação dos usuários para copiar um modelo de voz de uma região para outra; suspensão e retomada de ponto de extremidade compatível. Acesse o portal aqui.
Suporte à marca de silêncio do SSML.
Aprimoramentos gerais da qualidade de voz na TTS: precisão de pronúncia aprimorada no nível da palavra em nb-NO. Redução de 53% em erros de pronúncia.

Leia mais neste blog de tecnologia.

Versão de outubro de 2020

Novos recursos

Jenny dá suporte a um novo estilo newscast. Confira como usar os estilos de fala no SSML.
Atualização das vozes neurais para o vocoder HiFiNet, com maior fidelidade de áudio e velocidade de sintetização mais rápida. Isso beneficia os clientes cujo cenário depende de interações Hi-Fi de áudio ou longas, incluindo dublagem de vídeo, audiolivros ou materiais de educação online. Leia mais sobre a história e ouça os exemplos de voz em nosso blog da comunidade de tecnologia
Voz personalizada e Estúdio de Criação de Conteúdo de Áudio localizado em 17 localidades. Os usuários podem alternar com facilidade a interface do usuário para um idioma local a fim de obter uma experiência mais amigável.
Criação de Conteúdo de Áudio: adição de controle de grau do estilo para XiaoxiaoNeural; ajuste do recurso de quebra personalizada para incluir quebras incrementais de 50ms.

Aprimoramentos gerais da qualidade de voz na TTS

Precisão de pronúncia aprimorada no nível da palavra em pl-PL (redução da taxa de erros: 51%) e em fi-FI (redução da taxa de erros: 58%)
Leitura de palavra única aprimorada em ja-JP para o cenário de dicionário. Redução de erros de pronúncia em 80%.
zh-CN-XiaoxiaoNeural: qualidade aprimorada da voz de estilo de sentimento/Atendimento ao Cliente/Noticiário/Alegre/Irritado.
zh-CN: aprimoramento da pronúncia de Erhua e do tom leve e da prosódia de espaço refinada, o que aprimora muito a inteligibilidade.

Versão de setembro de 2020

Novos recursos

Conversão de texto em fala neural
- Estendida para dar suporte a 18 novos idiomas/localidades. Eles são: búlgaro, tcheco, alemão (Áustria), alemão (Suíça), grego, inglês (Irlanda), francês (Suíça), hebraico, croata, húngaro, indonésio, malaio, romeno, eslovaco, esloveno, tâmil, télugo e vietnamita.
- Lançamento de 14 novas vozes para enriquecer a variedade de idiomas existentes. Confira a lista completa de vozes e idiomas.
- Novos estilos de fala para as vozes en-US e zh-CN. Jenny, a nova voz em inglês (EUA), dá suporte a estilos de chatbot, atendimento ao cliente e assistente. Dez novos estilos de fala estão disponíveis com a voz para XiaoXiao de zh-CN. Além disso, a voz neural para XiaoXiao dá suporte ao ajuste de StyleDegree. Confira como usar os estilos de fala no SSML.
Contêineres: Contêiner da Conversão de texto em fala neural lançado em versão prévia pública com 16 vozes disponíveis em 14 idiomas. Saiba mais sobre como implantar Contêineres de Fala para Conversão de texto em fala neural

Leia o comunicado completo das atualizações da TTS para o Ignite 2020

Versão de agosto de 2020

Novos recursos

Conversão de texto em fala neural: novo estilo de fala para a voz Aria en-US. A AriaNeural pode soar como uma jornalista ao ler notícias. O estilo 'newscast-formal' parece mais sério, enquanto o estilo 'newscast-casual' é mais descontraído e informal. Confira como usar os estilos de fala no SSML.
Voz Personalizada: um novo recurso foi liberado para verificar automaticamente a qualidade dos dados de treinamento. Quando você carregar seus dados, o sistema examinará vários aspectos dos dados de áudio e transcrição e corrigirá ou filtrará automaticamente os problemas para aprimorar a qualidade do modelo de voz. Isso abrange o volume do áudio, o nível de ruído, a precisão da pronúncia da fala, o alinhamento da fala com o texto normalizado, o silêncio no áudio, além do formato de áudio e de script.
Criação de Conteúdo de Áudio: um conjunto de novos recursos foi lançado para permitir um ajuste de voz mais eficiente e funcionalidades de gerenciamento de áudio.
- Pronúncia: o recurso de ajuste de pronúncia foi atualizado com o conjunto de fonemas mais recente. Você pode escolher o elemento de fonema correto da biblioteca e refinar a pronúncia das palavras selecionadas.
- Download: o recurso de "Download"/"Exportação" de áudio foi aprimorado para dar suporte à geração de áudio por parágrafo. Você pode editar o conteúdo no mesmo arquivo/SSML, enquanto gera várias saídas de áudio. A estrutura de arquivos de "Download" também foi refinada. Agora, você pode obter com facilidade todos os arquivos de áudio em uma pasta.
- Status da tarefa: a experiência de exportação de vários arquivos foi aprimorada. Quando você exportava vários arquivos anteriormente, se um dos arquivos falhava, a tarefa inteira também falhava. Mas, agora, todos os outros arquivos serão exportados com êxito. O relatório de tarefas foi enriquecido com informações mais detalhadas e estruturadas. Agora, você pode verificar os logs de todos os arquivos com falha e das frases com o relatório.
- Documentação do SSML: vinculada ao documento SSML para ajudar você a verificar as regras de como usar todos os recursos de ajuste.
A API de Lista de Vozes foi atualizada para incluir um nome de exibição amigável e os estilos de fala compatíveis com as vozes neurais.

Aprimoramentos gerais da qualidade de voz na TTS

Redução do percentual de erro de pronúncia no nível da palavra em ru-RU (erros reduzidos em 56%) e em sv-SE (erros reduzidos em 49%)
Aprimoramento da leitura de palavras polifônicas em vozes neurais em en-US em 40%. Entre os exemplos de palavras polifônicas estão "read", "live", "content", "record", "object" etc.
Aprimoramento da naturalidade do tom de pergunta em fr-FR. Ganho de MOS (pontuação média de opinião): +0,28
Atualização dos vocoders para as vozes a seguir, com aprimoramentos de fidelidade e velocidade geral de desempenho em 40%.

Locale Voz

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Locale	Voz
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Correções de bug

Correção de vários bugs na ferramenta Criação de Conteúdo de Áudio
- Correção de um problema com a atualização automática.
- Correção de problemas com os estilos de voz em zh-CN na região Sudeste da Ásia.
- Correção de um problema de estabilidade, incluindo um erro de exportação com a marca 'quebra' e erros de pontuação.

Lançamento de maio de 2024

Avaliação de pronúncia

Fala Avaliação de Pronúncia agora oferece suporte a 24 idiomas geralmente disponíveis (com um novo idioma adicionado), com mais 7 idiomas disponíveis na visualização pública. Para obter mais informações, consulte a lista de idiomas para Avaliação de Pronúncia completa.

Linguagem	Localidade (BCP-47)
Árabe (Egito)	`ar-EG`¹
Árabe (Arábia Saudita)	`ar-SA`
Catalão	`ca-ES`¹
Chinês (Cantonês tradicional)	`zh-HK`¹
Chinês (mandarim, simplificado)	`zh-CN`
Chinês (Mandarim Taiwanês, tradicional)	`zh-TW`¹
Holandês (Países Baixos)	`nl-NL`
Inglês (Austrália)	`en-AU`
Inglês (Canadá)	`en-CA`
Inglês (Índia)	`en-IN`
Inglês (Reino Unido)	`en-GB`
Inglês (Estados Unidos)	`en-US`
Finlandês (Finlândia)	`fi-FI`¹
Francês (Canadá)	`fr-CA`
Francês (França)	`fr-FR`
Alemão (Alemanha)	`de-DE`
Híndi (Índia)	`hi-IN`
Italiano (Itália)	`it-IT`
Japonês (Japão)	`ja-JP`
Coreano (Coreia do Sul)	`ko-KR`
Malaio (Malásia)	`ms-MY`
Norueguês Bokmål (Noruega)	`nb-NO`
Polonês (Polônia)	`pl-PL`¹
Português (Brasil)	`pt-BR`
Português (Portugal)	`pt-PT`¹
Russo (Rússia)	`ru-RU`
Espanhol (México)	`es-MX`
Espanhol (Espanha)	`es-ES`
Sueco (Suécia)	`sv-SE`
Tâmil (Índia)	`ta-IN`
Vietnamita (Vietnã)	`vi-VN`

¹ O idioma está em versão prévia pública para a avaliação de pronúncia.

Lançamento de abril de 2024

Tradução automática de fala multilíngue (Versão prévia)

A tradução automática de fala multilíngue está disponível em versão prévia pública. Esse recurso inovador revoluciona a maneira como as barreiras linguísticas são superadas, oferecendo recursos inigualáveis para uma comunicação perfeita em diversos cenários linguísticos.

Principais Destaques

Idioma de entrada não especificado: a tradução de fala multilíngue pode receber áudio em uma ampla variedade de idiomas, e não há necessidade de especificar qual é o idioma de entrada esperado. Isso o torna um recurso inestimável para entender e colaborar entre contextos globais sem a necessidade de predefinição.
Troca de idioma: a tradução de fala multilíngue permite que vários idiomas sejam falados durante a mesma sessão e que todos sejam traduzidos para o mesmo idioma de destino. Não há a necessidade de reiniciar uma sessão quando o idioma de entrada é alterado ou quando você realiza outras ações.

Como ele funciona

Intérprete de viagens: a tradução de fala multilíngue pode aprimorar a experiência dos turistas que visitam destinos estrangeiros, fornecendo-lhes informações e assistência no idioma da sua preferência. Serviços de concierge de hotéis, visitas guiadas e centros de visitantes podem usar essa tecnologia para atender a diversas necessidades linguísticas.
Conferências internacionais: a tradução de fala multilíngue pode facilitar a comunicação entre participantes de diferentes regiões que podem falar vários idiomas usando a legenda traduzida ao vivo. Os participantes podem falar nos seus idiomas nativos sem a necessidade de especificá-los, garantindo uma compreensão e colaboração perfeitas.
Reuniões educacionais: nas salas de aula multiculturais ou nos ambientes de aprendizagem online, a tradução de fala multilíngue pode apoiar a diversidade de idiomas entre alunos e professores. Ele permite a comunicação e a participação contínuas sem a necessidade de especificar o idioma de cada aluno ou instrutor.

Como acessar

Para obter uma introdução detalhada, visite Visão geral da tradução de fala. Além disso, você pode consultar os exemplos de código em como traduzir a fala. Esse novo recurso é totalmente compatível com todas as versões do SDK a partir da 1.37.0.

Conversão de fala em texto em tempo real com GA (diarização)

A conversão de fala em texto em tempo real com diarização agora está disponível em tempo real.

Você pode criar aplicativos de conversão de fala em texto que usam a diarização para distinguir entre os diferentes falantes que participam da conversa. Para obter mais informações sobre a diarização em tempo real, consulte o início rápido de diarização em tempo real.

Atualização do modelo de Conversão de Fala em Texto

A Conversão de Fala em Texto em tempo real lançou novos modelos com funcionalidades bilíngues. O modelo en-IN já dá suporte aos cenários bilíngues em inglês e hindi, proporcionando maior precisão. As localidades árabes (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) agora contam com suporte bilíngue para inglês, maior precisão e suporte a call centers.

A Transcrição em lote lançou modelos com uma nova arquitetura para es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, e zh-CN. Esses modelos aprimoram significativamente a leitura e o reconhecimento de entidades.

Versão de março de 2024

Disponibilidade geral do Whisper (GA)

O modelo Whisper de fala para texto com Azure AI Speech já está em disponibilidade geral.

ConsulteO que é o modelo Whisper? para saber mais sobre quando usar a Fala de IA do Azure versus o Serviço OpenAI do Azure.

Versão de fevereiro de 2024

Avaliação de pronúncia

Agora, a Avaliação de Pronúncia do Serviço Cognitivo do Azure para Fala tem suporte para 23 idiomas em disponibilidade geral (com 5 novos idiomas adicionados) e 3 outros idiomas disponíveis em visualização pública. Para obter mais informações, consulte a lista de idiomas para Avaliação de Pronúncia completa.

Lista de frases

Suporte adicionado à lista de frases para as seguintes localidades: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Versão de novembro de 2023

Apresentando a modelagem de fala bilíngue!

Estamos entusiasmados em revelar uma adição inovadora à nossa modelagem de fala em tempo real — a Modelagem de Fala Bilíngue. Esse aprimoramento significativo permite que nosso modelo de fala dê suporte contínuo a pares de idiomas bilíngues, como inglês e espanhol, bem como inglês e francês. Esse recurso capacita os usuários a alternar sem esforço entre idiomas durante interações em tempo real, marcando um momento crucial em nosso compromisso de aprimorar as experiências de comunicação.

Principais destaques:

Suporte Bilíngue: com nossa versão mais recente, os usuários podem alternar perfeitamente entre inglês e espanhol ou entre inglês e francês durante interações de fala em tempo real. Essa funcionalidade é adaptada para acomodar falantes bilíngues que fazem a transição com frequência entre esses dois idiomas.
Experiência Avançada do Usuário: os usuários bilíngues, seja no trabalho, na casa ou em várias configurações da comunidade, acharão esse recurso muito benéfico. A capacidade do modelo de compreender e responder ao inglês e ao espanhol em tempo real abre novas possibilidades de comunicação eficaz e fluida.

Como usar:

Escolha es-US (espanhol e inglês) ou fr-CA (francês e inglês) ao chamar a API do Serviço de Fala ou experimentá-la no Speech Studio. Fique à vontade para falar um idioma ou misturá-los — o modelo foi projetado para se adaptar dinamicamente, fornecendo respostas precisas e com reconhecimento de contexto em ambos os idiomas.

É hora de elevar seu jogo de comunicação com nosso mais recente lançamento de recursos - comunicação multilíngue perfeita ao seu alcance!

Atualização de modelos de conversão de fala em texto

Estamos entusiasmados em introduzir uma atualização significativa em nossos modelos de fala, prometendo precisão aprimorada, melhor legibilidade e refinado reconhecimento de entidade. Essa atualização vem com uma nova estrutura robusta, reforçada por um conjunto de dados de treinamento expandido, garantindo um avanço acentuado no desempenho geral. Ela inclui modelos recém-lançados para en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE e he-IL.

Destaques:

Melhor precisão com a nova estrutura de modelo: a estrutura do modelo redefinido, juntamente com um conjunto de dados de treinamento mais avançado, eleva os níveis de precisão, prometendo uma saída de fala mais precisa.
Melhoria da legibilidade: nosso modelo mais recente traz um aumento substancial na legibilidade, melhorando a coerência e a clareza do conteúdo falado.
Reconhecimento de entidade avançado: o reconhecimento de entidade recebe uma atualização substancial, resultando em resultados mais precisos e com mais nuances.

Possíveis impactos: apesar desses avanços, é crucial estar atento a possíveis impactos:

Recurso de tempo limite de silêncio personalizado: os usuários que empregam o tempo limite de silêncio personalizado, especialmente com configurações baixas, podem encontrar segmentação excessiva e possíveis omissões de frases de palavras únicas.
O novo modelo pode apresentar problemas de compatibilidade com o recurso de prefixo de palavra-chave e os usuários são aconselhados a avaliar seu desempenho em seus aplicativos específicos.
Menos palavras ou frases com disfluência: os usuários podem notar uma redução nas palavras ou frases com disfluência como "um" ou "uh" na saída da fala.
Imprecisões na duração do carimbo de data/hora das palavras: algumas palavras com disfluência podem apresentar imprecisões na duração do carimbo de data/hora, exigindo atenção em aplicativos dependentes de tempo preciso.
Variação na distribuição das pontuações de confiança: os usuários que dependem de pontuações de confiança e limites associados devem estar cientes das possíveis variações na distribuição, exigindo ajustes para um desempenho ideal.
O aumento de precisão do recurso de lista de frases pode ser afetado pelo reconhecimento incorreto de determinadas frases.

Incentivamos você a explorar essas melhorias e a considerar possíveis problemas para uma transição perfeita e, como sempre, seus comentários são fundamentais para refinar e avançar nossos serviços.

Avaliação de pronúncia

Agora a avaliação da pronúncia de fala tem suporte para 18 idiomas em disponibilidade geral, com seis idiomas adicionais disponíveis em versão prévia pública. Para obter mais informações, consulte a lista de idiomas para Avaliação de Pronúncia completa.
Estamos entusiasmados em anunciar que a avaliação da pronúncia está apresentando novos recursos desde 1º de novembro de 2023: prosódia, gramática, vocabulário e tópico. Esses aprimoramentos visam fornecer uma experiência de aprendizado de idioma ainda mais abrangente para avaliações de leitura e de fala. Atualize para SDK versão 1.35.0 ou posterior para explorar mais detalhes em Como usar a avaliação de pronúncia e Avaliação de pronúncia no Speech Studio.

Versão de setembro de 2023

Visualização pública do Whisper

A Fala de IA do Azure agora dá suporte ao modelo Whisper do OpenAI por meio da API de transcrição em lote. Para saber mais, marcar o guia Criar uma transcrição em lote.

Observação

O Serviço OpenAI do Azure também dá suporte ao modelo Whisper do OpenAI para conversão de fala em texto com uma API REST síncrona. Para saber mais, confira este início rápido.

ConsulteO que é o modelo Whisper? para saber mais sobre quando usar a Fala de IA do Azure versus o Serviço OpenAI do Azure.

Versão prévia da API REST de conversão de fala em texto v3.2

A API REST de conversão de fala em texto v3.2 está disponível em versão prévia. A API REST de Conversão de fala em texto v3.1 está em disponibilidade geral. A API REST de conversão de fala em texto v3.0 será desativada em 1º de abril de 2026. Para obter mais informações, consulte os guias de migração Conversão de fala em texto da API REST v3.0 para v3.1 e v3.1 para v3.2.

Versão de agosto de 2023

Novas localidades da Conversão de fala em texto:

A conversão de fala em texto dá suporte a duas novas localidades, conforme mostrado na tabela a seguir. Consulte a lista completa de idiomas aqui.

Localidade	Idioma
`pa-IN`	panjabi (Índia)
`ur-IN`	Urdu (Índia)

Avaliação de pronúncia

A Avaliação de Pronúncia de Fala agora dá suporte a três idiomas adicionais, em disponibilidade geral em inglês (Canadá), inglês (Índia) e francês (Canadá), com três idiomas adicionais disponíveis em versão prévia. Para obter mais informações, consulte a lista de idiomas para Avaliação de Pronúncia completa.

A versão de maio de 2023

Avaliação de pronúncia

A Avaliação de Pronúncia de Fala agora tem suporte para 3 idiomas adicionais, geralmente disponíveis em alemão (Alemanha), japonês (Japão) e espanhol (México), com 4 idiomas adicionais disponíveis em versão preliminar. Para obter mais informações, consulte a lista de idiomas para Avaliação de Pronúncia completa.
Agora você pode usar o nível de compromisso Standard de Conversão de Fala em Texto para avaliação de pronúncia em todas as regiões públicas. Se você comprar um nível de compromisso para conversão de fala em texto padrão, o gasto pela avaliação de pronúncia servirá para atender ao compromisso. Consulte os preços do nível de compromisso.

Versão de fevereiro de 2023

Avaliação de pronúncia

A Avaliação de Pronúncia de Fala agora dá suporte a cinco idiomas adicionais geralmente disponíveis em inglês (Reino Unido), inglês (Austrália), francês (França), espanhol (Espanha) e chinês (mandarim, simplificado), com outros idiomas disponíveis em versão prévia.
Adicionando códigos de exemplo mostrando como usar a Avaliação de Pronúncia em modo streaming em seu próprio aplicativo.
- C#: Consulte código de exemplo.
- C++: Consulte código de exemplo.
- java: Consulte código de exemplo.
- javascript: Consulte código de exemplo.
- Objective-C: consulte o código de exemplo.
- Python: consulte o código de exemplo.
- Swift: consulte o código de exemplo.

Fala Personalizada

O suporte para áudio e transcrição com rótulo humano é adicionado para localidades de-AT.

Versão de janeiro de 2023

Fala Personalizada

O suporte para áudio e transcrição com rótulo humano é adicionado para localidades adicionais: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE e ja-JP.

O suporte para a adaptação de texto estruturado foi adicionado para a localidade de-AT.

Versão de dezembro de 2022

API REST de conversão de fala em texto

A versão 3.1 da API REST de Conversão de fala em texto está geralmente disponível. A versão 3.0 da API REST da Conversão de fala em texto será desativada. Para obter mais informações sobre como migrar, consulte o guia.

Versão de outubro de 2022

Nova localidade da conversão de fala em texto

Adicionado suporte para Malayalam (Índia) com a localidade ml-IN. Veja a lista completa de idiomas aqui.

Versão de julho de 2022

Novas localidades da Conversão de fala em texto:

Foram adicionadas sete novas localidades, conforme mostrado na tabela a seguir. Veja a lista completa de idiomas aqui.

Local	Linguagem
`bs-BA`	Bósnio (Bósnia e Herzegovina)
`yue-CN`	Chinês (Cantonês, Simplificado)
`zh-CN-sichuan`	Chinês (Mandarim do Sudoeste, Simplificado)
`wuu-CN`	Chinês (Wu, Simplificado)
`ps-AF`	Pashto (Afeganistão)
`so-SO`	Somali (Somália)
`cy-GB`	Galês (Reino Unido)

Versão de junho de 2022

Novas localidades da Conversão de fala em texto:

Foram adicionadas dez novas localidades, conforme mostrado na tabela a seguir. Veja a lista completa de idiomas aqui.

Local	Linguagem
`sq-AL`	Albanês (Albânia)
`hy-AM`	Armênio (Armênia)
`az-AZ`	Azerbaijano (Azerbaijão)
`eu-ES`	Basco
`gl-ES`	Galego
`ka-GE`	Georgiano (Geórgia)
`it-CH`	Italiano (Suíça)
`kk-KZ`	Cazaque (Cazaquistão)
`mn-MN`	Mongol (Mongólia)
`ne-NP`	Nepalês (Nepal)

Versão de abril de 2022

Novas localidades da Conversão de fala em texto:

Veja abaixo uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Local	Linguagem
`bn-IN`	Bengali (India)

Versão de janeiro de 2022

Novas localidades da Conversão de fala em texto:

Veja abaixo uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Local	Linguagem
`af-ZA`	Africâner (África do Sul)
`am-ET`	Amárico (Etiópia)
`de-CH`	Alemão (Suíça)
`fr-BE`	Francês (Bélgica)
`is-IS`	Islandês (Islândia)
`jv-ID`	Javanês (Indonésia)
`km-KH`	Khmer (Camboja)
`kn-IN`	canarim (Índia)
`lo-LA`	Laosiano (Laos)
`mk-MK`	Macedônio (Macedônia do Norte)
`my-MM`	Birmanês (Mianmar)
`nl-BE`	Holandês (Bélgica)
`si-LK`	Cingalês (Sri Lanka)
`sr-RS`	Sérvio (Sérvia)
`sw-TZ`	Suaíli (Tanzânia)
`uk-UA`	Ucraniano (Ucrânia)
`uz-UZ`	Uzbeque (Uzbequistão)
`zu-ZA`	Zulu (África do Sul)

Versão de julho de 2021

Novas localidades da Conversão de fala em texto:

Veja abaixo uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Local	Linguagem
`ar-DZ`	Árabe (Argélia)
`ar-LY`	Árabe (Líbia)
`ar-MA`	Árabe (Marrocos)
`ar-TN`	Árabe (Tunísia)
`ar-YE`	Árabe (Iêmen)
`bg-BG`	Búlgaro (Bulgária)
`el-GR`	Grego (Grécia)
`et-EE`	Estoniano (Estônia)
`fa-IR`	Persa (Irã)
`ga-IE`	Irlandês (Irlanda)
`hr-HR`	Croata (Croácia)
`lt-LT`	Lituano (Lituânia)
`lv-LV`	Letão (Letônia)
`mt-MT`	Maltês (Malta)
`ro-RO`	Romeno (Romênia)
`sk-SK`	Eslovaco (Eslováquia)
`sl-SI`	Esloveno (Eslovênia)
`sw-KE`	Suaíle (Quênia)

Versão de janeiro de 2021

Novas localidades da Conversão de fala em texto:

Veja abaixo uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Local	Linguagem
`ar-AE`	Árabe (Emirados Árabes Unidos)
`ar-IL`	Árabe (Israel)
`ar-IQ`	Árabe (Iraque)
`ar-OM`	Árabe (Omã)
`ar-PS`	Árabe (Autoridade Palestina)
`de-AT`	Alemão (Áustria)
`en-GH`	Inglês (Gana)
`en-KE`	Inglês (Quênia)
`en-NG`	Inglês (Nigéria)
`en-TZ`	Inglês (Tanzânia)
`es-GQ`	Espanhol (Guiné Equatorial)
`fil-PH`	Filipino (Filipinas)
`fr-CH`	Francês (Suíça)
`he-IL`	Hebraico (Israel)
`id-ID`	Indonésio (Indonésia)
`ms-MY`	Malaio (Malásia)
`vi-VN`	Vietnamita (Vietnã)

Versão de agosto de 2020

Novas localidades da conversão de fala em texto:

A conversão de fala em texto lançou 26 novas localidades em agosto: dois idiomas europeus, cs-CZ e hu-HU, cinco localidades do inglês e 19 localidades do espanhol que abrangem a maioria dos países/regiões da América do Sul. Veja abaixo uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Local	Linguagem
`cs-CZ`	Tcheco (República Tcheca)
`en-HK`	Inglês (Região Administrativa Especial de Hong Kong)
`en-IE`	Inglês (Irlanda)
`en-PH`	Inglês (Filipinas)
`en-SG`	Inglês (Singapura)
`en-ZA`	Inglês (África do Sul)
`es-AR`	Espanhol (Argentina)
`es-BO`	Espanhol (Bolívia)
`es-CL`	Espanhol (Chile)
`es-CO`	Espanhol (Colômbia)
`es-CR`	Espanhol (Costa Rica)
`es-CU`	Espanhol (Cuba)
`es-DO`	Espanhol (República Dominicana)
`es-EC`	Espanhol (Equador)
`es-GT`	Espanhol (Guatemala)
`es-HN`	Espanhol (Honduras)
`es-NI`	Espanhol (Nicarágua)
`es-PA`	Espanhol (Panamá)
`es-PE`	Espanhol (Peru)
`es-PR`	Espanhol (Porto Rico)
`es-PY`	Espanhol (Paraguai)
`es-SV`	Espanhol (El Salvador)
`es-US`	Espanhol (EUA)
`es-UY`	Espanhol (Uruguai)
`es-VE`	Espanhol (Venezuela)
`hu-HU`	Húngaro (Hungria)

Versão de fevereiro de 2024

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizada 4.6.0
Conversão de fala em texto 4.6.0
Conversão de texto em fala neural 3.1.0

Atualize os componentes de conversão de fala em texto para o mais recente. Atualize todos os modelos de localidade es para o mais recente. Aumente o buffer de transformação de mídia para casos de uso de conversão de fala em texto.

Versão de novembro de 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizada 4.5.0
Conversão de fala em texto 4.5.0
Conversão de texto em fala neural 2.19.0

Versão de outubro de 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala para texto personalizada 4.4.0
Conversão de fala em texto 4.4.0
Conversão de texto em fala neural 2.18.0

Corrija vários problemas de vulnerabilidade de alto risco.

Remova logs redundantes em contêineres.

Atualize o componente de mídia interno para o mais recente.

Adicione suporte para voz en-IN-NeerjaNeural.

versão de setembro de 2023

Adicionar suporte para as últimas versões do modelo:

Identificação de idioma de fala 1.12.0
Conversão de fala em texto personalizada 4.3.0
Conversão de fala em texto 4.3.0
Conversão neural de texto em fala 2.17.0

Atualize a conversão de fala em texto e a conversão de fala em texto personalizada para a estrutura mais recente.

Correção de problemas de vulnerabilidade.

Adicione suporte para voz ar-AE-FatimaNeural.

Versão de julho de 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizada 4.1.0
Conversão de fala em texto 4.1.0
Conversão de texto em fala neural 2.15.0

Correção do problema de execução do contêiner de conversão de fala em texto por meio de opções de montagem docker com arquivos de modelo personalizados locais.

Correção do problema que, em alguns casos, o evento RECOGNIZING não aparece em resposta por meio do SDK de Fala.

Correção de problemas de vulnerabilidade.

Versão de junho de 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizada 4.0.0
Conversão de fala em texto 4.0.0
Conversão de texto em fala neural 2.14.0

As imagens de conversão de fala em texto local são atualizadas para .NET 6.0

Atualizar modelos de exibição para localidades incluindo en-us, ar-eg, ar-bh, ja-jp, ko-kr e muito mais.

Atualize o componente de contêiner de conversão de fala em texto para resolver problemas de vulnerabilidade.

Adicione suporte para estas vozes de localidade de-DE-AmalaNeural,de-AT-IngridNeural,de-AT-JonasNeural e en-US-JennyMultilingualNeural

Versão de maio de 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizada 3.14.0
Conversão de fala em texto 3.14.0
Conversão de texto em fala neural 2.13.0

Corrigir o problema de pontuação he-IL

Correção de problema de vulnerabilidade

Adicionar nova voz de localidade en-US-MichelleNeurale es-MX-CandelaNeural

Versão de abril de 2023

Atualizações de Segurança

Correção de problema de vulnerabilidade

Versão de março 2023

Adicionar suporte para as últimas versões do modelo:

Conversão de fala em texto personalizado 3.12.0
Conversão de fala em texto 3.12.0
Identificação de idioma de Fala 1.11.0
Conversão de texto em fala neural 2.11.0

Correção de problema de vulnerabilidade

Corrigir o problema de capitalização tr-TR

Atualizar os modos de exibição en-US de conversão de fala em texto

Adicionar suporte de voz para configurações regionais de Conversão de texto em fala neural predefinidas ar-AE-HamdanNeural

Versão de fevereiro de 2023

Novas versões de contêiner

Adicionar suporte para as versões mais recentes do modelo:

Conversão de fala em texto personalizado 3.11.0
Conversão de fala em texto 3.11.0
Conversão de texto em fala neural 2.10.0

Correção de problema de vulnerabilidade

Atualização regular para modelos de fala

Adicionar novas localidades árabes:

ar-IL
ar-PS

Atualizar modelos de exibição hebraicos e turcos

Versão de janeiro de 2023

Novas versões de contêiner

Adicionar suporte para as versões mais recentes do modelo:

Conversão de fala em texto personalizado 3.10.0
Conversão de fala em texto 3.10.0
Conversão de texto em fala neural 2.9.0

Correção de problema de modo de Hipótese

Correção de problema de Proxy HTTP

Modo desconectado do contêiner de conversão de fala em texto personalizado

Adicionar suporte a contêiner Desconectado de CNV para Front-End de TTS

Adicione suporte para estas vozes de localidade:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Versão de dezembro de 2022

Novas versões de contêiner

Adicionar suporte para as versões mais recentes do modelo:

Conversão de fala em texto personalizado 3.9.0
Conversão de fala em texto 3.9.0
Conversão de texto em fala neural 2.8.0

Correção do problema de ipv4/ipv6

Correção de problema de vulnerabilidade

Versão de novembro de 2022

Novas versões de contêiner

Adicionar suporte para as versões mais recentes do modelo:

Conversão de fala em texto personalizado 3.8.0
Conversão de fala em texto 3.8.0
Conversão de texto em fala neural 2.7.0

Versão de outubro de 2022

Novas versões de contêiner

Adicionar suporte para as versões mais recentes do modelo:

Conversão de fala em texto personalizado 3.7.0
Conversão de fala em texto 3.7.0
Conversão de texto em fala neural 2.6.0

Versão de setembro de 2022

Conversão de fala em texto 3.6.0-amd64

Adicionar suporte a versões mais recentes do modelo.

Adicionar suporte a estas localidades:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidade.

Conversão de fala em texto personalizado 3.6.0-amd64

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidade.

Conversão de texto em fala neural v2.5.0

Adicionar suporte a essas vozes neurais predefinidas:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidade.

Versão de maio de 2022

Speech-language-detection Container v1.9.0-amd64-preview

Correções de bug para speech-language-detection.

Versão de março de 2022

Contêiner da conversão de fala em texto v3.1.0

Adicione suporte para obter modelos de exibição.

Versão de janeiro de 2022

Contêiner da conversão de fala em texto v3.0.0

Adicionar suporte para o uso de contêineres em ambientes desconectados.

Contêiner da conversão de fala em texto v2.18.0

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidade.

Contêiner da conversão de texto em fala neural v1.12.0

Adicionar suporte a estas vozes neurais predefinidas: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural e so-so-ubaxneural.

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidade.