O que há de novo na Fala de IA do Azure?

A Fala de IA do Azure é atualizada continuamente. Para mantê-lo atualizado com os desenvolvimentos mais recentes, este artigo fornece informações sobre novas versões e novos recursos.

Destaques recentes

Notas de versão

Escolher um serviço ou um recurso

Planos futuros para usuários do Linux e Android:

Cuidado

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planejamento adequadamente. Para obter mais informações, veja as orientações sobre fim da vida útil do CentOS.

  • Ubuntu 18.04 também atingiu o fim da vida útil em abril de 2023, então nossos usuários devem se preparar para movermos nossa versão mínima para o Ubuntu 20.04.

SDK de Fala 1.37.0: versão de abril de 2024

Novos recursos

  • Adicione suporte para streaming de texto de entrada na síntese de fala.
  • Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
  • Atualize builds do Android para usar o OpenSSL 3.x.

Correções de bug

Exemplos

  • Atualizado para novos recursos.

Serviço Cognitivo do Azure para Fala SDK 1.36.0: versão de março de 2024

Novos recursos

  • Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().

Correções de bug

  • Correção do evento SynthesisCanceled não disparado se parar for chamado durante o evento Synthesis Started (iniciado).

  • Corrija um problema de ruído na síntese de fala incorporada.

  • Corrigida uma falha no reconhecimento de fala integrado ao executar vários reconhecedores em paralelo.

  • Corrija a configuração do modo de detecção de frase nos pontos de extremidade v1/v2.

  • Correções para vários problemas com o Microsoft Audio Stack.

Exemplos

  • Atualizações para novos recursos.

SDK de Fala 1.35.0: versão de fevereiro de 2024

Novos recursos

  • Alterar a voz padrão da conversão de texto em fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
  • Suporte a detalhes em nível de palavra nos resultados da tradução de fala inserida usando o formato de saída detalhado.

Correções de bug

  • Corrigir a API do getter de posição do AudioDataStream em Python.
  • Corrigir a tradução de fala usando pontos de extremidade v2 sem detecção de idioma.
  • Corrigir uma falha aleatória e de eventos de limite de palavras duplicados na conversão de texto em fala inserida.
  • Retorna um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
  • Correção da falha no carregamento da biblioteca FPIEProcessor.dll quando o MAS é usado com C#.

Exemplos

  • Pequenas atualizações de formatação para amostras de reconhecimento inserido.

SDK de Fala 1.34.1: versão de janeiro de 2024

Alterações da falha

  • Somente correções de bug

Novos recursos

  • Somente correções de bug

Correções de bug

  • Correção da regressão introduzida na 1.34.0 na qual a URL do ponto de extremidade de serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.

SDK de Fala 1.34.0: versão de novembro de 2023

Alterações de quebra

  • SpeechRecognizer foi atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente um URL) que não dá mais suporte a parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.

Novos recursos

  • Compatibilidade com o .NET 8 (correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
  • Suporte para métricas de desempenho de fala inseridas que podem ser usadas para avaliar a capacidade de um dispositivo para executar a fala inserida.
  • Suporte para identificação de idioma de origem na tradução multilíngue inserida.
  • O suporte à conversão inserida de fala em texto, de texto em fala e tradução para iOS e Swift/Objective-C foi lançado em versão prévia.
  • O suporte inserido é fornecido no Cocoapod MicrosoftCognitiveServicesSpeechEmbedded-iOS.

Correções de bug

  • Correção do SDK do iOS 2 vezes o crescimento do tamanho binário · Problema nº 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção para Não foi possível obter carimbos de data/hora no nível da palavra na API de conversão de fala em texto do Azure · Problema nº 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção da fase de destruição DialogServiceConnector para desconectar eventos corretamente. Isso estava causando falhas ocasionalmente.
  • Correção para exceção durante a criação de um reconhecedor quando MAS é usado.
  • FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e ARM64 tinha dependência em bibliotecas de runtime de VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de runtime de VC (para UWP).
  • Correção para chamadas recorrentes [MAS] para recognizeOnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Problema nº 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção para falha de reconhecimento de fala inserida quando as listas de frases são usadas.

Exemplos

  • Amostras de conversão inserida de fala em texto, de texto em fala e tradução para iOS.

CLI de Fala 1.34.0: versão de novembro de 2023

Novos recursos

  • Suporte à saída de eventos de limite de palavras ao sintetizar a fala.

Correções de bug

  • A dependência do JMESPath atualizada para a versão mais recente melhora as avaliações de cadeia de caracteres

SDK de Fala 1.33.0: versão de outubro de 2023

Aviso de alteração interruptiva

  • O novo pacote NuGet adicionado para o MAS (Microsoft Audio Stack) agora é necessário para ser incluído por aplicativos que estão usando MAS nos respectivos arquivos de configuração de pacote.

Novos recursos

  • Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que fornece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
  • Avaliação de pronúncia: adição de suporte para avaliação de conteúdo e prosódia, que pode avaliar a fala em termos de prosódia, vocabulário, gramática e tópico.

Correções de bug

Exemplos

CLI de Fala 1.33.0: versão de outubro de 2023

Novos recursos

  • Suporte à saída de eventos de limite de palavras ao sintetizar a fala.

Correções de bug

  • nenhum

SDK de Fala 1.32.1: versão de setembro de 2023

Correções de bug

  • Atualizações de pacotes do Android com as correções de segurança mais recentes do OpenSSL1.1.1v
  • JS – propriedade WebWorkerLoadType adicionada para permitir o bypass do carregamento de URL de dados para o trabalho de tempo limite
  • JS – Corrigir a desconexão da Tradução de Conversa após 10 minutos
  • JS – O token de autenticação da Tradução de Conversa a partir da Conversa agora se propaga para a conexão do serviço de Tradução

Exemplos

SDK de Fala 1.31.0: versão de agosto de 2023

Novos recursos

  • O suporte para a diarização em tempo real está disponível em visualização pública com o SDK de Fala 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.

  • O limite de palavras de síntese de fala sincronizada e eventos viseme com reprodução de áudio

Alterações de quebra

  • O antigo cenário de “transcrição de conversas” foi renomeado como “transcrição de reunião”. Por exemplo, use MeetingTranscriber em vez de ConversationTranscriber e use CreateMeetingAsync em vez de CreateConversationAsync. Embora os nomes de objetos e métodos do SDK tenham sido alterados, a renomeação não altera o recurso propriamente dito. Use objetos de transcrição de reunião para transcrever reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição de reunião para obter mais informações. Os objetos e métodos de “tradução de conversa” não são afetados por essas alterações. Você ainda pode usar o objeto ConversationTranslator e seus métodos para atender a cenários de tradução.
  • Para a diarização em tempo real, um novo objeto ConversationTranscriber é introduzido. O novo objeto de modelo de “transcrição de conversas” e os padrões de chamada são semelhantes ao reconhecimento contínuo com o objeto SpeechRecognizer. Uma diferença importante é que o objeto ConversationTranscriber foi projetado para ser usado em um cenário de conversa em que você deseja diferenciar vários locutores (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Confira o início rápido de diarização em tempo real para obter mais informações.

Essa tabela mostra os nomes de objeto anteriores e novos para diarização em tempo real e transcrição de reunião. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.
Nome do cenário Nomes de objeto anteriores Novos nomes de objeto
Diarização em tempo real N/D ConversationTranscriber
Transcrição da reunião ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Os objetos Participant, ParticipantChangedReason e User são aplicáveis aos cenários de transcrição de reunião e tradução de reunião.

2 O objeto Meeting é novo e é usado com o objeto MeetingTranscriber.

Correções de bug

Exemplos

SDK de Fala 1.30.0: versão de julho de 2023

Novos recursos

  • C++, C#, Java: foi adicionado suporte para DisplayWords no resultado detalhado do Reconhecimento de Fala Incorporado.
  • Objective-C/Swift: adicionado o suporte ao evento ConnectionMessageReceived em Objective-C/Swift.
  • Objective-C/Swift: modelos aprimorados de detecção de palavras-chave para iOS. Essa alteração aumentou o tamanho de determinados pacotes que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho em versões futuras.

Correções de bug

  • Corrigimos um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema no GitHub).
  • Corrigido um deadlock na API de conexão aberta de conversão de texto em fala.

Observações adicionais

  • Java: alguns métodos da API do Java public usados internamente foram alterados para o pacote internal, protected ou private. Essa alteração não deve afetar os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Anotado aqui para fins de transparência.

Exemplos

SDK de Fala 1.29.0: versão de junho de 2023

Novos recursos

  • C++, C#, Java: versão prévia das APIs de Tradução de Fala Inserida. Agora você pode fazer a tradução de fala sem conexão com a nuvem!
  • JavaScript: Identificação Contínua de Idioma (LID) agora habilitado para tradução de fala.
  • JavaScript: contribuição da comunidade para adicionar a propriedade LocaleName à classe VoiceInfo. Agradecemos ao usuário do GitHub shivsarthak pela solicitação de pull.
  • C++, C#, Java: adicionado o suporte para reamostragem da saída da conversão inserida de texto em fala da taxa de amostragem de 16 kHz para 48 kHz.
  • Adicionado suporte para a variante idiomática hi-IN no Reconhecimento de Intenções com Correspondência de Padrões Simples.

Correções de bug

  • Correção de uma falha causada por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
  • Correção de possíveis deadlocks no Reconhecimento de Intenções com o Correspondente de Padrões Simples

Exemplos

  • Novos exemplos de Tradução de Fala Inserida

SDK de Fala 1.28.0: versão de maio de 2023

Alteração da falha

  • SDK do JavaScript: OCSP (Protocolo de Status de Certificado Online) foi removido. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.28 em diante não incluirá mais nosso módulo OCSP personalizado.

Novos recursos

  • O Reconhecimento de Fala Inserido agora retorna NoMatchReason::EndSilenceTimeout quando um tempo limite de silêncio ocorre no final de um enunciado. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real.
  • SDK do JavaScript: defina propriedades em SpeechTranslationConfig usando valores de enumeração PropertyId.

Correções de bug

  • C# no Windows – corrija uma possível condição de corrida/deadlock na extensão de áudio do Windows. Em cenários que descartam o renderizador de áudio rapidamente e também usam o método Sintetizador para parar de falar, o evento seguinte não foi redefinido por parada e pode fazer com que o objeto renderizador nunca seja descartado, tudo isso enquanto pode estar mantendo um bloqueio global para descarte, congelando o thread do dotnet GC.

Exemplos

  • Adicionou um exemplo de fala inserida para MAUI.
  • Atualizada a amostra de fala inserida para Android Java de modo a incluir a conversão de texto em fala.

SDK de Fala 1.27.0: lançamento em abril de 2023

Notificação sobre as próximas alterações

  • Planejamos remover o Protocolo de Status de Certificados Online (OCSP) na próxima versão do SDK do JavaScript. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.

Novos recursos

  • JavaScript: suporte adicionado à entrada do microfone do navegador com Verificação e Identificação do Locutor.
  • Reconhecimento de Fala Incorporado: atualizar o suporte para a configuraçãoPropertyId::Speech_SegmentationSilenceTimeoutMs.

Correções de bug

  • Geral – atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto o JavaScript).
  • Geral – corrigir conversões de cadeia de caracteres vazando na memória no Windows (todas as linguagens de programação relevantes, exceto o JavaScript).
  • Reconhecimento de Fala Incorporado: corrige uma falha no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
  • Documentação do código-fonte: correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
  • Reconhecimento de intenção: corrigir prioridades da Correspondência padrão relacionadas às entidades da lista.

Exemplos

  • Tratar adequadamente a falha de autenticação na Transcrição de Conversa (CTS) em C#.
  • Foi adicionado um exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.

SDK de Fala 1.26.0: versão de março de 2023

Alterações de quebra

  • O Bitcode foi desabilitado em todos os destinos do iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança se deve à substituição do suporte ao bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando o Xcode versão 13 ou tiver habilitado explicitamente o Bitcode em seu aplicativo usando o SDK de Fala, poderá encontrar um erro informando que “a estrutura não contém bitcode e você deve recompilá-la”. Para resolver o problema, verifique se os destinos têm o bitcode desabilitado.
  • O destino mínimo de implantação do iOS foi atualizado para 11.0 nesta versão, o que significa que o hardware armv7 não é mais compatível.

Novos recursos

  • O Reconhecimento de Fala incorporado agora dá suporte aos áudios de entrada de taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
  • A sintetização de voz agora relata latências de conexão, rede e serviço no resultado a fim de ajudar na otimização da latência de ponta a ponta.
  • Novas regras de desempate para o Reconhecimento de Intenção com padrões correspondentes simples. À medida que mais bytes de caracteres forem correspondidos, vencerão as correspondências de padrão com a maior contagem deles. Exemplo: o padrão “Selecione {algo} no canto superior direito” prevalecerá sobre “Selecione {algo}”

Correções de bug

  • Síntese de Fala: correção de um bug em que o emoji não está correto em eventos de limite de palavras.
  • Reconhecimento de intenção com CLU (compreensão da linguagem coloquial):
    • As intenções do fluxo de trabalho do orquestrador da CLU agora aparecem corretamente.
    • O resultado JSON agora está disponível por meio da ID de propriedade LanguageUnderstandingServiceResponse_JsonResult.
  • Reconhecimento de fala com ativação de palavra-chave: correção para falta de áudio de aproximadamente 150 ms após o reconhecimento de uma palavra-chave.
  • Correção para a compilação da versão MAUI para iOS do NuGet do SDK de Fala, relatada pelo cliente (problema do GitHub)

Exemplos

SDK de Fala 1.25.0: versão de janeiro de 2023

Alterações de quebra

  • As APIs de Identificação de Idioma (versão prévia) foram simplificadas. Se você atualizar para o SDK de Fala 1.25 e ver uma quebra de compilação, visite a página Identificação de Idioma para saber mais sobre a nova propriedade SpeechServiceConnection_LanguageIdMode. Esta única propriedade substitui as duas anteriores SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. Não será mais necessário priorizar entre baixa latência e alta precisão após as melhorias recentes no modelo. Agora, você só precisa selecionar se quer executar a Identificação de Idioma contínua ou no início ao fazer tradução ou reconhecimento de fala contínua.

Novos recursos

  • C#/C++/Java: o SDK de Fala Inserida foi lançado agora em visualização pública restrita. Consulte a documentação Fala Inserida (versão prévia ). Agora, é possível fazer a conversão de fala em texto e a conversão de texto em fala no dispositivo quando a conectividade em nuvem estiver intermitente ou indisponível. Com suporte para plataformas Android, Linux, macOS e Windows
  • C# MAUI: suporte adicionado para destinos do Mac Catalyst e iOS no NuGet de SDK de Fala (problema de Cliente)
  • Unity: Arquitetura Android x86_64 adicionada ao pacote Unity (problema de Cliente)
  • Go:
    • Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema de Cliente)
    • Suporte adicionado para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição para a comunidade!
  • C#/C++: o Reconhecedor de Intenção agora dá suporte a modelos de Compreensão da Linguagem Coloquial em C++ e C# com orquestração no serviço Microsoft

Correções de bug

  • Correção para um travamento ocasional em KeywordRecognizer ao tentar pará-lo
  • Python:
    • Correção para obter resultados da Avaliação de Pronúncia quando PronunciationAssessmentGranularity.FullText estiver definido como (problema de Cliente)
    • Correção para propriedade de gênero para vozes Masculinas não sendo recuperadas, ao obter vozes de sintetização de voz
  • JavaScript
    • Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema de Cliente)
    • O SDK do JS agora compila sem usar npm-force-resolutions (problema de Cliente)
    • O Tradutor de Conversa agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada utilizando SpeechConfig.fromEndpoint()

Exemplos

SDK de Fala 1.24.2: versão de novembro de 2022

Novos recursos

  • Sem novos recursos, apenas uma correção do mecanismo inserido para dar suporte a novos arquivos de modelo.

Correções de bug

  • Todas as linguagens de programação
    • Corrigido um problema com a criptografia de modelos de reconhecimento de fala inseridos.

SDK de Fala 1.24.1: versão de novembro de 2022

Novos recursos

Correções de bug

  • Todas as linguagens de programação
    • Correção de falha de TTS inserido quando não há suporte para fonte de voz
    • Correção de stopSpeaking() que não consegue parar a reprodução no Linux (nº 1686)
  • SDK do JavaScript
    • Correção da regressão na forma como o transcritor da conversa restringiu o áudio.
  • Java
    • Arquivos POM e Javadocs atualizados publicados temporariamente na Maven Central para permitir que o pipeline de documentos atualize documentos de referência online.
  • Python
    • Correção da regressão em que speak_text(ssml) Python retorna void.

SDK de Fala 1.24.0: versão de outubro de 2022

Novos recursos

  • Todas as linguagens de programação: AMR-WB (16khz) adicionada à lista com suporte de formatos de saída de áudio de Conversão de texto em fala
  • Python: pacote adicionado para Linux ARM64 para distribuições Linux com suporte.
  • C#/C++/Java/Python: Suporte adicionado ao streaming direto do ALAW e MULAW para o serviço de fala (além do fluxo de PCM existente) usando AudioStreamWaveFormat.
  • C# MAUI: pacote NuGet atualizado para dar suporte a destinos do Android para desenvolvedores do .NET MAUI (problema do cliente)
  • Mac: adicionado um XCframework separado para Mac, que não contém binários iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários Mac usando um pacote XCframework menor.
  • Microsoft Audio Stack (MAS):
    • Quando os ângulos de formação de feixe forem especificados, o som originado fora do intervalo especificado terá melhor supressão.
    • Redução de aproximadamente 70% no tamanho do libMicrosoft.CognitiveServices.Speech.extension.mas.so para Linux ARM32 e Linux ARM64.
  • Reconhecimento de intenção usando padrões correspondentes:
    • Adicionar suporte de ortografia para os idiomasfr, de, es, jp
    • Adicionado suporte a inteiros predefinidos para o idioma es.

Correções de bug

  • iOS: corrigir o erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio compactado (problema do cliente).
  • JavaScript:
    • Corrigir o token de autenticação que não está funcionando ao obter a lista de vozes de síntese de fala (problema do cliente).
    • Usar a URL de dados para carregamento de trabalho (problema do cliente).
    • Criar um worklet de processador de áudio somente quando o AudioWorklet tiver suporte no navegador (problema do cliente). Esta foi uma contribuição da comunidade de William Wong. Obrigado, William!
    • Corrigir o retorno de chamada reconhecido quando a resposta connectionMessage do LUIS estiver vazia (problema do cliente).
    • Definir corretamente o tempo limite de segmentação de fala.
  • Reconhecimento de intenção usando padrões correspondentes:
    • Os caracteres não JSON dentro dos modelos agora serão carregados corretamente.
    • Corrigir o problema de suspensão quando recognizeOnceAsync(text) foi chamado durante o reconhecimento contínuo.

SDK de Fala 1.23.0: versão de julho de 2022

Novos recursos

  • C#, C++, Java: adicionado suporte para os idiomas zh-cn e zh-hk no Reconhecimento de Intenção com Padrões Correspondentes.
  • C#: adicionado suporte para builds AnyCPU do .NET Framework

Correções de bug

  • Android: correção da vulnerabilidade OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
  • Python: correção da falha ao usar PushAudioInputStream
  • iOS: correção de "EXC_BAD_ACCESS: tentativa de desreferenciar ponteiro nulo", conforme relatado no iOS (problema do GitHub)

SDK de Fala 1.22.0: versão de junho de 2022

Novos recursos

  • Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para dar suporte ao mecanismo de “padrões correspondentes simples”.
  • Unity: suporte adicionado para Mac M1 (Apple Silicon) para pacote Unity (problema do GitHub)
  • C#: suporte adicionado para x86_64 para o Xamarin Android (problema do GitHub)
  • C#: a versão mínima do .NET Framework atualizada para o pacote v4.6.2 para SDK C# como v4.6.1 desativada (confira a Política de Ciclo de Vida do Componente do Microsoft .NET Framework)
  • Linux: suporte adicionado para Debian 11 e Ubuntu 22.04 LTS. O Ubuntu 22.04 LTS requer a instalação manual do libssl1.1 como um pacote binário por aqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64) ou a compilação por meio de fontes.

Correções de bug

  • UWP: dependência OpenSSL removida das bibliotecas UWP e substituída por WebsSocket WinRT e APIs do HTTP para atender à conformidade de segurança e menor volume binário.
  • Mac: corrigido o problema "Módulo MicrosoftCognitiveServicesSpeech não encontrado" ao usar projetos Swift direcionados à plataforma macOS
  • Windows, Mac: corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para serem transmitidas a uma taxa em tempo real às vezes ficavam para trás e eventualmente excediam a capacidade

Amostras (GitHub)

  • C#: .exemplos de estrutura .NET atualizados para usar a v4.6.2
  • Unity: exemplo de assistente virtual corrigido para Android e UWP
  • Unity: exemplos do Unity atualizados para a versão LTS do Unity 2020

SDK de Fala 1.21.0: versão de abril de 2022

Novos recursos

  • Java e JavaScript: Suporte adicionado para Identificação Contínua de Idioma ao usar o objeto SpeechRecognizer
  • JavaScript: APIs de Diagnóstico adicionadas para habilitar o registro em log do console e o registro em log de arquivo (somente nó) para ajudar a Microsoft a solucionar problemas relatados pelo cliente
  • Python: adicionado suporte para transcrição de conversas
  • Go: adicionado suporte para Reconhecimento do Locutor
  • C++ e C#: Suporte adicionado para um grupo obrigatório de palavras no Reconhecedor de Intenções (padrões correspondentes simples). Por exemplo: "(definir|iniciar|começar) um temporizador" em que os termos "definir", "iniciar" ou "começar" devem estar presentes para que a intenção seja reconhecida.
  • Todas as linguagens de programação, sintetização de fala: adicionada a propriedade de duração nos eventos de limite de palavras. Adicionado suporte para limites de pontuação e de sentença
  • Objective-C/Swift/Java: adicionados resultados em nível de palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações em nível de palavra (problema do GitHub)
  • Plataforma iOS: adicionado suporte experimental à arquitetura ARMv7

Correções de bug

  • Plataforma iOS: correção para permitir a criação do destino "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
  • Plataforma Android: a versão do OpenSSL foi atualizada para 1.1.1n a fim de corrigir a vulnerabilidade de segurança CVE-2022-0778
  • JavaScript: corrigido o problema em que o cabeçalho wav não era atualizado com o tamanho do arquivo (problema do GitHub)
  • JavaScript: corrigido o problema de dessincronização da ID da solicitação que está interrompendo os cenários de tradução (problema do GitHub)
  • JavaScript: corrigido problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
  • C++: corrigidos cabeçalhos do C++ para remover aviso ao compilar para C++ 17 ou mais recente

Amostras do GitHub

  • Novos exemplos de Java para Reconhecimento de Fala com Identificação de Idioma
  • Novos exemplos de Python e de Java para Transcrição de Conversas
  • Novo exemplo de Go para Reconhecimento de Locutor
  • Nova ferramenta de C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio para localiar a ID do dispositivo. Essa ID será necessária ao SDK de Fala se você planeja capturar ou renderizar áudios de/para dispositivos não padrão.

SDK de Fala 1.20.0: versão de janeiro de 2022

Novos recursos

  • Objective-C, Swift e Python: adição de suporte para DialogServiceConnector, usado para cenários de assistente de voz.
  • Python: adição de suporte para o Python 3.10. O suporte para o Python 3.6 foi removido, de acordo com o fim da vida útil da versão 3.6 do Python.
  • Unity: o SDK de Fala já é compatível com os aplicativos do Unity no Linux.
  • C++, C#: o IntentRecognizer com o uso de padrões correspondentes já é compatível com o C#. Além disso, já há suporte para cenários com entidades personalizadas, grupos opcionais e funções de entidade em C++ e em C#.
  • C++, C#: log de rastreamento de diagnóstico aprimorado com as novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes facilitam para os clientes a integração dos logs do SDK de Fala em um sistema próprio de log.
  • Todas as linguagens de programação: PronunciationAssessmentConfig já tem propriedades para definir o alfabeto de fonemas desejado (IPA ou SAPI) e a Contagem de Fonemas de N melhores (evitando a necessidade de criar um JSON de configuração de acordo com o problema 1284 do GitHub). Além disso, já há suporte para a saída de nível de sílaba.
  • Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para dar suporte a redes de largura de banda limitada. O SpeechSynthesizer já usa as funcionalidades de decodificação de áudio do sistema operacional para decodificar o áudio compactado transmitido do serviço de conversão de texto em fala.
  • Todas as linguagens de programação: o SpeechSynthesizer já dá suporte a três novos formatos do Opus de saída brutos (sem contêiner), que são amplamente usados em cenários de transmissão ao vivo.
  • JavaScript: adição da API getVoicesAsync() a SpeechSynthesizer para recuperar a lista de vozes de sintetização compatíveis (problema 1350 do GitHub)
  • JavaScript: adição da API getWaveFormat() a AudioStreamFormat para dar suporte a formatos wave não PCM (problema 452 do GitHub)
  • JavaScript: adição do volume getter/setter e das APIs mute()/unmute() a SpeakerAudioDestination (problema 463 do GitHub)

Correções de bug

  • C++, C#, Java, JavaScript, Objective-C e Swift: correção para remover um atraso de dez segundos durante a interrupção de um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre quando nenhum áudio novo é enviado por push depois que StopContinuousRecognition é chamado (problemas 1318 e 331 do GitHub)
  • Unity no Android e na UWP: correção dos metadados do Unity para a UWP, o Android ARM64 e o WSA (Subsistema Windows para Android) ARM64 (problema 1360 do GitHub)
  • iOS: a compilação do seu aplicativo do SDK de Fala em qualquer dispositivo iOS durante o uso do CocoaPods já foi corrigida (problema 1320 do GitHub)
  • iOS: quando o SpeechSynthesizer é configurado para gerar um áudio diretamente em um alto-falante, a reprodução é interrompida no início em raras condições. Esse problema foi corrigido.
  • JavaScript: use o fallback de processador de script para a entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
  • JavaScript: adição de protocolo ao agente para atenuar o bug encontrado na integração do Sentry (problema 465 do GitHub)

Amostras do GitHub

  • Exemplos de C++, C#, Python e Java que mostram como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativo, pontuação de confiança, forma lexical, forma normalizada, forma normalizada mascarada, com o tempo de nível de palavra para cada um.
  • Adição de exemplo do iOS usando o AVFoundation como a fonte de áudio externa.
  • Adição de exemplo do Java para mostrar como obter formato SRT (SubRip Text) usando o evento WordBoundary.
  • Exemplos do Android para avaliação de pronúncia.
  • C++ e C# mostrando o uso das novas classes de log de diagnósticos.

SDK de Fala 1.19.0: 2021: versão de novembro

Destaques

  • O Serviço de Reconhecimento do Locutor já está com disponibilidade geral (GA). As APIs do SDK de Fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento do Locutor, é possível verificar e identificar com precisão os locutores pelas características de voz exclusivas deles. Para obter mais informações sobre esse tópico, confira a documentação.

  • Removemos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Migre os fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.

  • A vinculação de OpenSSL em binários do Linux mudou para dinâmico. O tamanho binário do Linux foi reduzido em cerca de 50%.

  • Adição de suporte ao silício baseado no ARM do Mac M1.

Novos recursos

  • C++/C#/Java: novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com a Microsoft Audio Stack. Documentação aqui.

  • C++ : novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançados. Isso inclui as entidades de Lista e Inteiros predefinidos, bem como suporte para Agrupamento de intenções e entidades como modelos (documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).

  • Mac: suporte para silício com base em ARM64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados ao Problema do GitHub 1244.

  • iOS/Mac: agora, os binários de iOS e macOS estão empacotados em xcframework relacionado ao Problema GitHub 919.

  • iOS/Mac: suporte para catalisador Mac relacionado ao Problema GitHub 1171.

  • Linux: novo pacote tar adicionado para CentOS7 Sobre o SDK de Fala. O pacote .tar do Linux agora contém bibliotecas específicas para RHEL/CentOS 7 no lib/centos7-x64. As bibliotecas do SDK de Fala em lib/x64 ainda são aplicáveis a todas as outras distribuições compatíveis do Linux x64 (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.

  • JavaScript: APIs de VoiceProfile e SpeakerRecognizer tornadas assíncronas/aguardáveis.

  • JavaScript: suporte adicionado para regiões de Governo dos EUA do Azure.

  • Windows: suporte adicionado para reprodução em Plataforma Universal do Windows (UWP).

Correções de bug

  • Android: atualização de segurança do OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.

  • Python: resolução de bug em que a seleção de dispositivo do locutor no Python falha.

  • Core: reconectar automaticamente quando uma tentativa de conexão falha.

  • iOS: compactação de áudio desabilitada em pacotes do iOS devido a problemas de instabilidade e compilação de bitcode ao usar o GStreamer. Veja os detalhes no Problema GitHub 1209.

Amostras do GitHub

  • Mac/iOS: exemplos atualizados e inícios rápidos para usar o pacote xcframework.

  • .NET: amostras atualizadas para usar a versão .NET core 3.1.

  • JavaScript: adição de exemplo para assistentes de voz.

SDK de Fala 1.18.0: versão de julho de 2021

Nota: comece a usar o SDK de Fala aqui.

Resumo de destaques

  • O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, removeremos o suporte ao 16.04 em setembro de 2021. Migre os fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente até essa data.

Novos recursos

  • C++ : agora, os padrões correspondentes de linguagem simples com o reconhecedor de intenção facilita a implementação de cenários de reconhecimento de intenção simples.
  • C++/C#/Java: adicionamos uma nova API, GetActivationPhrasesAsync(), à classe VoiceProfileClient para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes.
    • Importante: o recurso Reconhecimento do Locutor está em versão prévia. Todos os perfis de voz criados na versão prévia serão encerrados 90 dias depois que o recurso Reconhecimento do Locutor avançar de versão prévia para disponibilidade geral. Nesse ponto, os perfis de voz de versão prévia deixarão de funcionar.
  • Python: adição de suporte à LID (identificação de idioma) contínua nos objetos SpeechRecognizer e TranslationRecognizer existentes.
  • Python: adição de um novo objeto Python chamado SourceLanguageRecognizer para fazer a LID única ou contínua (sem reconhecimento nem tradução).
  • JavaScript: adição da API getActivationPhrasesAsync à classe VoiceProfileClient para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes.
  • Agora, é possível aguardar a API enrollProfileAsync do JavaScriptVoiceProfileClient de modo assíncrono. Veja este código de identificação independente, por exemplo, uso.

Aprimoramentos

  • Java: adição do suporte a AutoCloseable para muitos objetos Java. Agora, o modelo de experimentação com recursos é aceito para liberar recursos. Veja este exemplo que usa a experimentação com recursos. Confira também o tutorial de documentação do Oracle Java para ver A instrução sobre experimentação com recursos e aprender esse padrão.
  • O volume dos discos foi reduzido significativamente para muitas plataformas e arquiteturas. Exemplos do binário Microsoft.CognitiveServices.Speech.core: o Linux x64 é 475 KB menor (redução de 8,0%); o ARM64 Windows UWP é 464 KB menor (redução de 11,5%); o Windows x86 é 343 KB menor (redução de 17,5%); e o Windows x64 é 451 KB menor (redução de 19,4%).

Correções de bug

  • Java: correção do erro de sintetização quando o texto de síntese contém caracteres alternativos. Veja os detalhes aqui.
  • JavaScript: agora, o processamento de áudio do microfone do navegador usa AudioWorkletNode em vez do preterido ScriptProcessorNode. Veja os detalhes aqui.
  • JavaScript: as conversas são mantidas ativas corretamente durante os cenários de tradução de conversas de execução prolongada. Veja os detalhes aqui.
  • JavaScript: correção de um problema em que o reconhecedor se reconecta a um mediastream em reconhecimento contínuo. Veja os detalhes aqui.
  • JavaScript: correção de um problema em que o reconhecedor se reconecta a um pushStream em reconhecimento contínuo. Veja os detalhes aqui.
  • JavaScript: correção do cálculo de deslocamento em nível de palavra em resultados de reconhecimento detalhados. Veja os detalhes aqui.

Exemplos

  • Veja os exemplos de início rápido do Java atualizados aqui.
  • Os exemplos em JavaScript de Reconhecimento do Locutor foram atualizados para mostrar o novo uso de enrollProfileAsync(). Veja exemplos aqui.

SDK de Fala 1.17.0: versão de maio de 2021

Observação

Faça a introdução ao SDK de Fala aqui.

Resumo de destaques

  • Menor volume – continuamos a diminuir a memória e o volume em disco do SDK de Fala e seus componentes.
  • Uma nova API autônoma Identificação de Idioma permite que você reconheça o idioma que está sendo falado.
  • Desenvolva aplicativos de jogos e realidade misturada habilitados para fala usando o Unity no macOS.
  • Agora você pode usar a conversão de texto em fala, além do reconhecimento de fala da linguagem de programação Go.
  • Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!

Novos recursos

  • C++/C#: nova detecção de Idioma autônoma inicial e contínua por meio da API SourceLanguageRecognizer. Se você quiser apenas detectar os idiomas falados no conteúdo do áudio, essa é a API a ser usada. Veja mais detalhes para C++ e C#.
  • C++/C#: o Reconhecimento de Fala e o Reconhecimento de Tradução agora dão suporte à Identificação de Idioma inicial e contínua para que você possa determinar de modo programático quais idiomas estão sendo falados antes que eles sejam transcritos ou traduzidos. Consulte a documentação aqui para o Reconhecimento de fala e aqui para a Tradução de fala.
  • C#: suporte adicionado ao Unity para macOS (x64). Isso desbloqueia os casos de uso do reconhecimento de fala e da síntese de fala em realidade misturada e jogos!
  • Go: adicionamos suporte para a conversão de texto em fala de sintetização de fala para a linguagem de programação Go, a fim de disponibilizar a síntese de fala em mais casos de uso. Consulte nosso guia de início rápido ou nossa documentação de referência.
  • C++/C#/Java/Python/Objective-C/Go: o sintetizador de fala agora suporta o objeto connection. Isso ajuda a gerenciar e monitorar a conexão com o serviço de Fala, sendo especialmente útil para fazer uma pré-conexão a fim de reduzir a latência. Confira a documentação aqui.
  • C++/C#/Java/Python/Objective-C/Go: agora exponhamos a latência e o tempo de insuficiência no SpeechSynthesisResult para ajudar a monitorar e diagnosticar problemas de latência de síntese de fala. Para saber mais, consulte C++, C#, Java, Python, Objective-C e Go.
  • C++/C#/Java/Python/Objective-C: agora, a Conversão de texto em fala usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso proporciona saídas com maior fidelidade por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma de nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
  • C++/C#/Java/Python/Objective-C/Go: adicionamos a propriedade Gênero às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema nº 1055 do GitHub.
  • C++, C#, Java, JavaScript: já damos suporte a retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync e getAllProfilesAsync() no Reconhecimento do Locutor para facilitar o gerenciamento de usuários de todos os perfis de voz de determinada conta. Consulte a documentação para C++, C#, Java e JavaScript. Isso resolve o problema nº 338 do GitHub.
  • JavaScript: adicionamos a repetição para falhas de conexão, aprimorando os aplicativos de fala baseados em JavaScript.

Aprimoramentos

  • Os binários do SDK de Fala do Linux e do Android foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
  • Melhorias no tamanho do código:
    • O Reconhecimento vocal agora está dividido em uma biblioteca "lu" separada.
    • O tamanho binário principal do Windows x64 diminuiu em 14,4%.
    • O tamanho binário principal do Android ARM64 diminuiu em 13,7%.
    • outros componentes também diminuíram de tamanho.

Correções de bug

  • Todos: corrigido o problema nº 842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio muito longos usando o SDK de Fala sem conexão com o serviço que termina com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
  • C# : corrigido o problema nº 947 do GitHub em que nenhuma entrada de fala poderia deixar seu aplicativo em um estado ruim.
  • Java: corrigido o problema n°. 997 do GitHub em que o SDK de Fala para Java 1.16 falha ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
  • Correção de uma falha quando o reconhecimento de fala é interrompido abruptamente (por exemplo, usando CTRL+C no aplicativo de console).
  • Java: adicionada uma correção para excluir arquivos temporários no Windows ao usar o SDK de Fala para Java.
  • Java: corrigido o problema nº 994 do GitHub em que chamar DialogServiceConnector.stopListeningAsync poderia resultar em um erro.
  • Java: corrigido um problema de cliente no início rápido do assistente virtual.
  • JavaScript: foi corrido o problema nº 366 do GitHub em que ConversationTranslator gerava um erro 'this.cancelSpeech não é uma função'.
  • JavaScript: corrigido o problema nº 298 do GitHub em que o exemplo reproduzido soava em voz alta ‘Obter resultado como um fluxo na memória’.
  • JavaScript: foi corrigido o problema nº 350 do GitHub em que a chamada a AudioConfig podia resultar em um erro 'ReferenceError: MediaStream não está definido'.
  • JavaScript: corrigido o alerta UnhandledPromiseRejection no Node.js para sessões de longa execução.

Exemplos

  • Atualize a documentação de exemplos do Unity para macOS aqui.
  • Uma exemplo do React Native para o serviço de reconhecimento de Fala de IA do Azure agora está disponível aqui.

SDK de Fala 1.16.0: versão de março de 2021

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Novos recursos

  • C++/C#/Java/Python: migração para a última versão do GStreamer (1.18.3) para adição de suporte à transcrição de qualquer formato de mídia no Windows, no Linux e no Android. Confira a documentação aqui.
  • C++/C#/Java/Objective-C/Python: adição de suporte à decodificação de áudio sintetizado/TTS compactado ao SDK. Se você definir o formato de áudio de saída como PCM e o GStreamer estiver disponível no sistema, o SDK solicitará automaticamente o áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Defina SpeechServiceConnection_SynthEnableCompressedAudioTransmission como false para desabilitar esse recurso. Veja mais detalhes para C++, C#, Java, Objective-C e Python.
  • JavaScript: os usuários do Node.js já podem usar a API AudioConfig.fromWavFileInput. Isso resolve o problema nº 252 do GitHub.
  • C++/C#/Java/Objective-C/Python: a adição do método GetVoicesAsync() à TTS retorna todas as vozes de sintetização disponíveis. Veja mais detalhes para C++, C#, Java, Objective-C e Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: adição do evento VisemeReceived para a sintetização de voz/TTS para retornar a animação de visema síncrona. Confira a documentação aqui.
  • C++/C#/Java/JavaScript/Objective-C/Python: adição do evento BookmarkReached para TTS. Defina indicadores no SSML de entrada e obter os deslocamentos de áudio de cada indicador. Confira a documentação aqui.
  • Java: adição de suporte para APIs de Reconhecimento do Locutor. Veja os detalhes aqui.
  • C++/C#/Java/JavaScript/Objective-C/Python: adição de dois novos formatos de áudio de saída com o contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Esses são formatos melhores para streaming de áudio com o codec Opus. Veja mais detalhes para C++, C#, Java, JavaScript, Objective-C e Python.
  • C++/C#/Java: adição de suporte para recuperar o perfil de voz para o cenário de Reconhecimento do Locutor. Veja mais detalhes para C++, C# e Java.
  • C++/C#/Java/Objective-C/Python: adição de suporte à biblioteca compartilhada separada para o microfone de áudio e o controle de alto-falante. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
  • Objective-C/Swift: adição de suporte para a estrutura de módulo com cabeçalho de abrangência. Isso permite que o desenvolver importe o SDK de Fala como um módulo em aplicativos Objective-C/Swift no iOS/no Mac. Isso resolve o problema nº 452 do GitHub.
  • Python: adição de suporte para o Python 3.9 e remoção de suporte para o Python 3.5 de acordo com o fim da vida útil do Python para 3.5.

Problemas conhecidos

  • C++/C#/Java: DialogServiceConnector não pode usar um CustomCommandsConfig para acessar um aplicativo de Comandos Personalizados, pois ocorrerá um erro de conexão. Isso pode ser solucionado adicionando manualmente a ID do aplicativo à solicitação com config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). O comportamento esperado de CustomCommandsConfig será restaurado na próxima versão.

Aprimoramentos

  • Como parte de nosso esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala, os binários do Android já são 3% a 5% menores.
  • Melhor precisão e legibilidade. Confira também as seções da documentação de referência do C# aqui.

Correções de bug

  • JavaScript: os cabeçalhos grandes de arquivos WAV agora são analisados corretamente (aumento da fatia do cabeçalho para 512 bytes). Isso resolve o problema nº 962 do GitHub.
  • JavaScript: correção do problema de tempo de microfone quando o fluxo do microfone termina antes da conclusão do reconhecimento, resolvendo um problema de não funcionamento do reconhecimento de fala no Firefox.
  • JavaScript: agora, tratamos corretamente da promessa de inicialização quando o navegador força o desligamento do microfone antes da conclusão de turnOn.
  • JavaScript: substituímos a dependência de URL pela análise de URL. Isso resolve o problema nº 264 do GitHub.
  • Android: correção de retornos de chamada que não funcionavam quando minifyEnabled era definido como verdadeiro.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY será definido corretamente como a E/S de soquete subjacente da TTS a fim de reduzir a latência.
  • C++/C#/Java/Python/Objective-C/Go: correção de uma falha ocasional em que o reconhecedor era destruído logo após o início de um reconhecimento.
  • C++/C#/Java: correção de uma falha ocasional na destruição do reconhecedor de locutor.

Exemplos

  • JavaScript: os exemplos do navegador não exigem mais um download separado do arquivo de biblioteca JavaScript.

SDK de Fala 1.15.0: versão de janeiro de 2021

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Resumo de destaques

  • Memória e espaço em disco menores, tornando o SDK mais eficiente.
  • Formatos de saída de alta fidelidade disponíveis para a versão prévia privada da sintetização de voz personalizada.
  • O Reconhecedor de Intenção agora pode retornar mais do que a intenção principal, dando a você a capacidade de fazer uma avaliação separada sobre a intenção do cliente.
  • Agora os bots e assistentes de voz estão mais fáceis de configurar e você pode fazê-los parar de escutar imediatamente, além de exercer maior controle sobre como eles respondem aos erros.
  • Aprimoramento no desempenho do dispositivo, tornando a compactação opcional.
  • Uso do SDK de Fala no Windows ARM/ARM64.
  • Aprimoramento da depuração de nível baixo.
  • O recurso Avaliação de Pronúncia já está mais amplamente disponível.
  • Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!

Aprimoramentos

  • O SDK de Fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala. Como uma primeira etapa, fizemos reduções significativas no tamanho do arquivo em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
    • As bibliotecas do Windows compatíveis com o UWP de 64 bits são aproximadamente 30% menores.
    • As bibliotecas do Windows de 32 bits ainda não registraram um aprimoramento de tamanho.
    • As bibliotecas do Linux são 20 a 25% menores.
    • As bibliotecas do Android são 3 a 5% menores.

Novos recursos

  • Todas as linguagens: novos formatos de saída de 48 kHz disponíveis para a versão prévia privada da Voz Neural Personalizada por meio da API de sintetização de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm e riff-48khz-16bit-mono-pcm.
  • Todas as linguagens: a Voz Personalizada também ficou mais fácil de usar. Adição de suporte para configuração da Voz Personalizada por meio de EndpointId (EndpointId, C#, Java, JavaScript, Objective-C e Python). Antes dessa alteração, os usuários da Voz Personalizada precisavam definir a URL do ponto de extremidade por meio do método FromEndpoint. Agora, os clientes podem usar o método FromSubscription como vozes predefinidas e fornecer a ID de implantação configurando EndpointId. Isso simplifica a configuração de vozes personalizadas.
  • C++/C#/Java/Objective-C/Python: obtenha mais do que a intenção principal do IntentRecognizer. Agora, ele dá suporte à configuração de um resultado JSON que contém todas as intenções e não apenas a intenção com a pontuação mais alta por meio do método LanguageUnderstandingModel FromEndpoint usando o parâmetro de URI verbose=true. Isso resolve o problema nº 880 do GitHub. Veja a documentação atualizada aqui.
  • C++/C#/Java: faça com que o seu assistente de voz ou bot pare de escutar imediatamente. O DialogServiceConnector (C++, C# e Java) agora tem um método StopListeningAsync() para acompanhar ListenOnceAsync(). Isso interromperá imediatamente a captura de áudio e aguardará normalmente um resultado, tornando-o perfeito para uso com cenários de pressionamento de botão "Parar agora".
  • C++/C#/Java/JavaScript: faça com que o seu assistente de voz ou bot reaja melhor aos erros do sistema subjacentes. O DialogServiceConnector (C++, C#, Java e JavaScript) agora tem um novo manipulador de eventos TurnStatusReceived. Esses eventos opcionais correspondem a cada resolução ITurnContext no bot e relatarão as falhas de execução de turno quando elas ocorrerem, por exemplo, como resultado de uma exceção sem tratamento, do tempo limite ou de uma queda de rede entre o Direct Line Speech e o bot. TurnStatusReceived facilita a resposta às condições de falha. Por exemplo, se um bot levar muito tempo em uma consulta de banco de dados de back-end (por exemplo, pesquisando um produto), o TurnStatusReceived permitirá que o cliente saiba reformular o que disse com "Desculpe, não entendi muito bem. Poderia tentar novamente?" ou algo semelhante.
  • C++/C# : uso do SDK de Fala em mais plataformas. O pacote NuGet do SDK de Fala agora dá suporte a binários nativos da área de trabalho do Windows ARM/ARM64 (já havia suporte para o UWP) a fim de tornar o SDK de Fala mais útil em mais tipos de computadores.
  • Java: o DialogServiceConnector agora tem um método setSpeechActivityTemplate() que não foi excluído intencionalmente da linguagem anteriormente. Isso é equivalente a definir a propriedade Conversation_Speech_Activity_Template e solicitará que todas as futuras atividades do Bot Framework originadas pelo serviço do Direct Line Speech mesclem o conteúdo fornecido no respectivo conteúdo JSON.
  • Java: aprimoramento da depuração de nível baixo. Agora, a classe Connection tem um evento MessageReceived, semelhante a outras linguagens de programação (C++ e C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração.
  • JavaScript: configuração mais fácil para assistentes de voz e bots por meio do BotFrameworkConfig, que agora tem métodos de alocador fromHost() e fromEndpoint() que simplificam o uso de localizações de serviço personalizadas comparado à definição manual de propriedades. Também padronizamos a especificação opcional de botId para usar um bot não padrão entre os alocadores de configuração.
  • JavaScript: aprimoramento no desempenho do dispositivo por meio da propriedade de controle de cadeia de caracteres adicionada para compactação do WebSocket. Por motivos de desempenho, desabilitamos a compactação do WebSocket por padrão. Isso pode ser habilitado novamente para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema nº 242 do GitHub.
  • JavaScript: adição de suporte à Avaliação de Pronúncia para habilitar a avaliação de pronúncia de fala. Confira o guia de início rápido aqui.

Correções de bug

  • Todas as linguagens (exceto JavaScript): correção de uma regressão na versão 1.14, em que a memória em excesso era alocada pelo reconhecedor.
  • C++: correção de um problema de coleta de lixo com o DialogServiceConnector, resolvendo o problema nº 794 do GitHub.
  • C# : correção de um problema com o desligamento de thread que fazia com que os objetos fossem bloqueados por aproximadamente um segundo quando descartados.
  • C++/C#/Java: correção de uma exceção que impedia um aplicativo de definir o token de autorização de fala ou o modelo de atividade mais de uma vez em um DialogServiceConnector.
  • C++/C#/Java: correção de uma falha do reconhecedor devido a uma condição de corrida na desinstalação.
  • JavaScript: anteriormente, o DialogServiceConnector não respeitava o parâmetro botId opcional especificado nos alocadores de BotFrameworkConfig. Com isso, foi necessário definir o parâmetro de cadeia de consulta botId manualmente para uso de um bot não padrão. O bug foi corrigido, e os valores botId fornecidos para os alocadores de BotFrameworkConfig serão respeitados e usados, incluindo as novas adições fromHost() e fromEndpoint(). Isso também se aplica ao parâmetro applicationId de CustomCommandsConfig.
  • JavaScript: correção do problema nº 881 do GitHub, permitindo a reutilização do objeto do reconhecedor.
  • JavaScript: correção de um problema em que o SKD enviava speech.config várias vezes em uma sessão da TTS, desperdiçando largura de banda.
  • JavaScript: simplificação do tratamento de erro na autorização do microfone, permitindo que mensagens mais descritivas sejam exibidas quando o usuário não tiver permitido a entrada do microfone no navegador.
  • JavaScript: correção do problema nº 249 do GitHub, em que os erros de tipo em ConversationTranslator e ConversationTranscriber causavam um erro de compilação para usuários do TypeScript.
  • Objective-C: correção de um problema em que o build do GStreamer falhava para o iOS no Xcode 11.4, resolvendo o problema nº 911 do GitHub.
  • Python: correção do problema nº 870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido para dar lugar a importlib".

Exemplos

SDK de Fala 1.14.0: versão de outubro de 2020

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.

Novos recursos

  • Linux: adição de suporte para Debian 10 e Ubuntu 20.04 LTS.
  • Python/Objective-C: adição de suporte para a API KeywordRecognizer. Encontre a documentação aqui.
  • C++/Java/C #: adição de suporte para definição de qualquer chave/valor HttpHeader por meio de ServicePropertyChannel::HttpHeader.
  • JavaScript: adição de suporte para a API ConversationTranscriber. Leia a documentação aqui.
  • C++/C#: adição do novo método AudioDataStream FromWavFileInput (para leitura de arquivos .WAV) aqui (C++) e aqui (C#).
  • C++/C#/Java/Python/Objective-C/Swift: adicionado um método de stopSpeakingAsync() para interromper a sintetização da conversão de texto em fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift).
  • C# e C++ e Java: adição de uma função FromDialogServiceConnector() à classe Connection que pode ser usada para monitorar eventos de conexão e desconexão do DialogServiceConnector. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java).
  • C++/C#/Java/Python/Objective-C/Swift: adição de suporte à avaliação de pronúncia, que avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Leia a documentação aqui.

Alteração da falha

  • JavaScript: PullAudioOutputStream.read() tem uma alteração do tipo de retorno de uma promessa interna para uma promessa de JavaScript nativa.

Correções de bug

  • Todas as linguagens: correção da regressão da versão 1.13 em SetServiceProperty, na qual os valores com alguns caracteres especiais eram ignorados.
  • C# : correção de exemplos de console do Windows no Visual Studio 2019 que não localizavam DLLs nativas.
  • C#: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do KeywordRecognizer.
  • Objective-C/Swift: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do reconhecedor.
  • Windows: correção de problema de coexistência com o BT HFP/A2DP na UWP.
  • JavaScript: correção de mapeamento das IDs de sessão para aprimorar o log e auxiliar nas correlações internas de depuração/serviço.
  • JavaScript: adição de correção para o DialogServiceConnector desabilitar as chamadas ListenOnce depois que a primeira chamada é feita.
  • JavaScript: correção do problema em que a saída do resultado sempre era apenas "simples".
  • JavaScript: correção de um problema de reconhecimento contínuo no Safari no macOS.
  • JavaScript: mitigação de carga de CPU para o cenário de alta taxa de transferência de solicitação.
  • JavaScript: permissão de acesso aos detalhes do resultado do Registro do Perfil de Voz.
  • JavaScript: adição de correção para reconhecimento contínuo no IntentRecognizer.
  • C++/C#/Java/Python/Swift/Objective-C: correção de uma URL incorreta para australiaeast e brazilsouth no IntentRecognizer.
  • C++/C#: adição de VoiceProfileType como um argumento na criação de um objeto VoiceProfile.
  • C++/C#/Java/Python/Swift/Objective-C: correção de um SPX_INVALID_ARG potencial na tentativa de ler AudioDataStream de determinada posição.
  • iOS: correção de uma falha com o reconhecimento de fala no Unity

Exemplos

  • Objective-C: adição de um exemplo para o reconhecimento de palavra-chave aqui.
  • C#/JavaScript: adição de um guia de início rápido da transcrição de conversas aqui (C#) e aqui (JavaScript).
  • C++/C#/Java/Python/Swift/Objective-C: adição de um exemplo da Avaliação de Pronúncia aqui
  • Xamarin: atualização do guia de início rápido para o modelo mais recente do Visual Studio aqui.

Problema conhecido

  • Por padrão, não há suporte para o certificado DigiCert Global Root G2 no HoloLens 2 e no Android 4.4 (KitKat). Ele precisa ser adicionado ao sistema para tornar o SDK de Fala funcional. O certificado será adicionado às imagens do sistema operacional do HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.

Testes reduzidos devido à COVID-19

Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!

SDK de Fala 1.13.0: versão de julho de 2020

Observação

O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe-o e instale-o aqui.

Novos recursos

  • C# : adição de suporte para transcrição de conversas assíncrona. Confira a documentação aqui.
  • JavaScript: adição de suporte ao Reconhecimento do Locutor no navegador e no Node.js.
  • JavaScript: adição de suporte para Identificação de Idioma/ID de idioma. Confira a documentação aqui.
  • Objective-C: adição de suporte para conversa em vários dispositivos e transcrição de conversas.
  • Python: adição de suporte de áudio compactado para o Python no Windows e no Linux. Confira a documentação aqui.

Correções de bug

  • Todas as linguagens: correção de um problema que fazia com que o KeywordRecognizer não avançasse nos fluxos após um reconhecimento.
  • Todas as linguagens: correção de um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
  • Todas as linguagens: correção de um problema em que o SendMessageAsync não enviava realmente a mensagem pela conexão depois que os usuários paravam de aguardar.
  • Todas as linguagens: correção de uma falha nas APIs de Reconhecimento do Locutor quando os usuários chamavam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não aguardavam a conclusão das chamadas.
  • Todas as linguagens: correção da habilitação do log de arquivo nas classes VoiceProfileClient e SpeakerRecognizer.
  • JavaScript: correção de um problema com a limitação quando o navegador era minimizado.
  • JavaScript: correção de um problema com uma perda de memória nos fluxos.
  • JavaScript: adição de um cache para as respostas de OCSP do NodeJS.
  • Java: correção de um problema que fazia com que os campos BigInteger sempre retornassem 0.
  • iOS: correção de um problema com a publicação de aplicativos baseados no SDK de Fala na iOS App Store.

Exemplos

  • C++ : adição de um código de exemplo para o Reconhecimento do Locutor aqui.

Testes reduzidos devido à COVID-19

Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!

SDK de Fala 1.12.1: versão de junho de 2020

Novos recursos

Correções de bug

  • C e C++: correção da gravação do microfone que não funcionava na versão 1.12 no Reconhecimento do Locutor.
  • JavaScript: correções da Conversão de texto em fala no Firefox e no Safari, no macOS e no iOS.
  • Correção da falha na violação de acesso do verificador de aplicativos do Windows na transcrição de conversas durante o uso do fluxo de oito canais.
  • Correção de uma falha na violação de acesso do verificador de aplicativos do Windows na tradução de conversas em vários dispositivos.

Exemplos

Testes reduzidos devido à COVID-19

Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!

SDK de Fala 1.12.0: versão de maio de 2020

Novos recursos

  • Go: suporte à nova linguagem Go para reconhecimento de fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo.
  • JavaScript: adicionado suporte ao navegador para a conversão de texto em fala. Confira a documentação aqui.
  • C++, C# e Java: suporte às APIs e ao novo objeto KeywordRecognizer nas plataformas Windows, Android, Linux e iOS. Leia a documentação aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo.
  • Java: adição de conversa em vários dispositivos com suporte à tradução. Confira o documento de referência aqui.

Aprimoramentos e otimizações

  • JavaScript: otimização da implementação do microfone do navegador, aprimorando a precisão do reconhecimento de fala.
  • Java: refatoração das associações por meio da implementação de JNI direta sem o SWIG. Essa alteração reduz em dez vezes o tamanho das associações de todos os pacotes Java usados para Windows, Android, Linux e Mac, além de facilitar o desenvolvimento adicional da implementação Java do SDK de Fala.
  • Linux: atualização da documentação de suporte com as últimas notas específicas sobre o RHEL 7.
  • Aprimoramento da lógica de conexão para várias tentativas de conexão quando ocorrem erros de serviço e de rede.
  • Atualização da página de Início Rápido de Fala em portal.azure.com para ajudar os desenvolvedores a executarem a próxima etapa na jornada de Fala de IA do Azure.

Correções de bug

  • C# e Java: correção de um problema com o carregamento de bibliotecas do SDK no ARM do Linux (de 32 e 64 bits).
  • C#: correção do descarte explícito de identificadores nativos para os objetos TranslationRecognizer, IntentRecognizer e Connection.
  • C# : correção do gerenciamento do tempo de vida de entrada de áudio para o objeto ConversationTranscriber.
  • Correção de um problema em que o motivo do resultado de IntentRecognizer não era definido corretamente no reconhecimento de intenções com frases simples.
  • Correção de um problema em que o deslocamento do resultado de SpeechRecognitionEventArgs não era definido corretamente.
  • Correção de uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão do WebSocket. Era reproduzível para TranslationRecognizer durante a adição de participantes.
  • Correção de perdas de memória no mecanismo reconhecedor de palavras-chave.

Exemplos

Testes reduzidos devido à COVID-19

Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. Se perdemos algo, conte-nos no GitHub.
Cuide-se!

SDK de Fala 1.11.0: versão de março de 2020

Novos recursos

  • Linux: adição de suporte para o RHEL (Red Hat Enterprise Linux)/o CentOS 7 x64 com instruções sobre como configurar o sistema para o SDK de Fala.
  • Linux: adição de suporte para o .NET Core C# no Linux ARM32 e ARM64. Leia mais aqui.
  • C# e C++: adição de UtteranceId em ConversationTranscriptionResult, uma ID consistente em todos os intermediários e o resultado do reconhecimento de fala final. Veja mais detalhes para C# e C++.
  • Python: adição de suporte para Language ID. Confira speech_sample.py no repositório GitHub.
  • Windows: adição de suporte ao formato de entrada de áudio compactado na plataforma Windows para todos os aplicativos de console do Win32. Veja os detalhes aqui.
  • JavaScript: suporte à sintetização de voz (conversão de texto em fala) no NodeJS. Saiba mais aqui.
  • JavaScript: adição de novas APIs para habilitar a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.

Correções de bug

  • C# e C++: correção de um problema. Agora, SendMessageAsync envia uma mensagem binária como um tipo binário. Veja mais detalhes para C# e C++.
  • C# e C++: correção de um problema em que o uso do evento Connection MessageReceived podia causar uma falha quando Recognizer era descartado antes do objeto Connection. Veja mais detalhes para C# e C++.
  • Android: o tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms a fim de aprimorar a latência.
  • Android: correção de um problema com o emulador do Android x86 no Android Studio.
  • JavaScript: adição de suporte para regiões na China com a API fromSubscription. Veja os detalhes aqui.
  • JavaScript: adição de mais informações de erro para falhas de conexão do NodeJS.

Exemplos

  • Unity: correção do exemplo público de reconhecimento de intenção, em que a importação de JSON do LUIS falhava. Veja os detalhes aqui.
  • Python: adição de exemplo para Language ID. Veja os detalhes aqui.

Testes reduzidos devido à COVID-19: devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual de dispositivo quanto normalmente fazemos. Por exemplo, não pudemos testar a entrada do microfone e a saída do locutor no Linux, no iOS e no macOS. Não fizemos nenhuma alteração que achamos que poderia causado alguma interrupção nessas plataformas, e tudo foi aprovado em nossos testes automatizados. É improvável que esteja faltando algo, mas se estiver, informe-nos no GitHub.
Agradecemos seu apoio contínuo. Como sempre, poste perguntas ou comentários no GitHub ou no Stack Overflow.
Cuide-se!

SDK de Fala 1.10.0: versão de fevereiro de 2020

Novos recursos

  • Adição de pacotes do Python para dar suporte à nova versão 3.8 do Python.
  • Suporte para o RHEL (Red Hat Enterprise Linux)/o CentOS 8 x64 (C++, C#, Java e Python).

    Observação

    Os clientes precisam configurar o OpenSSL de acordo com estas instruções.

  • Suporte do Linux ARM32 para Debian e Ubuntu.
  • O DialogServiceConnector agora dá suporte a um parâmetro opcional "ID do bot" em BotFrameworkConfig. Esse parâmetro permite o uso de vários bots do Direct Line Speech com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração de canal do Direct Line Speech) será usado.
  • O DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para pré-preencher uma grande variedade de campos compatíveis em todas as atividades que chegam a um bot do Direct Line Speech, incluindo atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
  • A TTS agora usa a chave de assinatura para autenticação, reduzindo a latência de primeiro byte do primeiro resultado da sintetização após a criação de um sintetizador.
  • Atualização dos modelos de reconhecimento de fala para 19 localidades com uma redução média da taxa de erros de palavra de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT e tr-TR). Os novos modelos trazem aprimoramentos significativos em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.

Correções de bug

  • Correção de um bug em que o transcritor de conversas não aguardava corretamente nas APIs Java
  • Correção do emulador do Android x86 para o problema do GitHub referente ao Xamarin
  • Adição dos métodos de propriedade (Get|Set) ausentes em AudioConfig
  • Correção de um bug da TTS em que o audioDataStream não podia ser interrompido quando a conexão falhava
  • O uso de um ponto de extremidade sem uma região causava falhas de USP no tradutor de conversas
  • A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo de GUID apropriadamente exclusivo. Anteriormente e de maneira não intencional, ele usava o padrão de implementação fragmentada que costumava produzir colisões em grandes conjuntos de interações.

Exemplos

Outras alterações

SDK de Fala 1.9.0: versão de janeiro de 2020

Novos recursos

  • Conversa em vários dispositivos: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza as mensagens enviadas entre eles. Saiba mais neste artigo.
  • Adição de suporte de reconhecimento de palavras-chave ao pacote .aar do Android e adição de suporte para as variantes x86 e x64.
  • Objective-C: adição dos métodos SendMessage e SetMessageProperty ao objeto Connection. Confira a documentação aqui.
  • Agora, a API da TTS para C++ dá suporte a std::wstring como a entrada de texto de sintetização, removendo a necessidade de converter um wstring em uma cadeia de caracteres antes de transmiti-lo para o SDK. Veja os detalhes aqui.
  • C#: a ID de idioma e a configuração do idioma de origem já estão disponíveis.
  • JavaScript: adição de um recurso ao objeto Connection para transmitir mensagens personalizadas do serviço de Fala como um retorno de chamada receivedServiceMessage.
  • JavaScript: adição de suporte a FromHost API para facilitar o uso com contêineres locais e nuvens soberanas. Confira a documentação aqui.
  • JavaScript: agora NODE_TLS_REJECT_UNAUTHORIZED é respeitado graças a uma contribuição de NODE_TLS_REJECT_UNAUTHORIZED. Veja os detalhes aqui.

Alterações interruptivas

  • O OpenSSL foi atualizado para a versão 1.1.1b e é vinculado estaticamente à biblioteca principal do SDK de Fala para Linux. Poderá haver uma interrupção se o OpenSSL de caixa de entrada não for instalado no diretório /usr/lib/ssl do sistema. Confira a documentação do SDK de Fala para encontrar uma solução alternativa para o problema.
  • Alteramos o tipo de dados retornado para WordLevelTimingResult.Offset em C# de int para long a fim de permitir o acesso aos WordLevelTimingResults quando os dados de fala forem maiores do que dois minutos.
  • O PushAudioInputStream e o PullAudioInputStream agora enviam informações de cabeçalho WAV para o serviço de Fala com base em AudioStreamFormat, opcionalmente especificado quando eles são criados. Agora, os clientes precisam usar o formato de entrada de áudio compatível. Qualquer outro formato terá resultados de reconhecimento abaixo do ideal ou poderá causar outros problemas.

Correções de bug

  • Confira a atualização do OpenSSL em Alterações interruptivas acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) no Linux e no Java.
  • Java: aprimoramentos no fechamento de objetos em cenários de alta simultaneidade.
  • Reestruturação do nosso pacote NuGet. Removemos as três cópias de Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll nas pastas da biblioteca, tornando o pacote NuGet menor e mais rápido para download e adicionamos os cabeçalhos necessários para compilar alguns aplicativos nativos do C++.
  • Encontre os exemplos de início rápido corrigidos aqui. Eles saiam sem exibir a exceção "Microfone não encontrado" no Linux, no macOS e no Windows.
  • Correção de uma falha do SDK com longos resultados de reconhecimento de fala em alguns caminhos de código como este exemplo.
  • Correção de um erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver este problema do cliente.
  • Correção de um erro na TTS durante o uso da marca <voice> múltipla ou da marca <audio> para resolver <voice>.
  • Correção de um erro 401 na TTS quando o SDK era recuperado do estado suspenso.
  • JavaScript: correção de uma importação circular de dados de áudio graças a uma contribuição de euirim.
  • JavaScript: adição de suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
  • JavaScript: correção de um problema em que um erro de conexão podia resultar em tentativas de reconexão contínuas e sem êxito do WebSocket.

Exemplos

  • Adição de exemplo de reconhecimento de palavras-chave para Android aqui.
  • Adição de exemplo na TTS para o cenário de servidor aqui.
  • Adição de guias de início rápido de conversa em vários dispositivos para C# e C++ aqui.

Outras alterações

  • Otimização do tamanho da biblioteca principal do SDK no Android.
  • O SDK da versão 1.9.0 em diante dá suporte aos tipos int e string no campo de versão da assinatura de voz para o transcritor de conversas.

SDK de Fala 1.8.0: versão de novembro de 2019

Novos recursos

  • Adição de uma API FromHost() para facilitar o uso com contêineres locais e nuvens soberanas.
  • Adição de Identificação de Idioma de Origem para o Reconhecimento de fala (em Java e C++)
  • Adição do objeto SourceLanguageConfig para reconhecimento de fala, usado para especificar os idiomas de origem esperados (em Java e C++)
  • Adição de suporte a KeywordRecognizer no Windows (UWP), no Android e no iOS por meio dos pacotes NuGet e Unity
  • Adição da API Java de Conversa Remota para fazer a transcrição de conversas em lotes assíncronos.

Alterações interruptivas

  • Migração das funcionalidades do transcritor de conversas para o namespace Microsoft.CognitiveServices.Speech.Transcription.
  • Migração de algumas partes dos métodos do transcritor de conversas para a nova classe Conversation.
  • Remoção do suporte para o iOS de 32 bits (ARMv7 e x86)

Correções de bug

  • Correção de uma falha quando o KeywordRecognizer local era usado sem uma chave de assinatura válida do serviço de Fala

Exemplos

  • Exemplo do Xamarin para KeywordRecognizer
  • Exemplo do Unity para KeywordRecognizer
  • Exemplos de C++ e Java para Identificação de Automática de Idioma de Origem.

SDK de Fala 1.7.0: versão de setembro de 2019

Novos recursos

  • Adição de suporte beta para o Xamarin no UWP (Plataforma Universal do Windows), no Android e no iOS
  • Adição de suporte do iOS para Unity
  • Adição de suporte de entrada Compressed para o ALAW, o MULAW, o FLAC no Android, no iOS e no Linux
  • Adição de SendMessageAsync à classe Connection para envio de uma mensagem ao serviço
  • Adição de SetMessageProperty à classe Connection para definição da propriedade de uma mensagem
  • Adição de associações da TTS para Java (JRE e Android), Python, Swift e Objective-C
  • Adição de suporte à reprodução da TTS para macOS, iOS e Android.
  • Adição de informações de "limite de palavra" à TTS.

Correções de bug

  • Correção do problema de build do IL2CPP no Unity 2019 para Android
  • Correção do problema com o processamento incorreto de cabeçalhos malformados na entrada de arquivo WAV
  • Correção do problema com UUIDs que não eram exclusivos em algumas propriedades de conexão
  • Correção de alguns avisos sobre especificadores de nulidade nas associações do Swift (pode exigir pequenas alterações de código)
  • Correção de um bug que fazia com que as conexões do WebSocket fossem fechadas de modo anormal sob carga de rede
  • Correção de um problema no Android que, às vezes, resultava no uso de IDs de impressão duplicadas pelo DialogServiceConnector
  • Aprimoramentos na estabilidade de conexões entre interações de várias rodadas e o relatório de falhas (por meio de eventos Canceled) quando elas ocorriam com o DialogServiceConnector
  • Agora, os inícios da sessão do DialogServiceConnector fornecerão eventos, incluindo ao chamar ListenOnceAsync() durante um StartKeywordRecognitionAsync() ativo
  • Correção de uma falha associada ao recebimento das atividades do DialogServiceConnector

Exemplos

  • Guia de início rápido do Xamarin
  • Atualização do guia de início rápido do CPP com informações do Linux ARM64
  • Atualização do guia de início rápido do Unity com informações do iOS

SDK de Fala 1.6.0: versão de junho de 2019

Exemplos

  • Exemplos de início rápido para a conversão de texto em fala no UWP e no Unity
  • Exemplo de início rápido para o Swift no iOS
  • Exemplos do Unity para Reconhecimento de Fala e Intenção e Tradução
  • Atualização dos exemplos de início rápido para DialogServiceConnector

Melhorias/Alterações

  • Namespace de caixa de diálogo:
    • SpeechBotConnector foi renomeado para DialogServiceConnector
    • BotConfig foi renomeado para DialogServiceConfig
    • BotConfig::FromChannelSecret() foi renomeado para DialogServiceConfig::FromBotSecret()
    • Todos os clientes do Direct Line Speech existentes continuam tendo suporte após a renomeação
  • Atualização do adaptador REST da TTS para dar suporte à conexão persistente por proxy
  • Aprimoramento da mensagem de erro exibida quando uma região inválida era transmitida
  • Swift/Objective-C:
    • Aprimoramento do relatório de erros: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um objeto NSError para tratamento de erro e outra que gera uma exceção. Os primeiros são expostos ao Swift. Essa alteração exige adaptações no código SWIFT existente.
    • Aprimoramento da manipulação de eventos

Correções de bug

  • Correção para TTS: em que o SpeakTextAsync futuro era retornado sem aguardar até que o áudio concluísse a renderização
  • Correção para o marshaling de cadeias de caracteres em C# para habilitar o suporte completo ao idioma
  • Correção de um problema do aplicativo .NET Core para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
  • Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
  • Correção do fechamento confiável de soquete da Web
  • Correção de uma possível falha durante a abertura de uma conexão sob carga pesada no Linux
  • Correção de metadados ausentes no pacote da estrutura para macOS
  • Correção para problemas com pip install --user no Windows

SDK de Fala 1.5.1

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

Correções de bug

  • Correção de FromSubscription quando usada com a transcrição de conversas.
  • Correção de um bug na detecção de palavras-chave para assistentes de voz.

SDK de Fala 1.5.0: versão de maio de 2019

Novos recursos

  • A KWS (detecção de palavras-chave) já está disponível para o Windows e o Linux. A funcionalidade da KWS pode ser usada com qualquer tipo de microfone, o suporte oficial da KWS, mas, atualmente, está limitada às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
  • A funcionalidade de dica de frase está disponível por meio do SDK. Para mais informações, consulte aqui.
  • A funcionalidade de transcrição de conversas está disponível por meio do SDK.
  • Adição de suporte para assistentes de voz que usam o Direct Line Speech.

Exemplos

  • Adição de exemplos para novos recursos ou novos serviços compatíveis com o SDK.

Melhorias/Alterações

  • Adição de várias propriedades do reconhecedor para ajustar o comportamento ou os resultados do serviço (como mascaramento de conteúdo ofensivo e outros).
  • Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que você tenha criado o FromEndpoint do reconhecedor.
  • Objective-C: adição da propriedade OutputFormat a SPXSpeechConfiguration.
  • O SDK agora dá suporte ao Debian 9 como uma distribuição do Linux.

Correções de bug

  • Corrigido um problema em que o recurso do locutor era destruído cedo demais na conversão de texto em fala.

SDK de Fala 1.4.2

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

SDK de Fala 1.4.1

Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

  • Prevenção do carregamento do https-proxy-agent pelo do webpack.

SDK de Fala 1.4.0: versão de abril de 2019

Novos recursos

  • O SDK agora dá suporte ao serviço de Conversão de texto em fala como uma versão beta. Há suporte na área de trabalho do Windows e do Linux por meio do C++ e do C#. Para obter mais informações, confira a Visão geral da conversão de texto em fala.
  • O SDK agora dá suporte a arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Esse recurso só está disponível no Linux por meio do C++ e do C# e, no momento, está na versão beta (mais detalhes aqui).
  • O SDK de Fala para Java, .NET Core, C++ e Objective-C ganhou suporte para macOS. Atualmente, o suporte a Objective-C para macOS está na versão beta.
  • iOS: o SDK de Fala para iOS (Objective-C) agora também é publicado como um CocoaPod.
  • JavaScript: suporte para microfone não padrão como um dispositivo de entrada.
  • JavaScript: suporte a proxy para Node.js.

Exemplos

  • Adição de exemplos de uso do SDK de Fala com o C++ e o Objective-C no macOS.
  • Adição de exemplos que demonstram o uso do serviço de Conversão de texto em fala.

Melhorias/Alterações

  • Python: agora, as propriedades adicionais dos resultados do reconhecimento são expostas por meio da propriedade properties.
  • Para obter suporte adicional de desenvolvimento e depuração, redirecione as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
  • JavaScript: aprimoramento do desempenho de processamento de áudio.

Correções de bug

  • Mac/iOS: correção de um bug que resultava em uma longa espera quando uma conexão com o serviço de Fala não podia ser estabelecida.
  • Python: aprimoramento do tratamento de erro para argumentos em retornos de chamada do Python.
  • JavaScript: correção do relatório de estado incorreto para a fala encerrada em RequestSession.

SDK de Fala 1.3.1: atualização de fevereiro de 2019

Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.

Correção de bug

  • Correção de uma perda de memória durante o uso da entrada do microfone. A entrada de arquivo ou baseada em fluxo não foi afetada.

SDK de Fala 1.3.0: versão de fevereiro de 2019

Novos recursos

  • O SDK de Fala dá suporte à seleção do microfone de entrada por meio da classe AudioConfig. Isso permite que você transmita dados de áudio para o serviço de Fala de um microfone não padrão. Para obter mais informações, confira a documentação que descreve a seleção do dispositivo de entrada de áudio. Esse recurso ainda não está disponível no JavaScript.
  • O Speech SDK agora dá suporte ao Unity em uma versão beta. Envie comentários por meio da seção de problemas no repositório GitHub de exemplo. Essa versão dá suporte ao Unity no Windows x86 e x64 (área de trabalho ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso início rápido do Unity.
  • O arquivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornecido em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK do Core.

Exemplos

O novo conteúdo a seguir está disponível no nosso repositório de exemplo:

  • Exemplos adicionais para AudioConfig.FromMicrophoneInput.
  • Mais exemplos do Python para conversão e reconhecimento de intenção.
  • Exemplos adicionais para usar o objeto Connection no iOS.
  • Exemplos adicionais de Java para tradução com saída de áudio.
  • Novo exemplo para usar a API REST de Transcrição de Lote.

Melhorias/Alterações

  • Python
    • Aprimoramento da verificação de parâmetro e mensagens de erro em SpeechConfig.
    • Adição de suporte para o objeto Connection.
    • Suporte para Python de 32 bits (x86) no Windows.
    • O Speech SDK para Python está fora do beta.
  • iOS
    • O SDK agora é construído com relação ao SDK versão 12.1 do iOS.
    • O SDK agora dá suporte a iOS versões 9.2 e posteriores.
    • Melhore a documentação de referência e conserte vários nomes de propriedade.
  • JavaScript
    • Adição de suporte para o objeto Connection.
    • Adicione arquivos de definição de tipo para JavaScript agrupado
    • Suporte inicial e implementação para dicas de frase.
    • Retornar a coleção de propriedades com o serviço de JSON para reconhecimento
  • DLLs do Windows agora contêm um recurso de versão.
  • Se você criar um FromEndpoint do reconhecedor, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. Usando o FromEndpoint, você não pode configurar o reconhecedor por meio das propriedades de configuração padrão.

Correções de bug

  • O nome de usuário de proxy e a senha de proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário do proxy e a senha do proxy como uma cadeia de caracteres vazia, eles não serão enviados durante a conexão com o proxy.
  • As SessionIds criadas pelo SDK nem sempre eram realmente aleatórias para algumas linguagens/ambientes. Adição da inicialização aleatória do gerador para corrigir esse problema.
  • Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique SpeechConfig e deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume.
  • Em alguns casos, o objeto Connection não era liberado corretamente. Esse problema foi corrigido.
  • O exemplo de JavaScript foi corrigido para dar suporte para saída de áudio para síntese de conversão também no Safari.

Speech SDK 1.2.1

Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

  • Acionar o final do fluxo no turn.end, não no speech.end.
  • Correção de um bug na bomba de áudio que não agendava o próximo envio em caso de falha do envio atual.
  • Consertar reconhecimento contínuo com o token de autenticação.
  • Correção de bug para diferentes reconhecedores/pontos de extremidade.
  • Melhorias na documentação.

SDK de Fala 1.2.0: versão de dezembro de 2018

Novos recursos

  • Python
    • A versão Beta do suporte do Python (3.5 e posterior) está disponível com esta versão. Para saber mais, acesse aqui](../../quickstart-python.md).
  • JavaScript
    • O SDK de Fala para o JavaScript tem sido livre. O código-fonte está disponível no GitHub.
    • Agora damos suporte a node. js, mais informações podem ser encontradas aqui.
    • A restrição de comprimento para sessões de áudio foi removida, a reconexão ocorrerá automaticamente sob a tampa.
  • Objeto Connection
    • No Recognizer, você pode acessar um objeto Connection. Esse objeto permite iniciar a conexão de serviço e inscrever-se para se conectar e desconectar de eventos explicitamente. (Esse recurso ainda não está disponível no JavaScript e no Python.)
  • Suporte para Ubuntu 18.04.
  • Android
    • Suporte do ProGuard habilitado durante a geração de APK.

Aprimoramentos

  • Melhorias no uso de thread interno, reduzindo o número de threads, bloqueios e exclusões mútuas.
  • Relatório/informações de erros aprimorados. Em vários casos, as mensagens de erro não eram propagadas por completo.
  • As dependências de desenvolvimento atualizadas do JavaScript para usar módulos atualizados.

Correções de bug

  • Correção de perdas de memória devido a tipos incompatíveis em RecognizeAsync.
  • Em alguns casos, as exceções foram sendo vazadas.
  • Corrigindo o vazamento de memória em argumentos de evento de tradução.
  • Corrigido um problema de bloqueio na reconexão longa de sessões em execução.
  • Correção de um problema que podia levar a um resultado final ausente para traduções com falha.
  • C#: quando uma operação async não era colocada em espera no thread principal, era possível que o reconhecedor fosse descartado antes da conclusão da tarefa assíncrona.
  • Java: correção de um problema que resultava em uma falha da VM Java.
  • Objective-C: correção do mapeamento de enumeração: em vez de RecognizingIntent, RecognizedIntent era retornado.
  • JavaScript: definição do formato de saída padrão como 'simples' em SpeechConfig.
  • JavaScript: remoção da inconsistência entre as propriedades no objeto de configuração em JavaScript e em outras linguagens.

Exemplos

  • Atualização e correção de vários exemplos (por exemplo, vozes de saída para tradução etc.).
  • Adicionados exemplos do Node. js no repositório de exemplo.

SDK de Fala 1.1.0

Novos recursos

  • Suporte para Android x86/x64.
  • Suporte de proxy: no objeto SpeechConfig, agora você pode chamar uma função para definir as informações do proxy (nome do host, porta, nome de usuário e senha). Esse recurso ainda não está disponível no iOS.
  • Melhor código de erro e mensagens. Se um reconhecimento retornou um erro, isso já definiu Reason (no evento cancelado) ou CancellationDetails (no resultado do reconhecimento) para Error. O evento cancelado agora contém dois membros adicionais, ErrorCode e ErrorDetails. Se o servidor retornou informações de erro adicionais com o erro relatado, agora ele estará disponível nos novos membros.

Aprimoramentos

  • Adicionada verificação adicional na configuração do reconhecedor e adicionada outra mensagem de erro.
  • Manipulação aprimorada de silêncio de longa duração no meio de um arquivo de áudio.
  • Pacote NuGet: para projetos do .NET Framework, ele impede a construção com a configuração AnyCPU.

Correções de bug

  • Corrigido várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em evento Canceled.
  • Corrigir um vazamento de memória no gerenciamento de propriedades.
  • Corrigido o erro no qual um arquivo de entrada de áudio poderia travar o reconhecedor.
  • Corrigido um bug no qual os eventos podiam ser recebidos após um evento de parada da sessão.
  • Corrigidas algumas condições de corrida no threading.
  • Corrigido um problema de compatibilidade do iOS que poderia resultar em uma falha.
  • Melhorias de estabilidade para suporte de microfone Android.
  • Corrigido um erro em que um reconhecedor em JavaScript ignoraria o idioma de reconhecimento.
  • Correção de um bug que impedia a definição de EndpointId (em alguns casos) no JavaScript.
  • Alteração da ordem dos parâmetros em AddIntent no JavaScript e adição de uma assinatura JavaScript AddIntent ausente.

Exemplos

SDK de Fala 1.0.1

Melhorias na confiabilidade e correções de bugs:

  • Corrigido erro fatal potencial devido à condição de corrida no reconhecedor de descarte
  • Correção de erro fatal potencial quando ocorriam propriedades não definidas.
  • Adicionado erro adicional e verificação de parâmetros.
  • Objective-C: corrigido possível erro fatal causado por substituição de nome em NSString.
  • Objective-C: visibilidade ajustada da API
  • JavaScript: corrigido em relação a eventos e cargas.
  • Melhorias na documentação.

Em nosso repositório de exemplos, um novo exemplo para JavaScript foi adicionado.

SDK de Fala de IA do Azure 1.0.0: versão de setembro de 2018

Novos recursos

Alterações interruptivas

  • Com esta versão, várias alterações interruptivas foram introduzidas. Confira esta página para obter detalhes.

SDK de Fala de IA do Azure 0.6.0: versão de agosto de 2018

Novos recursos

  • Os aplicativos UWP criados com o SDK de Fala agora podem ser aprovados pelo WACK (Kit de Certificação de Aplicativos Windows). Confira o Início Rápido do UWP.
  • Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
  • Experimental: dê suporte Java 8 no Windows (64 bits) e no Linux (Ubuntu 16.04 x64). Confira o Início Rápido do Java Runtime Environment.

Alteração funcional

  • Expor informações de detalhe de erro adicionais sobre erros de conexão.

Alterações interruptivas

  • No Java (Android), a função SpeechFactory.configureNativePlatformBindingWithDefaultCertificate não requer mais um parâmetro de caminho. Agora, o caminho é detectado automaticamente em todas as plataformas com suporte.
  • O get-accessor da propriedade EndpointUrl em Java e C# foi removido.

Correções de bug

  • Em Java, o resultado da síntese de áudio no reconhecedor de tradução agora está implementado.
  • Foi corrigido um bug que podia causar threads inativos e um grande número de soquetes abertos e não usados.
  • Foi corrigido um problema em que o reconhecimento de execução longa podia terminar no meio da transmissão.
  • Corrigida uma condição de corrida no desligamento do reconhecedor.

SDK de Fala de IA do Azure 0.5.0: versão de julho de 2018

Novos recursos

  • Suporte a plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o Início Rápido para Android.
  • Suporte para .NET Standard 2.0 no Windows. Confira o Início Rápido para .NET Core.
  • Experimental: Suporte a UWP no Windows (versão 1709 ou posterior).
    • Confira o Início Rápido do UWP.
    • Observe que os aplicativos UWP criados com o SDK de Fala ainda não foram aprovados pelo WACK (Kit de Certificação de Aplicativos do Windows).
  • Suporte ao reconhecimento de execução longa com reconexão automática.

Alterações funcionais

  • O StartContinuousRecognitionAsync() dá suporte ao reconhecimento de execução longa.
  • O resultado do reconhecimento contém mais campos. Eles são deslocados do início do áudio e da duração (ambos em tiques) do texto reconhecido e dos valores adicionais que representam o status de reconhecimento, por exemplo, InitialSilenceTimeout e InitialBabbleTimeout.
  • Suporte para AuthorizationToken para criar instâncias de fábrica.

Alterações interruptivas

  • Eventos de reconhecimento: o tipo de evento NoMatch foi mesclado no evento Error.
  • O SpeechOutputFormat em C# foi renomeado para OutputFormat a fim de permanecer alinhado com o C++.
  • O tipo de retorno de alguns métodos da interface AudioInputStream foi um pouco alterado:
    • Em Java, o método read agora retorna long em vez de int.
    • Em C#, o método Read agora retorna uint em vez de int.
    • Em C++, os métodos Read e GetFormat agora retornam size_t em vez de int.
  • C++: as instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um shared_ptr.

Correções de bug

  • Foram corrigidos os valores retornados incorretos no resultado quando RecognizeAsync() atinge o tempo limite.
  • A dependência das bibliotecas do Media Foundation no Windows foi removida. O SDK agora usa as APIs Core Audio.
  • Correção da documentação: uma página de regiões foi adicionada para descrever as regiões com suporte.

Problema conhecido

  • O SDK de Fala para Android não relata os resultados da síntese de fala para tradução. Esse problema será corrigido na próxima versão.

SDK de Fala de IA do Azure 0.4.0: versão de junho de 2018

Alterações funcionais

  • AudioInputStream

    Agora, um reconhecedor pode consumir um fluxo como a fonte de áudio. Para obter mais detalhes, confira o guia de instruções relacionado.

  • Formato de saída detalhado

    Ao criar um SpeechRecognizer, você pode solicitar o formato de saída Detailed ou Simple. O DetailedSpeechRecognitionResult contém uma pontuação de confiança, texto reconhecido, forma léxica bruta, forma normalizada e forma normalizada com obscenidades mascaradas.

Alteração da falha

  • Alterado para SpeechRecognitionResult.Text de SpeechRecognitionResult.RecognizedText em C#.

Correções de bug

  • Foi corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
  • Se um reconhecedor consumir um arquivo de entrada de áudio, ele manteve o identificador de arquivo por mais tempo do que o necessário.
  • Foram removidos vários deadlocks entre a bomba de mensagens e o reconhecedor.
  • Dispare um resultado NoMatch quando o tempo de resposta do serviço esgotar.
  • As bibliotecas do Media Foundation no Windows são carregadas com atraso. Essa biblioteca é necessária apenas para entrada do microfone.
  • A velocidade de carregamento de dados de áudio é limitada a duas vezes a velocidade do áudio original.
  • No Windows, agora os assemblies .NET em C# têm nomes fortes.
  • Correção de documentação: Region são as informações necessárias para criar um reconhecedor.

Mais exemplos foram adicionados e são atualizados constantemente. Para obter o último conjunto de exemplos, confira o Repositório GitHub de exemplos do SDK de Fala.

SDK de Fala de IA do Azure 0.2.12733: versão de maio de 2018

Esta é a primeira versão de visualização pública do SDK de Fala de IA do Azure.