Editar

FAQ de fala para texto

Este artigo responde a perguntas frequentes sobre o serviço de fala para texto. Se não conseguir encontrar respostas às suas perguntas aqui, consulte outras opções de suporte.

Geral

Qual é a diferença entre um modelo base e um modelo personalizado de fala para texto?

Um modelo de fala para texto de linha de base é treinado com dados de propriedade da Microsoft e já está implantado na nuvem. Você pode criar e usar um modelo personalizado para se adequar melhor a um ambiente que tenha ruído ambiente ou linguagem específicos. Chão de fábrica, carros ou ruas barulhentas exigiriam um modelo acústico adaptado. Tópicos como biologia, física, radiologia, nomes de produtos e siglas personalizadas exigiriam um modelo de linguagem adaptado. Se você quiser treinar um modelo personalizado, você deve começar com o texto relacionado para melhorar o reconhecimento de termos e frases especiais.

Por onde começo se quiser usar um modelo base?

Primeiro, obtenha uma chave de recurso de Fala e uma região no portal do Azure. Se você quiser fazer chamadas REST para um modelo base pré-implantado, consulte a documentação das APIs REST. Se você quiser usar WebSockets, baixe o SDK de fala.

Preciso sempre criar um modelo de fala personalizado?

N.º Se o seu aplicativo usa linguagem genérica do dia a dia, você não precisa personalizar um modelo. Se seu aplicativo for usado em um ambiente onde há pouco ou nenhum ruído de fundo, você não precisará personalizar um modelo.

Você pode implantar modelos de linha de base e personalizados no portal e, em seguida, executar testes de precisão em relação a eles. Você pode usar esse recurso para medir a precisão de um modelo base versus um modelo personalizado.

Como posso saber quando o processamento do meu conjunto de dados ou modelo está concluído?

Atualmente, a única maneira de saber é exibir o status do modelo ou conjunto de dados na tabela. Quando o processamento estiver concluído, o status será Bem-sucedido.

Posso criar mais do que um modelo?

Não há limite para o número de modelos que pode ter na sua coleção.

Percebi que cometi um erro. Como faço para cancelar uma importação de dados ou criação de modelo que está em andamento?

Atualmente, não é possível reverter um processo de adaptação acústica ou de linguagem. Você pode excluir dados e modelos importados quando eles estiverem em um estado terminal.

Eu recebo vários resultados para cada frase com o formato de saída detalhado. Qual devo usar?

Tome sempre o primeiro resultado, mesmo que outro resultado ("N-Best") possa ter um valor de confiança mais elevado. O serviço de fala considera o primeiro resultado como o melhor. O resultado também pode ser uma sequência vazia se nenhum discurso for reconhecido.

Os outros resultados são provavelmente piores e podem não ter capitalização total e pontuação aplicada. Esses resultados são mais úteis em cenários especiais, como dar aos usuários a opção de selecionar correções de uma lista ou manipular comandos reconhecidos incorretamente.

Por que existem vários modelos de base?

Você pode escolher entre mais de um modelo básico no serviço de fala. Cada nome de modelo contém a data em que foi adicionado. Quando você começar a treinar um modelo personalizado, use o modelo mais recente para obter a melhor precisão. Os modelos de base mais antigos ainda estão disponíveis por algum tempo depois que um novo modelo é disponibilizado. Você pode continuar usando o modelo com o qual trabalhou até que ele seja retirado (consulte Ciclo de vida do modelo e do ponto final). Ainda recomendamos que mude para o modelo base mais recente para uma melhor precisão.

Posso atualizar meu modelo existente (empilhamento de modelos)?

Não é possível atualizar um modelo existente. Como solução, combine o conjunto de dados antigo com o novo conjunto de dados e readapte-o.

O conjunto de dados antigo e o novo conjunto de dados devem ser combinados num único ficheiro .zip (para dados acústicos) ou num ficheiro .txt (para dados linguísticos). Quando a adaptação estiver concluída, reimplante o modelo novo e atualizado para obter um novo ponto de extremidade.

Quando uma nova versão de um modelo base está disponível, minha implantação é atualizada automaticamente?

As implantações não são atualizadas automaticamente.

Se você adaptou e implantou um modelo, a implantação existente permanecerá como está. Você pode desativar o modelo implantado, readaptá-lo usando a versão mais recente do modelo base e reimplantá-lo para obter melhor precisão.

Tanto os modelos base quanto os modelos personalizados são desativados após algum tempo (consulte Ciclo de vida do modelo e do ponto final).

Posso fazer o download do meu modelo e executá-lo localmente?

Você pode executar um modelo personalizado localmente em um contêiner do Docker.

Posso copiar ou mover meus conjuntos de dados, modelos e implantações para outra região ou assinatura?

Você pode usar a API REST do Models_Copy para copiar um modelo personalizado para outra região ou assinatura. Conjuntos de dados e implantações não podem ser copiados. Você pode importar um conjunto de dados novamente em outra assinatura e criar pontos de extremidade usando as cópias do modelo.

Os meus pedidos estão registados?

Por padrão, as solicitações não são registradas (nem áudio nem transcrição). Se necessário, você pode selecionar a opção Registrar conteúdo deste ponto de extremidade ao criar um ponto de extremidade personalizado. Você também pode habilitar o registro de áudio no SDK de fala por solicitação, sem precisar criar um ponto de extremidade personalizado. Em ambos os casos, os resultados de áudio e reconhecimento das solicitações serão armazenados em armazenamento seguro. As assinaturas que usam armazenamento de propriedade da Microsoft ficam disponíveis por 30 dias.

Você pode exportar os arquivos registrados na página de implantação no Speech Studio se usar um ponto de extremidade personalizado com o conteúdo de log desse ponto de extremidade habilitado. Se o registro de áudio estiver habilitado por meio do SDK, chame a API para acessar os arquivos. Você também pode usar a API para excluir os logs a qualquer momento.

Os meus pedidos estão limitados?

Para obter informações, consulte Cotas e limites do serviço de fala.

Como sou cobrado pelo áudio de canal duplo?

Se você enviar cada canal separadamente em seu próprio arquivo, será cobrado pela duração do áudio de cada arquivo. Se você enviar um único arquivo com os canais multiplexados juntos, você será cobrado pela duração do arquivo único. Para obter mais informações sobre preços, consulte a página de preços dos serviços de IA do Azure.

Importante

Se você tiver outras preocupações de privacidade que o impeçam de usar o serviço de fala personalizado, entre em contato com um dos canais de suporte.

Aumentar a simultaneidade

Para obter informações, consulte Cotas e limites do serviço de fala.

Importar dados

Qual é o limite para o tamanho de um conjunto de dados e por que ele é o limite?

O limite é devido à restrição no tamanho dos arquivos para upload HTTP. Para obter o limite real, consulte Cotas e limites do serviço de fala. Você pode dividir seus dados em vários conjuntos de dados e selecionar todos eles para treinar o modelo.

Posso compactar (compactar) meus arquivos de texto para que eu possa carregar um arquivo de texto maior?

N.º Atualmente, apenas arquivos de texto não compactados são permitidos.

O relatório de dados diz que houve declarações falhadas. Qual é o problema?

Uma falha ao carregar 100% dos enunciados em um arquivo não é um problema. Se a maioria dos enunciados em um conjunto de dados acústicos ou de linguagem (por exemplo, mais de 95%) for importada com êxito, o conjunto de dados poderá ser usado. No entanto, ainda recomendamos que você tente entender por que os enunciados falharam e, em seguida, corrija o problema. Os problemas mais comuns, como erros de formatação, são fáceis de corrigir.

Criação de um modelo acústico

De quantos dados acústicos necessito?

Recomendamos começar com de 30 minutos a 1 hora de dados acústicos.

Que dados devo recolher?

Colete dados o mais próximo possível do cenário do aplicativo e do caso de uso. A coleta de dados deve corresponder ao aplicativo de destino e aos usuários em termos de dispositivo ou dispositivos, ambientes e tipos de alto-falantes. Em geral, você deve coletar dados de uma gama tão ampla quanto possível de alto-falantes.

Como devo recolher dados acústicos?

Você pode criar um aplicativo de coleta de dados independente ou usar um software de gravação de áudio pronto para uso. Você também pode criar uma versão do seu aplicativo que registra os dados de áudio e, em seguida, usa os dados.

Preciso transcrever os dados de adaptação?

Sim. Você pode transcrevê-lo você mesmo ou usar um serviço de transcrição profissional. Alguns usuários preferem transcritores profissionais, e outros usam crowdsourcing ou transcrevem os próprios dados.

Quanto tempo leva para treinar um modelo personalizado com dados de áudio?

Treinar um modelo com dados de áudio pode ser um processo demorado. Dependendo da quantidade de dados, pode levar vários dias para criar um modelo personalizado. Se não for possível concluir dentro de uma semana, o serviço pode abortar a operação de treinamento e relatar o modelo como falhado.

Em geral, o serviço de fala processa aproximadamente 10 horas de dados de áudio por dia em regiões que possuem hardware dedicado. Ele pode processar apenas cerca de 1 hora de dados de áudio por dia em outras regiões. O treinamento apenas com texto é mais rápido e normalmente termina em poucos minutos.

Use uma das regiões onde o hardware dedicado está disponível para treinamento. O serviço de Fala utiliza até 20 horas de áudio para treinamento nessas regiões. Em outras regiões, o serviço de fala usa até 8 horas.

Testes de precisão

O que é a taxa de erro de palavras (WER) e como é calculada?

WER é a métrica de avaliação para reconhecimento de fala. O WER é calculado como o número total de erros (inserções, supressões e substituições), dividido pelo número total de palavras na transcrição de referência. Para obter mais informações, consulte Modelo de teste quantitativamente.

Como posso determinar se os resultados de um teste de precisão são bons?

Os resultados mostram uma comparação entre o modelo base e o modelo personalizado. Para fazer a personalização valer a pena, você deve procurar superar o modelo básico.

Como faço para determinar o WER de um modelo base para que eu possa ver se ele melhorou?

Os resultados do teste offline mostram a precisão da linha de base do modelo personalizado e a melhoria em relação à linha de base.

Criando um modelo de linguagem

De quantos dados de texto preciso carregar?

Depende de quão diferente o vocabulário e as frases usadas na sua aplicação são dos modelos de linguagem inicial. Para todas as palavras novas, é útil fornecer o maior número possível de exemplos do uso dessas palavras. Para frases comuns que são usadas em seu aplicativo, incluindo frases nos dados de idioma, fornecer muitos exemplos é útil porque diz ao sistema para ouvir esses termos também. É comum ter pelo menos 100 e, normalmente, várias centenas ou mais de enunciados no conjunto de dados de idioma. Além disso, se se espera que alguns tipos de consultas sejam mais comuns do que outros, você pode inserir várias cópias das consultas comuns no conjunto de dados.

Posso simplesmente carregar uma lista de palavras?

Carregar uma lista de palavras adiciona-as ao vocabulário, mas não ensina ao sistema como as palavras são normalmente usadas. Ao fornecer enunciados totais ou parciais (frases ou frases de coisas que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizada é bom não apenas para adicionar novas palavras ao sistema, mas também para ajustar a probabilidade de palavras conhecidas para seu aplicativo. Fornecer enunciados completos ajuda o sistema a aprender melhor.