Question 1

Qual é a diferença entre um modelo base e um modelo personalizado de fala para texto?

Accepted Answer

Um modelo de fala para texto de linha de base é treinado com dados de propriedade da Microsoft e já está implantado na nuvem. Você pode criar e usar um modelo personalizado para se adequar melhor a um ambiente que tenha ruído ambiente ou linguagem específicos. Chão de fábrica, carros ou ruas barulhentas exigiriam um modelo acústico adaptado. Tópicos como biologia, física, radiologia, nomes de produtos e siglas personalizadas exigiriam um modelo de linguagem adaptado. Se você quiser treinar um modelo personalizado, você deve começar com o texto relacionado para melhorar o reconhecimento de termos e frases especiais.

Question 2

Por onde começo se quiser usar um modelo base?

Accepted Answer

Primeiro, obtenha uma chave de recurso de Fala e uma região no portal do Azure. Se você quiser fazer chamadas REST para um modelo base pré-implantado, consulte a documentação das APIs REST. Se você quiser usar WebSockets, baixe o SDK de fala.

Question 3

Preciso sempre criar um modelo de fala personalizado?

Accepted Answer

N.º Se o seu aplicativo usa linguagem genérica do dia a dia, você não precisa personalizar um modelo. Se seu aplicativo for usado em um ambiente onde há pouco ou nenhum ruído de fundo, você não precisará personalizar um modelo.

Você pode implantar modelos de linha de base e personalizados no portal e, em seguida, executar testes de precisão em relação a eles. Você pode usar esse recurso para medir a precisão de um modelo base versus um modelo personalizado.

Question 4

Como posso saber quando o processamento do meu conjunto de dados ou modelo está concluído?

Accepted Answer

Atualmente, a única maneira de saber é exibir o status do modelo ou conjunto de dados na tabela. Quando o processamento estiver concluído, o status será Bem-sucedido.

Question 5

Posso criar mais do que um modelo?

Accepted Answer

Não há limite para o número de modelos que pode ter na sua coleção.

Question 6

Percebi que cometi um erro. Como faço para cancelar uma importação de dados ou criação de modelo que está em andamento?

Accepted Answer

Atualmente, não é possível reverter um processo de adaptação acústica ou de linguagem. Você pode excluir dados e modelos importados quando eles estiverem em um estado terminal.

Question 7

Eu recebo vários resultados para cada frase com o formato de saída detalhado. Qual devo usar?

Accepted Answer

Tome sempre o primeiro resultado, mesmo que outro resultado ("N-Best") possa ter um valor de confiança mais elevado. O serviço de fala considera o primeiro resultado como o melhor. O resultado também pode ser uma sequência vazia se nenhum discurso for reconhecido.

Os outros resultados são provavelmente piores e podem não ter capitalização total e pontuação aplicada. Esses resultados são mais úteis em cenários especiais, como dar aos usuários a opção de selecionar correções de uma lista ou manipular comandos reconhecidos incorretamente.

Question 8

Por que existem vários modelos de base?

Accepted Answer

Você pode escolher entre mais de um modelo básico no serviço de fala. Cada nome de modelo contém a data em que foi adicionado. Quando você começar a treinar um modelo personalizado, use o modelo mais recente para obter a melhor precisão. Os modelos de base mais antigos ainda estão disponíveis por algum tempo depois que um novo modelo é disponibilizado. Você pode continuar usando o modelo com o qual trabalhou até que ele seja retirado (consulte Ciclo de vida do modelo e do ponto final). Ainda recomendamos que mude para o modelo base mais recente para uma melhor precisão.

Question 9

Posso atualizar meu modelo existente (empilhamento de modelos)?

Accepted Answer

Não é possível atualizar um modelo existente. Como solução, combine o conjunto de dados antigo com o novo conjunto de dados e readapte-o.

O conjunto de dados antigo e o novo conjunto de dados devem ser combinados num único ficheiro .zip (para dados acústicos) ou num ficheiro .txt (para dados linguísticos). Quando a adaptação estiver concluída, reimplante o modelo novo e atualizado para obter um novo ponto de extremidade.

Question 10

Quando uma nova versão de um modelo base está disponível, minha implantação é atualizada automaticamente?

Accepted Answer

As implantações não são atualizadas automaticamente.

Se você adaptou e implantou um modelo, a implantação existente permanecerá como está. Você pode desativar o modelo implantado, readaptá-lo usando a versão mais recente do modelo base e reimplantá-lo para obter melhor precisão.

Tanto os modelos base quanto os modelos personalizados são desativados após algum tempo (consulte Ciclo de vida do modelo e do ponto final).

Question 11

Posso fazer o download do meu modelo e executá-lo localmente?

Accepted Answer

Você pode executar um modelo personalizado localmente em um contêiner do Docker.

Question 12

Posso copiar ou mover meus conjuntos de dados, modelos e implantações para outra região ou assinatura?

Accepted Answer

Você pode usar a API REST do Models_Copy para copiar um modelo personalizado para outra região ou assinatura. Conjuntos de dados e implantações não podem ser copiados. Você pode importar um conjunto de dados novamente em outra assinatura e criar pontos de extremidade usando as cópias do modelo.

Question 13

Os meus pedidos estão registados?

Accepted Answer

Por padrão, as solicitações não são registradas (nem áudio nem transcrição). Se necessário, você pode selecionar a opção Registrar conteúdo deste ponto de extremidade ao criar um ponto de extremidade personalizado. Você também pode habilitar o registro de áudio no SDK de fala por solicitação, sem precisar criar um ponto de extremidade personalizado. Em ambos os casos, os resultados de áudio e reconhecimento das solicitações serão armazenados em armazenamento seguro. As assinaturas que usam armazenamento de propriedade da Microsoft ficam disponíveis por 30 dias.

Você pode exportar os arquivos registrados na página de implantação no Speech Studio se usar um ponto de extremidade personalizado com o conteúdo de log desse ponto de extremidade habilitado. Se o registro de áudio estiver habilitado por meio do SDK, chame a API para acessar os arquivos. Você também pode usar a API para excluir os logs a qualquer momento.

Question 14

Os meus pedidos estão limitados?

Accepted Answer

Para obter informações, consulte Cotas e limites do serviço de fala.

Question 15

Como sou cobrado pelo áudio de canal duplo?

Accepted Answer

Se você enviar cada canal separadamente em seu próprio arquivo, será cobrado pela duração do áudio de cada arquivo. Se você enviar um único arquivo com os canais multiplexados juntos, você será cobrado pela duração do arquivo único. Para obter mais informações sobre preços, consulte a página de preços dos serviços de IA do Azure.

Importante

Se você tiver outras preocupações de privacidade que o impeçam de usar o serviço de fala personalizado, entre em contato com um dos canais de suporte.

Aumentar a simultaneidade

Para obter informações, consulte Cotas e limites do serviço de fala.

Question 16

Qual é o limite para o tamanho de um conjunto de dados e por que ele é o limite?

Accepted Answer

O limite é devido à restrição no tamanho dos arquivos para upload HTTP. Para obter o limite real, consulte Cotas e limites do serviço de fala. Você pode dividir seus dados em vários conjuntos de dados e selecionar todos eles para treinar o modelo.

Question 17

Posso compactar (compactar) meus arquivos de texto para que eu possa carregar um arquivo de texto maior?

Accepted Answer

N.º Atualmente, apenas arquivos de texto não compactados são permitidos.

Question 18

O relatório de dados diz que houve declarações falhadas. Qual é o problema?

Accepted Answer

Uma falha ao carregar 100% dos enunciados em um arquivo não é um problema. Se a maioria dos enunciados em um conjunto de dados acústicos ou de linguagem (por exemplo, mais de 95%) for importada com êxito, o conjunto de dados poderá ser usado. No entanto, ainda recomendamos que você tente entender por que os enunciados falharam e, em seguida, corrija o problema. Os problemas mais comuns, como erros de formatação, são fáceis de corrigir.

Question 19

De quantos dados acústicos necessito?

Accepted Answer

Recomendamos começar com de 30 minutos a 1 hora de dados acústicos.

Question 20

Que dados devo recolher?

Accepted Answer

Colete dados o mais próximo possível do cenário do aplicativo e do caso de uso. A coleta de dados deve corresponder ao aplicativo de destino e aos usuários em termos de dispositivo ou dispositivos, ambientes e tipos de alto-falantes. Em geral, você deve coletar dados de uma gama tão ampla quanto possível de alto-falantes.

Question 21

Como devo recolher dados acústicos?

Accepted Answer

Você pode criar um aplicativo de coleta de dados independente ou usar um software de gravação de áudio pronto para uso. Você também pode criar uma versão do seu aplicativo que registra os dados de áudio e, em seguida, usa os dados.

Question 22

Preciso transcrever os dados de adaptação?

Accepted Answer

Sim. Você pode transcrevê-lo você mesmo ou usar um serviço de transcrição profissional. Alguns usuários preferem transcritores profissionais, e outros usam crowdsourcing ou transcrevem os próprios dados.

Question 23

Quanto tempo leva para treinar um modelo personalizado com dados de áudio?

Accepted Answer

Treinar um modelo com dados de áudio pode ser um processo demorado. Dependendo da quantidade de dados, pode levar vários dias para criar um modelo personalizado. Se não for possível concluir dentro de uma semana, o serviço pode abortar a operação de treinamento e relatar o modelo como falhado.

Em geral, o serviço de fala processa aproximadamente 10 horas de dados de áudio por dia em regiões que possuem hardware dedicado. Ele pode processar apenas cerca de 1 hora de dados de áudio por dia em outras regiões. O treinamento apenas com texto é mais rápido e normalmente termina em poucos minutos.

Use uma das regiões onde o hardware dedicado está disponível para treinamento. O serviço de Fala utiliza até 20 horas de áudio para treinamento nessas regiões. Em outras regiões, o serviço de fala usa até 8 horas.

Question 24

O que é a taxa de erro de palavras (WER) e como é calculada?

Accepted Answer

WER é a métrica de avaliação para reconhecimento de fala. O WER é calculado como o número total de erros (inserções, supressões e substituições), dividido pelo número total de palavras na transcrição de referência. Para obter mais informações, consulte Modelo de teste quantitativamente.

Question 25

Como posso determinar se os resultados de um teste de precisão são bons?

Accepted Answer

Os resultados mostram uma comparação entre o modelo base e o modelo personalizado. Para fazer a personalização valer a pena, você deve procurar superar o modelo básico.

Question 26

Como faço para determinar o WER de um modelo base para que eu possa ver se ele melhorou?

Accepted Answer

Os resultados do teste offline mostram a precisão da linha de base do modelo personalizado e a melhoria em relação à linha de base.

Question 27

De quantos dados de texto preciso carregar?

Accepted Answer

Depende de quão diferente o vocabulário e as frases usadas na sua aplicação são dos modelos de linguagem inicial. Para todas as palavras novas, é útil fornecer o maior número possível de exemplos do uso dessas palavras. Para frases comuns que são usadas em seu aplicativo, incluindo frases nos dados de idioma, fornecer muitos exemplos é útil porque diz ao sistema para ouvir esses termos também. É comum ter pelo menos 100 e, normalmente, várias centenas ou mais de enunciados no conjunto de dados de idioma. Além disso, se se espera que alguns tipos de consultas sejam mais comuns do que outros, você pode inserir várias cópias das consultas comuns no conjunto de dados.

Question 28

Posso simplesmente carregar uma lista de palavras?

Accepted Answer

Carregar uma lista de palavras adiciona-as ao vocabulário, mas não ensina ao sistema como as palavras são normalmente usadas. Ao fornecer enunciados totais ou parciais (frases ou frases de coisas que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizada é bom não apenas para adicionar novas palavras ao sistema, mas também para ajustar a probabilidade de palavras conhecidas para seu aplicativo. Fornecer enunciados completos ajuda o sistema a aprender melhor.

FAQ de fala para texto

Geral