O que é a fala personalizada?

Artigo
01/22/2024

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.

Pronto para usar, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonética representando vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente para cada idioma suportado é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

Um modelo personalizado pode ser usado para aumentar o modelo base para melhorar o reconhecimento do vocabulário específico do domínio específico para o aplicativo, fornecendo dados de texto para treinar o modelo. Ele também pode ser usado para melhorar o reconhecimento com base nas condições específicas de áudio do aplicativo, fornecendo dados de áudio com transcrições de referência.

Você também pode treinar um modelo com texto estruturado quando os dados seguem um padrão, para especificar pronúncias personalizadas e para personalizar a formatação de texto de exibição com normalização de texto inverso personalizada, reescrita personalizada e filtragem de palavrões personalizada.

Como é que isto funciona?

Com a fala personalizada, você pode carregar seus próprios dados, testar e treinar um modelo personalizado, comparar a precisão entre modelos e implantar um modelo em um ponto de extremidade personalizado.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Aqui estão mais informações sobre a sequência de etapas mostrada no diagrama anterior:

Crie um projeto e escolha um modelo. Use um recurso de Fala que você cria no portal do Azure. Se você treinar um modelo personalizado com dados de áudio, escolha uma região de recurso de fala com hardware dedicado para treinar dados de áudio. Para obter mais informações, consulte notas de rodapé na tabela de regiões .
Carregue dados de teste. Carregue dados de teste para avaliar a oferta de conversão de fala em texto para seus aplicativos, ferramentas e produtos.
Qualidade de reconhecimento de testes. Use o Speech Studio para reproduzir o áudio carregado e inspecionar a qualidade do reconhecimento de fala dos dados do teste.
Modelo de teste quantitativamente. Avaliar e melhorar a precisão do modelo de fala para texto. O serviço de Fala fornece uma taxa de erro quantitativa de palavras (WER), que você pode usar para determinar se é necessário mais treinamento.
Treine um modelo. Forneça transcrições escritas e texto relacionado, juntamente com os dados de áudio correspondentes. Testar um modelo antes e depois do treinamento é opcional, mas recomendado.

Nota

Você paga pelo uso do modelo de fala personalizado e pela hospedagem de pontos finais. Você também será cobrado pelo treinamento de modelo de fala personalizado se o modelo base tiver sido criado em 1º de outubro de 2023 e posterior. Você não será cobrado pelo treinamento se o modelo base tiver sido criado antes de outubro de 2023. Para obter mais informações, consulte Preços do Azure AI Speech e a seção Cobrar pela adaptação no guia de migração de fala para texto 3.2.
Implante um modelo. Quando estiver satisfeito com os resultados do teste, implante o modelo em um ponto de extremidade personalizado. Exceto para transcrição em lote, você deve implantar um ponto de extremidade personalizado para usar um modelo de fala personalizado.

Gorjeta

Um ponto de extremidade de implantação hospedado não é necessário para usar fala personalizada com a API de transcrição em lote. Você pode conservar recursos se o modelo de fala personalizado for usado apenas para transcrição em lote. Para obter mais informações, consulte Preços do serviço de fala.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

O que é a fala personalizada?

Como é que isto funciona?

IA responsável

Próximos passos

Recursos adicionais