Usar um pipeline de transcrição de fala para texto para analisar conversas gravadas

Azure AI Speech

Linguagem de IA do Azure

Azure AI services

Azure Synapse Analytics

Azure Logic Apps

O reconhecimento de fala e a análise de chamadas gravadas de clientes podem fornecer à sua empresa informações valiosas sobre tendências atuais, deficiências de produtos e sucessos.

A solução de exemplo descrita neste artigo descreve um pipeline repetível para transcrever e analisar dados de conversa.

Arquitetura

A arquitetura consiste em dois pipelines: um pipeline de transcrição para converter áudio em texto e um pipeline de enriquecimento e visualização.

Pipeline de transcrição

Diagrama que ilustra como ingerir fala e convertê-la em texto usando os serviços de IA do Azure.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

Os ficheiros de áudio são carregados para uma conta de Armazenamento do Azure através de qualquer método suportado. Você pode usar uma ferramenta baseada em interface do usuário, como o Gerenciador de Armazenamento do Azure, ou usar um SDK ou API de armazenamento.
O carregamento para o Armazenamento do Azure aciona um aplicativo lógico do Azure. O aplicativo lógico acessa todas as credenciais necessárias no Cofre da Chave do Azure e faz uma solicitação à API de transcrição em lote do serviço de Fala.
O aplicativo lógico envia a chamada de arquivos de áudio para o serviço de fala, incluindo configurações opcionais para diarização do alto-falante.
O serviço de Fala conclui a transcrição em lote e carrega os resultados da transcrição na conta de armazenamento.

Pipeline de enriquecimento e visualização

Diagrama que ilustra o pipeline de enriquecimento e visualização.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

Um pipeline do Azure Synapse Analytics é executado para recuperar e processar o texto de áudio transcrito.
O pipeline envia o texto processado por meio de uma chamada de API para o serviço de idiomas. O serviço realiza vários enriquecimentos de processamento de linguagem natural (NLP), como mineração de sentimento e opinião, sumarização e reconhecimento de entidades nomeadas personalizadas e pré-construídas.
Os dados processados são armazenados em um pool SQL do Azure Synapse Analytics, onde podem ser servidos para ferramentas de visualização como o Power BI.

Componentes

Armazenamento de Blobs do Azure. Armazenamento de objetos massivamente escalável e seguro para cargas de trabalho nativas da nuvem, arquivos, data lakes, computação de alto desempenho e aprendizado de máquina. Nesta solução, armazena os ficheiros de áudio e os resultados da transcrição e serve como um data lake para análises a jusante.
Azure Logic Apps. Uma plataforma de integração como serviço (iPaaS) construída em um tempo de execução conteinerizado. Nesta solução, integra serviços de IA de armazenamento e fala.
Serviço AI Speech. Uma API baseada em IA que fornece recursos de fala como fala para texto, texto para fala, tradução de fala e reconhecimento de orador. Sua funcionalidade de transcrição em lote é usada nesta solução.
Linguagem AI. Um serviço gerenciado baseado em IA que fornece recursos de linguagem natural, como análise de sentimento, extração de entidade e resposta automatizada a perguntas.
Azure Synapse Analytics. Um conjunto de serviços que fornecem integração de dados, armazenamento de dados corporativos e análise de big data. Nesta solução, transforma e enriquece os dados de transcrição e fornece dados para ferramentas de visualização a jusante.
Power BI. Uma ferramenta de modelagem de dados e análise visual. Nesta solução, apresenta insights de áudio transcritos para usuários e tomadores de decisão.

Alternativas

Aqui estão algumas abordagens alternativas para essa arquitetura de solução:

Considere configurar a conta de Armazenamento de Blob para usar um namespace hierárquico. Essa configuração fornece controles de segurança baseados em lista de controle de acesso (ACL) e pode melhorar o desempenho de algumas cargas de trabalho de big data.
Talvez você possa usar o Azure Functions como uma ferramenta de integração code-first em vez de Aplicativos Lógicos ou pipelines do Azure Synapse, dependendo do tamanho e da escala da carga de trabalho.

Detalhes do cenário

Os centros de atendimento ao cliente são parte integrante do sucesso de muitas empresas em muitos setores. Esta solução utiliza a API de Voz dos serviços de IA do Azure para a transcrição de áudio e diarização de chamadas de clientes gravadas. O Azure Synapse Analytics é usado para processar e executar tarefas de PNL, como análise de sentimento e reconhecimento personalizado de entidade nomeada por meio de chamadas de API para a Linguagem de IA.

Você pode usar os serviços e o pipeline descritos aqui para processar texto transcrito para reconhecer e remover informações confidenciais, realizar análises de sentimento e muito mais. Você pode dimensionar os serviços e o pipeline para acomodar qualquer volume de dados gravados.

Potenciais casos de utilização

Essa solução pode fornecer valor para organizações em muitos setores, incluindo telecomunicações, serviços financeiros e governo. Aplica-se a qualquer organização que grave conversas. Em particular, call centers ou balcões de suporte internos ou voltados para o cliente podem se beneficiar dos insights derivados dessa solução.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

A solicitação à API de Fala pode incluir um URI de Assinatura de Acesso Compartilhado (SAS) para um contêiner de destino no Armazenamento do Azure. Um URI SAS permite que o serviço de Fala produza diretamente os arquivos de transcrição para o local do contêiner. Se sua organização não permitir o uso de URIs SAS para armazenamento, você precisará implementar uma função para sondar periodicamente a API de fala para ativos concluídos.
Credenciais como chaves de conta ou API devem ser armazenadas no Cofre de Chaves do Azure como segredos. Configure seus aplicativos lógicos e pipelines do Azure Synapse para acessar o cofre de chaves usando identidades gerenciadas para evitar armazenar segredos nas configurações do aplicativo ou no código.
Os arquivos de áudio armazenados no blob podem conter dados confidenciais do cliente. Se vários clientes estiverem usando a solução, você precisará restringir o acesso a esses arquivos. Use o namespace hierárquico na conta de armazenamento e imponha permissões de nível de pasta e arquivo para limitar o acesso apenas à instância necessária do Microsoft Entra.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Todos os serviços do Azure descritos nesta arquitetura fornecem uma opção para faturação pré-paga, pelo que os custos da solução são dimensionados linearmente.

O Azure Synapse fornece uma opção para pools SQL sem servidor, para que a computação para a carga de trabalho de armazenamento de dados possa ser girada sob demanda. Se você não estiver usando o Azure Synapse para atender a outros casos de uso downstream, considere usar serverless para reduzir custos.

Consulte Visão geral do pilar de otimização de custos para obter mais estratégias de otimização de custos.

Para obter preços para os serviços sugeridos aqui, consulte esta estimativa na calculadora de preços do Azure.

Eficiência de desempenho

Eficiência de desempenho é a capacidade da sua carga de trabalho para dimensionar para satisfazer as exigências que os utilizadores lhe colocam de forma eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

A API de fala em lote foi projetada para alto volume, mas outras APIs de serviços de IA do Azure podem ter limites de solicitação para cada camada de assinatura. Considere a criação de contêineres nessas APIs para evitar a limitação do processamento de grandes volumes. Os contêineres oferecem flexibilidade na implantação, na nuvem ou no local. Você também pode atenuar os efeitos colaterais das distribuições de novas versões usando contêineres. Para obter mais informações, consulte Suporte de contêiner nos serviços de IA do Azure.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Dhanashri Kshirsagar - Brasil | Gerente de Programa de Conteúdo Sênior
Brady Leavitt - Brasil | Dir Especialista GBB
Kirpa Singh - Brasil | Engenheiro de Software Sênior
Christina Skarpathiotaki - Brasil | Arquiteto de Soluções Cloud

Outros contribuidores:

Mick Alberts - Brasil | Redator Técnico

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Usar um pipeline de transcrição de fala para texto para analisar conversas gravadas

Arquitetura

Pipeline de transcrição

Fluxo de dados

Pipeline de enriquecimento e visualização

Fluxo de dados

Componentes

Alternativas

Detalhes do cenário

Potenciais casos de utilização

Considerações

Segurança

Otimização de custos

Eficiência de desempenho

Contribuidores

Próximos passos

Comentários

Comentários

Recursos adicionais

Usar um pipeline de transcrição de fala para texto para analisar conversas gravadas

Arquitetura

Pipeline de transcrição

Fluxo de dados

Pipeline de enriquecimento e visualização

Fluxo de dados

Componentes

Alternativas

Detalhes do cenário

Potenciais casos de utilização

Considerações

Segurança

Otimização de custos

Eficiência de desempenho

Contribuidores

Próximos passos

Recursos relacionados

Comentários

Comentários

Recursos adicionais