Criar uma assistente de voz sem código no Azure Percept Studio

Artigo
02/07/2023

Importante

Descontinuação do Azure Percept DK:

Atualização 22 de fevereiro de 2023: está agora disponível uma atualização de firmware para os componentes do acessório Percept DK Visão e Áudio (também conhecido como SOM de Visão e Áudio) e permitirá que os componentes do acessório continuem a funcionar para além da data de descontinuação.

A pré-visualização pública do Azure Percept irá evoluir para suportar novas plataformas de dispositivos edge e experiências de programador. Como parte desta evolução, o Azure Percept DK and Audio Accessory e os serviços de suporte associados do Azure para o Percept DK serão descontinuados a 30 de março de 2023.

A partir de 30 de março de 2023, o Azure Percept DK e o Acessório de Áudio deixarão de ser suportados por quaisquer serviços do Azure, incluindo Azure Percept Studio, atualizações do SO, atualizações de contentores, visualização de fluxo Web e integração de Visão Personalizada. A Microsoft deixará de fornecer suporte de sucesso ao cliente e quaisquer serviços de suporte associados. Para obter mais informações, visite a Mensagem de Blogue Aviso de Extinção.

Neste tutorial, irá criar uma assistente de voz a partir de um modelo para utilizar com o seu Azure Percept DK e Azure Percept Audio. A demonstração de assistente de voz é executada no Azure Percept Studio e contém uma seleção de objetos virtuais controlados por voz. Para controlar um objeto, diga a sua palavra-chave, que é uma palavra ou expressão abreviada que reativa o seu dispositivo, seguido de um comando. Cada modelo responde a um conjunto de comandos específicos.

Este guia irá guiá-lo ao longo do processo de configuração dos seus dispositivos, criação de um assistente de voz e dos recursos necessários dos Serviços de Voz, teste a sua assistente de voz, configure a sua palavra-chave e crie palavras-chave personalizadas.

Pré-requisitos

Azure Percept DK (devkit)
Azure Percept Audio
Altifalante ou auscultadores que podem ligar a uma tomada de áudio de 3,5 mm (opcional)
Subscrição do Azure
Experiência de configuração do Azure Percept DK: ligou o seu devkit a uma rede Wi-Fi, criou uma Hub IoT e ligou o seu devkit ao Hub IoT
Azure Percept Audio configuração

Criar uma assistente de voz com um modelo disponível

Navegue para Azure Percept Studio.
Abra o separador Demos & tutoriais .
Clique em Experimentar modelos de voz assistente em Tutoriais e demonstrações de Voz. Esta ação irá abrir uma janela no lado direito do ecrã.
Efetue o seguinte procedimento na janela:
1. No menu pendente Hub IoT, selecione o hub IoT ao qual o seu devkit está ligado.
2. No menu pendente Dispositivo , selecione o seu devkit.
3. Selecione um dos modelos de assistente de voz disponíveis.
4. Clique na caixa de verificação Concordo com os termos & condições deste projeto .
5. Clique em Criar.
Depois de clicar em Criar, o portal abre outra janela para criar o recurso de tema de voz. Efetue o seguinte procedimento na janela:
1. Selecione a sua subscrição do Azure na caixa Subscrição .
2. Selecione o seu grupo de recursos preferido no menu pendente Grupo de recursos. Se quiser criar um novo grupo de recursos para utilizar com a sua voz assistente, clique em Criar no menu pendente e siga as instruções.
3. Em Prefixo da aplicação, introduza um nome. Este será o prefixo do projeto e o nome do comando personalizado.
4. Em Região, selecione a região na que pretende implementar recursos.
5. Em Escalão de preço de predição do LUIS, selecione Standard (o escalão gratuito não suporta pedidos de voz).
6. Clique no botão Criar. Os recursos para a aplicação assistente de voz serão implementados na sua subscrição.
  
  Aviso
  
  NÃO feche a janela até que o portal termine a implementação do recurso. Fechar a janela prematuramente pode resultar num comportamento inesperado da assistente de voz. Assim que o recurso tiver sido implementado, a demonstração será apresentada.

Testar a sua assistente de voz

Para interagir com a sua assistente de voz, diga a palavra-chave seguida de um comando. Quando o Ear SoM reconhece a palavra-chave, o dispositivo emite um sino (que pode ouvir se um altifalante ou auscultadores estão ligados) e os LEDs irão piscar a azul. Os LEDs mudarão para azul de corrida enquanto o comando é processado. A resposta do assistente de voz ao comando será impressa em texto na janela de demonstração e emitida de forma audível através dos altifalantes/auscultadores. A palavra-chave predefinida (listada junto a Palavra-chave Personalizada) está definida como "Computador" e cada modelo tem um conjunto de comandos compatíveis que lhe permitem interagir com objetos virtuais na janela de demonstração. Por exemplo, se estiver a utilizar a demonstração de hospitalidade ou cuidados de saúde, diga "Computador, ligar a TV" para ativar a TV virtual.

Captura de ecrã da janela de demonstração de hospitalidade.

Comandos de demonstração de hospitalidade e cuidados de saúde

Tanto os cuidados de saúde como as demonstrações de hospitalidade têm televisores virtuais, luzes, persianas e termóstatos com os quais pode interagir. São suportados os seguintes comandos (e variações adicionais):

"Ligue/desligue as luzes."
"Ativar/desativar a televisão."
"Ativar/desativar o AC."
"Abra/feche as persianas."
"Defina a temperatura como X graus." (X é a temperatura pretendida, por exemplo, 75.)

Captura de ecrã da janela de demonstração de cuidados de saúde.

Comandos de demonstração automóvel

A demonstração automóvel tem um aquecedor de assento virtual, descongelador e termóstato com o qual pode interagir. São suportados os seguintes comandos (e variações adicionais):

"Ativar/descongelar o descongelador."
"Ligue/desligue o aquecedor de assentos."
"Defina a temperatura como X graus." (X é a temperatura pretendida, por exemplo, 75.)
"Aumente/diminua a temperatura em Y graus."

Captura de ecrã da janela de demonstração automóvel.

Comandos de demonstração de inventário

A demonstração de inventário tem uma seleção de caixas azuis virtuais, amarelas e verdes com as qual interagir, juntamente com uma aplicação de inventário virtual. São suportados os seguintes comandos (e variações adicionais):

"Adicionar/remover caixas X." (X é o número de caixas, por exemplo, 4.)
"Encomendar/enviar caixas X."
"Quantas caixas estão em stock?"
"Contar caixas Y". (Y é a cor das caixas, por exemplo, amarelo.)
"Enviar tudo em stock."

Captura de ecrã da janela de demonstração de inventário.

Configurar a palavra-chave

Pode personalizar a palavra-chave para a sua aplicação de assistente de voz.

Clique em alterar junto a Palavra-chave Personalizada na janela de demonstração.
Selecione uma das palavras-chave disponíveis. Poderá escolher entre uma seleção de palavras-chave de exemplo e quaisquer palavras-chave personalizadas que tenha criado.
Clique em Guardar.

Criar uma palavra-chave personalizada

Pode criar a sua própria palavra-chave para a sua aplicação de voz. A preparação para a sua palavra-chave personalizada pode ser concluída em apenas alguns minutos.

Clique em + Criar Palavra-chave Personalizada junto à parte superior da janela de demonstração.
Introduza a palavra-chave pretendida, que pode ser uma única palavra ou uma expressão curta.
Selecione o recurso de Voz (esta opção está listada junto a Comando Personalizado na janela de demonstração e contém o prefixo da aplicação).
Clique em Guardar.

Criar um comando personalizado

O portal também fornece funcionalidades para criar comandos personalizados com recursos de voz existentes. "Comando personalizado" refere-se à aplicação de voz assistente em si, não a um comando específico na aplicação existente. Ao criar um comando personalizado, está a criar um novo projeto de voz, que tem de desenvolver no Speech Studio.

Para criar um novo comando personalizado a partir da janela de demonstração, clique em + Criar Comando Personalizado na parte superior da página e faça o seguinte:

Introduza um nome para o comando personalizado.
Introduza uma descrição do seu projeto (opcional).
Selecione o seu idioma preferido.
Selecione o recurso de voz.
Selecione o recurso do LUIS.
Selecione o recurso de criação do LUIS ou crie um novo.
Clique em Criar.

Captura de ecrã da janela de criação de comandos personalizados.

Depois de criar um comando personalizado, tem de aceder ao Speech Studio para mais desenvolvimento. Se abrir o Speech Studio e não vir o comando personalizado listado, siga estes passos:

No painel de menus esquerdo do Azure Percept Studio, clique em Voz em Projetos de IA.
Selecione o separador Comandos .
Selecione o comando personalizado que pretende desenvolver. Esta ação abre o projeto no Speech Studio.

Para obter mais informações sobre como desenvolver comandos personalizados, veja a documentação do Serviço de Voz.

Resolução de problemas

A assistente de voz foi criada, mas não responde aos comandos

Verifique as luzes LED no Quadro do Interposer:

Três luzes azuis sólidas indicam que a voz assistente está pronta e à espera da palavra-chave.
Se o LED central (L02) for branco, o devkit concluiu a inicialização e tem de ser configurado com uma palavra-chave.
Se o LED central (L02) estiver a piscar a branco, o SoM de Áudio ainda não concluiu a inicialização. A inicialização pode demorar alguns minutos a concluir.

Para obter mais informações sobre os indicadores LED, consulte o artigo LED.

O voice assistente não responde a uma palavra-chave personalizada criada no Speech Studio

Isto pode ocorrer se o módulo de voz estiver desatualizado. Siga estes passos para atualizar o módulo de voz para a versão mais recente:

Clique em Dispositivos no painel de menus esquerdo do Azure Percept Studio home page.
Localize e selecione o seu dispositivo.
Na janela do dispositivo, selecione o separador Voz .
Verifique a versão do módulo de voz. Se estiver disponível uma atualização, verá um botão Atualizar junto ao número da versão.
Clique em Atualizar para implementar a atualização do módulo de voz. Geralmente, o processo de atualização demora 2 a 3 minutos a ser concluído.

Limpar os recursos

Quando terminar de trabalhar com a sua aplicação de voz assistente, siga estes passos para limpar os recursos de voz que implementou durante este tutorial:

Na portal do Azure, selecione Grupos de recursos no painel de menus esquerdo ou escreva-o na barra de pesquisa.
Selecione o seu grupo de recursos.
Selecione todos os seis recursos que contêm o prefixo da aplicação e clique no ícone Eliminar no painel de menus superior.
Para confirmar a eliminação, escreva sim na caixa de confirmação, verifique se selecionou os recursos corretos e clique em Eliminar.

Aviso

Esta ação removerá todas as palavras-chave personalizadas criadas com os recursos de voz que está a eliminar e a demonstração de voz assistente deixará de funcionar.

Passos Seguintes

Agora que criou uma solução de voz sem código, experimente criar uma solução de visão sem código para o seu DK do Azure Percept.

Partilhar via