Entrada de voz

Artigo
07/12/2023

Entrada de voz

A voz é uma das principais formas de entrada no HoloLens. Permite-lhe comandar diretamente um holograma sem ter de utilizar gestos de mão. A entrada de voz pode ser uma forma natural de comunicar a sua intenção. A voz é especialmente boa para percorrer interfaces complexas, uma vez que permite que os utilizadores cortem menus aninhados com um comando.

A entrada de voz é alimentada pelo mesmo motor que suporta voz em todas as Aplicações Universais do Windows. No HoloLens, o reconhecimento de voz funcionará sempre no idioma de apresentação do Windows configurado nas Definições do dispositivo.

Voz e olhar

Quando está a utilizar comandos de voz, o olhar da cabeça ou dos olhos é o mecanismo de segmentação típico, seja com um cursor para "selecionar" ou para canalizar o comando para uma aplicação que está a ver. Pode nem ser necessário mostrar qualquer cursor de olhar ("vê-lo, diz"). Alguns comandos de voz não necessitam de um destino, como "ir para começar" ou "Olá Cortana".

Suporte de dispositivos

Funcionalidade	HoloLens (1.ª geração)	HoloLens 2	Auscultadores envolventes
Entrada de voz	✔️	✔️	✔️ (com microfone)

O comando "selecionar"

HoloLens (1.ª geração)

Mesmo sem adicionar especificamente suporte de voz à sua aplicação, os seus utilizadores podem ativar hologramas simplesmente dizendo que o comando de voz do sistema "selecione". Isto comporta-se da mesma forma que um toque de ar no HoloLens, premindo o botão selecionar no clique do HoloLens ou premindo o acionador num controlador de movimento Windows Mixed Reality. Irá ouvir um som e ver uma descrição com "selecionar" apresentada como confirmação. "Selecionar" é ativado por um algoritmo de deteção de palavras-chave de baixa potência, o que significa que pode dizê-lo em qualquer altura com um impacto mínimo na duração da bateria. Pode até dizer "selecionar" com as mãos ao seu lado.

HoloLens 2

Para utilizar o comando de voz "selecionar" no HoloLens 2, primeiro tem de apresentar o cursor de olhar para utilizar como ponteiro. O comando para o apresentar é fácil de lembrar: basta dizer "selecione".

Para sair do modo, utilize as mãos novamente ao tocar no ar, aproximar-se de um botão com os dedos ou utilizar o gesto do sistema.

Imagem: Diga "selecionar" para utilizar o comando de voz para seleção

Um utilizador pode dizer

Olá Cortana

Pode dizer "Olá Cortana" para apresentar a Cortana em qualquer altura. Não tens de esperar que ela continue a fazer-lhe a tua pergunta ou a dar-lhe instruções. Por exemplo, experimente dizer "Olá Cortana, qual é o tempo?" como uma única frase. Para obter mais informações sobre a Cortana e o que pode fazer, pergunte-lhe! Diga "Olá Cortana, o que posso dizer?" e ela irá recolher uma lista de comandos a trabalhar e sugeridos. Se já estiver na aplicação Cortana, selecione o ícone ? na barra lateral para puxar para cima este mesmo menu.

Comandos específicos do HoloLens

"O que posso dizer?"
"Ir para Iniciar" - em vez de desabrochar para aceder ao Menu Iniciar
"Iniciar <aplicação>"
"Mover <a aplicação> para cá"
"Tirar uma fotografia"
"Iniciar gravação"
"Parar gravação"
"Mostrar raio da mão"
"Ocultar raio da mão"
"Aumentar a luminosidade"
"Diminuir a luminosidade"
"Aumentar o volume"
"Diminuir o volume"
"Desativar som" ou "Ativar som"
"Encerrar o dispositivo"
"Reiniciar o dispositivo"
"Ir para o modo de suspensão"
"A que horas é?"
"Quanto bateria ainda tenho?"

"See It, Say It"

O HoloLens tem um modelo "see it, say it" para entrada de voz, onde as etiquetas nos botões também dizem aos utilizadores que comandos de voz podem dizer. Por exemplo, ao olhar para uma janela de aplicação no HoloLens (1.ª geração), um utilizador pode dizer comando "Ajustar" para ajustar a posição da aplicação no mundo.

Imagem: Um utilizador pode dizer o comando "Ajustar", que vê na Barra de aplicações para ajustar a posição da aplicação

Ao olhar para uma janela de aplicação ou holograma, um utilizador pode dizer o comando

Quando as aplicações seguem esta regra, os utilizadores podem facilmente compreender o que dizer para controlar o sistema. Ao observar um botão no HoloLens (1.ª geração), verá uma descrição "voice dwell" que surge após um segundo se o botão estiver ativado por voz e apresentar o comando para falar para "premir". Para revelar descrições de voz no HoloLens 2, mostre o cursor de voz ao dizer "selecionar" ou "O que posso dizer" (Ver imagem).

Imagem: Os comandos "See it, say it" são apresentados por baixo dos botões

Veja-o, digamos que os comandos aparecem por baixo dos botões

Comandos de voz para manipulação rápida de hologramas

Existem muitos comandos de voz que pode dizer ao observar um holograma para realizar rapidamente tarefas de manipulação. Estes comandos de voz funcionam em janelas de aplicações e objetos 3D que colocou no mundo.

Comandos de manipulação de hologramas

Enfrentar-me
Maior | Melhorar
Menor

No HoloLens 2, também pode criar interações mais naturais em combinação com o olhar, que fornece implicitamente informações contextuais sobre aquilo a que se está a referir. Por exemplo, pode olhar para um holograma e dizer "coloque isto" e, em seguida, olhar para onde quer colocá-lo e dizer " aqui". Em alternativa, pode olhar para uma parte holográfica num computador complexo e dizer: "Dê-me mais informações sobre isto".

Descobrir comandos de voz

Alguns comandos, como os comandos de manipulação rápida acima, podem ser ocultados. Para saber que comandos pode utilizar, olhe para um objeto e diga" o que posso dizer?". É apresentada uma lista de possíveis comandos. Também pode utilizar o cursor de olhar para a cabeça para dar uma vista de olhos e revelar as descrições de voz de cada botão à sua frente.

Se quiser uma lista completa, basta dizer "Mostrar todos os comandos" em qualquer altura.

Ditado

Em vez de escrever com toques de ar, o ditado de voz pode ser mais eficiente para introduzir texto numa aplicação. Isto pode acelerar consideravelmente a entrada com menos esforço para o utilizador.

O ditado de voz começa por selecionar o botão do microfone no teclado

Sempre que o teclado holográfico estiver ativo, pode mudar para o modo de ditado em vez de escrever. Selecione o microfone na parte lateral da caixa de entrada de texto para começar.

Adicionar comandos de voz à sua aplicação

Considere adicionar comandos de voz a qualquer experiência que crie. A voz é uma forma avançada de controlar o sistema e as aplicações. Uma vez que os utilizadores falam com diferentes tipos de dialetos e acentos, a escolha adequada das palavras-chave de voz garantirá que os comandos dos seus utilizadores são interpretados de forma inequívoca.

Melhores práticas

Seguem-se algumas práticas que ajudarão no reconhecimento de voz suave.

Utilizar comandos concisos – sempre que possível, escolha palavras-chave de duas ou mais sílabas. Palavras de uma só sílaba tendem a usar sons de vogais diferentes quando faladas por pessoas de diferentes sotaques. Exemplo: "Reproduzir vídeo" é melhor do que "Reproduzir o vídeo atualmente selecionado"
Utilizar vocabulário simples - Exemplo: "Mostrar nota" é melhor do que "Mostrar cartaz"
Certifique-se de que os comandos não são destrutivos – certifique-se de que as ações de comando de voz não são destrutivas e podem ser facilmente anuladas caso outra pessoa que fale perto do utilizador acione acidentalmente um comando.
Evite comandos de som semelhantes – evite registar vários comandos de voz que soem semelhantes. Exemplo: "Mostrar mais" e "Mostrar loja" podem ter um som semelhante.
Anular o registo da aplicação quando esta não for utilizada – quando a sua aplicação não estiver num estado em que um comando de voz específico é válido, considere anular o registo para que outros comandos não sejam confundidos com esse comando.
Testar com acentos diferentes – teste a sua aplicação com utilizadores com destaques diferentes.
Manter a consistência do comando de voz – se "Voltar" for para a página anterior, mantenha este comportamento nas suas aplicações.
Evite utilizar comandos do sistema – os seguintes comandos de voz estão reservados para o sistema, pelo que evite utilizá-los nas suas aplicações:
- "Olá Cortana"
- "Selecionar"
- "Ir para o início"

Vantagens da entrada de voz

A entrada de voz é uma forma natural de comunicar as nossas intenções. A voz é especialmente boa nos percursos de interface porque pode ajudar os utilizadores a cortar vários passos de uma interface. Um utilizador pode dizer "retroceder" enquanto olha para uma página Web, em vez de ter de subir e premir o botão anterior na aplicação. Esta pequena poupança de tempo tem um poderoso efeito emocional na percepção do utilizador da experiência e dá-lhes uma pequena superpotência. A utilização de voz também é um método de introdução conveniente quando temos os braços cheios ou multitarefas. Nos dispositivos em que escrever num teclado é difícil, o ditado por voz pode ser uma forma alternativa eficiente de introduzir texto. Por fim, em alguns casos, quando o intervalo de precisão para olhar e gestos é limitado, a voz pode ajudar a desambiguar a intenção do utilizador.

Como utilizar a voz pode beneficiar o utilizador

Reduz o tempo - deve tornar o objetivo final mais eficiente.
Minimiza o esforço - deve tornar as tarefas mais fluidas e sem esforço.
Reduz a carga cognitiva – é intuitivo, fácil de aprender e memorizar.
É socialmente aceitável- deve encaixar-se com normas sociais de comportamento.
É rotina - a voz pode facilmente tornar-se um comportamento habitual.

Desafios para a entrada de voz

Embora a entrada de voz seja ótima para muitas aplicações diferentes, também enfrenta vários desafios. Compreender as vantagens e os desafios da entrada de voz permite que os programadores de aplicações façam escolhas mais inteligentes sobre como e quando utilizar a entrada de voz e criar uma excelente experiência para os seus utilizadores.

Entrada de voz para controlo de entrada contínua O controlo detalhado é um deles. Por exemplo, um utilizador poderá querer alterar o volume na respetiva aplicação de música. Ela pode dizer "mais alto", mas não é claro quanto mais alto é suposto o sistema fazer o volume. O utilizador poderia dizer: "Faça um pouco mais alto", mas "um pouco" é difícil de quantificar. Mover ou dimensionar hologramas com voz é igualmente difícil.

Fiabilidade da deteção de entrada de voz Embora os sistemas de entrada de voz se tornem cada vez melhores, por vezes podem ouvir e interpretar incorretamente um comando de voz. A chave é abordar o desafio na sua aplicação. Forneça feedback aos seus utilizadores quando o sistema estiver a escutar e o que o sistema entendeu esclarece potenciais problemas ao compreender a voz dos utilizadores.

Entrada de voz em espaços partilhados A voz pode não ser socialmente aceitável em espaços que partilha com outras pessoas. Eis alguns exemplos:

O utilizador pode não querer incomodar outras pessoas (por exemplo, numa biblioteca silenciosa ou num escritório partilhado)
Os utilizadores podem sentir-se embaraçados ao serem vistos a falar em público,
Um utilizador pode sentir-se desconfortável ao ditar uma mensagem pessoal ou confidencial (incluindo palavras-passe) enquanto outras pessoas estão a ouvir

Entrada de voz de palavras exclusivas ou desconhecidas As dificuldades de entrada de voz também surgem quando os utilizadores ditam palavras que podem ser desconhecidas para o sistema, como alcunhas, determinadas palavras de gíria ou abreviaturas.

Comandos de voz de aprendizagem Embora o objetivo final seja conversar naturalmente com o seu sistema, muitas vezes as aplicações ainda dependem de comandos de voz predefinidos específicos. Um desafio associado a um conjunto significativo de comandos de voz é como ensiná-los sem sobrecarregar o utilizador e como ajudar o utilizador a mantê-los.

Estados de feedback de voz

Quando a Voz é aplicada corretamente, o utilizador compreende o que pode dizer e recebe comentários claros de que o sistema os ouviu corretamente. Estes dois sinais fazem com que o utilizador se sinta confiante em utilizar a Voz como entrada principal. Segue-se um diagrama que mostra o que acontece ao cursor quando a entrada de voz é reconhecida e como comunica isso ao utilizador.

1. Estado regular do cursor

2. Comunica feedback por voz e, em seguida, desaparece

*3. Estado do cursor regular
3. Regressa ao estado do cursor normal

Principais coisas que os utilizadores devem saber sobre "voz" na realidade mista

Diga "Selecionar" enquanto direciona um botão (pode utilizá-lo em qualquer lugar para selecionar um botão).
Pode dizer o nome da etiqueta de um botão da barra de aplicações em algumas aplicações para efetuar uma ação. Por exemplo, ao olhar para uma aplicação, um utilizador pode dizer o comando "Remover" para remover a aplicação do mundo (isto poupa tempo de ter de a selecionar com a mão).
Pode começar a ouvir a Cortana ao dizer "Olá Cortana". Pode fazer-lhe perguntas ("Olá Cortana, quão alta é a torre Eiffel"), dizer-lhe para abrir uma aplicação ("Olá Cortana, abrir o Netflix" ou dizer-lhe para abrir o Menu Iniciar ("Olá Cortana, levar-me para casa") e muito mais.

Perguntas comuns e preocupações que os utilizadores têm sobre a voz

O que posso dizer?
Como devo proceder para saber que o sistema me ouviu corretamente?
- O sistema está sempre a obter os meus comandos de voz errados.
- Não reage quando lhe dou um comando de voz.
Reage da maneira errada quando lhe dou um comando de voz.
Como devo proceder para direcionar a minha voz para uma aplicação ou comando de aplicação específico?
Posso utilizar a voz para controlar a moldura holográfica no HoloLens?

Comunicação

Para aplicações que pretendem tirar partido das opções de processamento de entrada de áudio personalizadas fornecidas pelo HoloLens, é importante compreender as várias categorias de fluxo de áudio que a sua aplicação pode consumir. Windows 10 suporta várias categorias de fluxo diferentes e o HoloLens utiliza três destas categorias para permitir o processamento personalizado para otimizar a qualidade de áudio do microfone adaptada para cenários de voz, comunicação e outros, que podem ser utilizados para cenários de captura de áudio de ambiente ambiente (ou seja, "camcorder").

A categoria AudioCategory_Communications transmissão em fluxo é personalizada para cenários de qualidade e narração de chamadas e fornece ao cliente um fluxo de áudio mono de 24 bits de 16 kHz da voz do utilizador
A categoria de fluxo de AudioCategory_Speech é personalizada para o motor de voz do HoloLens (Windows) e fornece-lhe um fluxo mono de 24 bits de 16 kHz da voz do utilizador. Esta categoria pode ser utilizada por motores de voz de terceiros, se necessário.
A categoria de fluxo de AudioCategory_Other é personalizada para gravação de áudio de ambiente ambiente e fornece ao cliente um fluxo de áudio estéreo de 48 kHz de 24 bits.

Todo este processamento de áudio é acelerado por hardware, o que significa que as funcionalidades drenam muito menos energia do que se o mesmo processamento fosse feito na CPU do HoloLens. Evite executar outro processamento de entrada de áudio na CPU para maximizar a duração da bateria do sistema e tirar partido do processamento de entrada de áudio descarregado incorporado.

Idiomas

HoloLens 2 suporta vários idiomas. Tenha em atenção que os comandos de voz serão sempre executados no idioma de apresentação do sistema, mesmo que estejam instalados vários teclados ou se as aplicações tentarem criar um reconhecedor de voz num idioma diferente.

Resolução de problemas

Se estiver a ter problemas ao utilizar "selecionar" e "Olá Cortana", tente mover-se para um espaço mais calmo, afastar-se da origem do ruído ou falar mais alto. Neste momento, todo o reconhecimento de voz no HoloLens está otimizado e otimizado especificamente para oradores nativos de Estados Unidos inglês.

Para a versão 2017 do Windows Mixed Reality Developer Edition, a lógica de gestão de pontos finais de áudio funcionará bem (para sempre) depois de terminar e voltar a iniciar sessão no ambiente de trabalho do PC após a ligação HMD inicial. Antes do primeiro evento de fim de sessão/início de sessão após passar pelo OOBE do WMR, o utilizador poderia deparar-se com vários problemas de funcionalidade de áudio que vão de sem áudio a nenhuma mudança de áudio, dependendo da forma como o sistema foi configurado antes de ligar o HMD pela primeira vez.

Entrada de voz no MRTK (Mixed Reality Toolkit) para o Unity

Com o MRTK, pode atribuir facilmente o comando de voz em quaisquer objetos. Utilize o Perfil de Entrada de Voz do MRTK para definir as suas palavras-chave. Ao atribuir o script SpeechInputHandler , pode fazer com que qualquer objeto responda às palavras-chave definidas no Perfil de Entrada de Voz. SpeechInputHandler também fornece uma etiqueta de confirmação de voz para melhorar a confiança do utilizador.

MRTK - Comando voz

Entrada de voz

Voz e olhar

Suporte de dispositivos

O comando "selecionar"

Olá Cortana

"See It, Say It"

Comandos de voz para manipulação rápida de hologramas

Descobrir comandos de voz

Ditado

Adicionar comandos de voz à sua aplicação

Melhores práticas

Vantagens da entrada de voz

Desafios para a entrada de voz

Estados de feedback de voz

Principais coisas que os utilizadores devem saber sobre "voz" na realidade mista

Perguntas comuns e preocupações que os utilizadores têm sobre a voz

Comunicação

Idiomas

Resolução de problemas

Entrada de voz no MRTK (Mixed Reality Toolkit) para o Unity

Ver também

Recursos adicionais