Entrada de voz

Funcionalidade HoloLens (1ª geração) HoloLens 2 Auscultadores imersivos
Entrada de voz ✔️ ✔️ ✔️ (com microfone)

O comando "selecione"

HoloLens (1ª geração)

Mesmo sem adicionar especificamente suporte de voz à sua aplicação, os seus utilizadores podem ativar hologramas simplesmente dizendo que o comando de voz do sistema "seleciona". Isto comporta-se da mesma forma que uma torneira de ar no HoloLens, premindo o botão selecionado no HoloLens clicker, ou pressionando o gatilho num controlador de movimento Windows Mixed Reality. Ouvirá um som e verá uma ponta de ferramenta com "select" aparecer como confirmação. "Select" é ativado por um algoritmo de deteção de palavras-chave de baixa potência, o que significa que pode dizê-lo a qualquer momento com o mínimo impacto na vida útil da bateria. Pode até dizer "selecione" com as mãos ao seu lado.



HoloLens 2

Para utilizar o comando de voz "select" no HoloLens 2, primeiro tem de levantar o cursor de olhar para usar como ponteiro. O comando para trazê-lo para cima é fácil de lembrar - basta dizer, "selecione".

Para sair do modo, volte a usar as mãos tocando no ar, aproximando-se de um botão com os dedos ou usando o gesto do sistema.

Imagem: Diga "selecione" para usar o comando de voz para seleção

Um utilizador pode dizer



Olá Cortana

Podes dizer "Olá Cortana" para falar Cortana a qualquer momento. Não tens de esperar que ela continue a fazer-lhe a tua pergunta ou a dar-lhe uma instrução. Por exemplo, tente dizer "Ei Cortana, qual é o tempo?" como uma única frase. Para mais informações sobre Cortana e o que pode fazer, pergunte-lhe! "Ei Cortana, o que posso dizer?" e ela vai fazer uma lista de comandos a trabalhar e a sugerir. Se já está na aplicação Cortana, selecione o ícone ? na barra lateral para puxar este mesmo menu.

comandos específicos HoloLens

  • "O que posso dizer?"
  • "Go to Start" - em vez de florescer para chegar ao Menu Iniciar
  • "Lançamento"
  • "Move-se aqui"
  • "Tira uma fotografia"
  • "Iniciar a gravação"
  • "Pare de gravar"
  • "Mostrar o raio da mão"
  • "Ocultar o raio da mão"
  • "Aumentar o brilho"
  • "Diminuir o brilho"
  • "Aumentar o volume"
  • "Diminuir o volume"
  • "Mudo" ou "Unmute"
  • "Desligue o dispositivo"
  • "Reiniciar o dispositivo"
  • "Vai dormir"
  • "Que horas são?"
  • "Quantas baterias me restam?"


"Vê, diz"

HoloLens tem um modelo de entrada de voz "ver, dizer", onde as etiquetas nos botões dizem aos utilizadores que comandos de voz também podem dizer. Por exemplo, quando se olha para uma janela de aplicações em HoloLens (1ª geração), um utilizador pode dizer "Ajustar" o comando para ajustar a posição da app no mundo.

Imagem: Um utilizador pode dizer o comando "Ajustar", que vê na barra da App para ajustar a posição da app

espaço
Quando olha para uma janela de aplicação ou holograma, um utilizador pode dizer o comando


Quando as aplicações seguem esta regra, os utilizadores podem facilmente entender o que dizer para controlar o sistema. Enquanto olha para um botão em HoloLens (1ª gen), verá uma ponta de ferramenta "voice dwell" que surge após um segundo se o botão estiver ativado por voz e exibe o comando para falar para "pressionar". Para revelar as pontas de ferramentas de voz no HoloLens 2, mostre o cursor de voz dizendo "selecione" ou "O que posso dizer" (Ver imagem).

Imagem: Comandos "Ver, dizer" aparecem abaixo dos botões

Veja, diga que os comandos aparecem abaixo dos botões



Comandos de voz para manipulação rápida do holograma

Existem muitos comandos de voz que pode dizer enquanto olha para um holograma para fazer tarefas de manipulação rapidamente. Estes comandos de voz funcionam em janelas de aplicativos e objetos 3D que colocou no mundo.

Comandos de manipulação de hologramas

  • Encarar-me
  • | maiores Melhorar
  • Menor

No dia 2 HoloLens, também pode criar interações mais naturais em combinação com o olhar-olho, que implicitamente fornece informações contextuais sobre o que você está se referindo. Por exemplo, podes olhar para um holograma e dizer "põe isto"e depois olhas para onde queres colocá-lo e dizer "aqui". Ou pode olhar para uma parte holográfica de uma máquina complexa e dizer: "Dê-me mais informações sobre isso".

Descobrir comandos de voz

Alguns comandos, como os comandos para uma manipulação rápida acima, podem ser escondidos. Para saber que comandos pode usar, olhe para um objeto e diga: "O que posso dizer?". Aparece uma lista de possíveis comandos. Também pode utilizar o cursor de olhar para a cabeça para olhar ao redor e revelar as pontas das ferramentas de voz para cada botão à sua frente.

Se quiser uma lista completa, diga: "Mostre todos os comandos" a qualquer hora.

Ditado

Em vez de escrever com torneiras de ar,o ditado por voz pode ser mais eficiente para introduzir texto numa aplicação. Isto pode acelerar muito a entrada com menos esforço para o utilizador.

O ditado de voz começa selecionando o botão do microfone
O ditado por voz começa selecionando o botão do microfone no teclado

Sempre que o teclado holográfico estiver ativo, pode mudar para o modo de ditado em vez de escrever. Selecione o microfone no lado da caixa de entrada de texto para começar.

Adicionar comandos de voz à sua aplicação

Considere adicionar comandos de voz a qualquer experiência que construa. A voz é uma forma poderosa de controlar o sistema e as aplicações. Uma vez que os utilizadores falam com diferentes tipos de dialetos e acentos, a escolha adequada das palavras-chave da fala garantirá que os comandos dos seus utilizadores são interpretados de forma inequívoca.

Melhores práticas

Seguem-se algumas práticas que ajudarão no reconhecimento suave da fala.

  • Utilize comandos concisos - Quando possível, escolha palavras-chave de duas ou mais sílabas. Palavras de uma sílaba tendem a usar diferentes sons voóis quando falados por pessoas de diferentes sotaques. Exemplo: "Jogar vídeo" é melhor do que "Reproduzir o vídeo atualmente selecionado"
  • Use vocabulário simples - Exemplo: "Mostrar nota" é melhor do que "Mostrar cartaz"
  • Certifique-se de que os comandos não são destrutivos - Certifique-se de que quaisquer ações de comando da fala não são destrutivas e podem ser facilmente desfeitas no caso de outra pessoa falar perto do utilizador acidentalmente acionar um comando.
  • Evite comandos de som semelhantes - Evite registar vários comandos de fala que soem semelhantes. Exemplo: "Mostrar mais" e "Show store" pode ser uma sonoridade semelhante.
  • Desregralar a sua aplicação quando não utiliza - Quando a sua aplicação não estiver num estado em que um determinado comando de fala seja válido, considere não registar a sua aplicação para que outros comandos não sejam confundidos com esse.
  • Teste com diferentes acentos - Teste a sua aplicação com utilizadores de diferentes sotaques.
  • Mantenha a consistência do comando de voz - Se "Voltar" for para a página anterior, mantenha este comportamento nas suas aplicações.
  • Evite utilizar comandos de sistema - Os seguintes comandos de voz são reservados para o sistema, por isso evite usá-los nas suas aplicações:
    • "Hey Cortana"
    • "Selecione"
    • "Vai começar"

Vantagens da entrada de voz

A entrada de voz é uma forma natural de comunicar as nossas intenções. A voz é especialmente boa nas transações de interface, pois pode ajudar os utilizadores a cortar em vários passos de uma interface. Um utilizador pode dizer "voltar" enquanto olha para uma página web, em vez de ter de subir e carregar no botão de trás da app. Esta pequena poupança de tempo tem um poderoso efeito emocional na perceção do utilizador da experiência e dá-lhes uma pequena superpotência. A utilização da voz é também um método de entrada conveniente quando temos os braços cheios ou multi-tarefas. Nos dispositivos em que a dactilografia num teclado é difícil, o ditado por voz pode ser uma forma alternativa eficiente de inserir texto. Por último, em alguns casos, quando a gama de precisão para o olhar e o gesto são limitadas, a voz pode ajudar a desambiguar a intenção do utilizador.

Como usar a voz pode beneficiar o utilizador

  • Reduz o tempo - deve tornar o objetivo final mais eficiente.
  • Minimiza o esforço - deve tornar as tarefas mais fluidas e sem esforço.
  • Reduz a carga cognitiva - é intuitivo, fácil de aprender e lembrar.
  • É socialmente aceitável- deve encaixar-se nas normas sociais de comportamento.
  • É rotina - a voz pode facilmente tornar-se um comportamento habitual.

Desafios para a entrada de voz

Embora a entrada de voz seja ótima para muitas aplicações diferentes, também enfrenta vários desafios. Compreender tanto as vantagens como os desafios para a entrada de voz permite que os desenvolvedores de aplicações façam escolhas mais inteligentes para como e quando usar a entrada de voz e criar uma grande experiência para os seus utilizadores.

Entrada de voz para controlo contínuo de entrada O controlo fino é um deles. Por exemplo, um utilizador pode querer alterar o seu volume na sua aplicação de música. Pode dizer "mais alto", mas não está claro o quanto mais alto o sistema deve fazer o volume. O utilizador poderia dizer: "Torná-lo um pouco mais alto", mas "um pouco" é difícil de quantificar. Mover ou escalar hologramas com voz é igualmente difícil.

Fiabilidade da deteção de entradas de voz Enquanto os sistemas de entrada de voz se tornam melhores e melhores, por vezes podem ouvir e interpretar incorretamente um comando de voz. A chave é enfrentar o desafio na sua aplicação. Forneça feedback aos seus utilizadores quando o sistema estiver a ouvir e o que o sistema entendeu clarifica potenciais problemas compreensão da fala dos utilizadores.

Entrada de voz em espaços compartilhados A voz pode não ser socialmente aceitável em espaços que partilhas com os outros. Eis alguns exemplos:

  • O utilizador pode não querer perturbar os outros (por exemplo, numa biblioteca tranquila ou num escritório partilhado)
  • Os utilizadores podem sentir-se estranhos sendo vistos a falar em público,
  • Um utilizador pode sentir-se desconfortável ao ditar uma mensagem pessoal ou confidencial (incluindo palavras-passe) enquanto outros estão a ouvir

Entrada de voz de palavras únicas ou desconhecidas As dificuldades para a entrada de voz também surgem quando os utilizadores estão a ditar palavras que podem ser desconhecidas do sistema, como apelidos, certas palavras de gíria ou abreviaturas.

Aprendizagem comandos de voz Embora o objetivo final seja naturalmente conversar com o seu sistema, muitas vezes as aplicações ainda dependem de comandos de voz pré-definidos específicos. Um desafio associado a um conjunto significativo de comandos de voz é como ensiná-los sem sobrecarregar o utilizador e como ajudar o utilizador a mantê-los.



Estados de feedback de voz

Quando o Voice é aplicado corretamente, o utilizador compreende o que pode dizer e obtém um feedback claro que o sistema os ouviu corretamente. Estes dois sinais fazem com que o utilizador se sinta confiante em usar o Voice como entrada primária. Abaixo está um diagrama que mostra o que acontece ao cursor quando a entrada de voz é reconhecida e como comunica isso ao utilizador.

1. Estado do cursor regular
1. Estado do cursor regular

2. Comunica o feedback de voz e desaparece
2. Comunica o feedback de voz e desaparece

*3. Estado do cursor regular
3. Volta ao estado regular do cursor




Top coisas que os utilizadores devem saber sobre "fala" na realidade mista

  • Diga "Selecione" enquanto direciona um botão (pode utilizar este em qualquer lugar para selecionar um botão).
  • Pode dizer-se o nome da etiqueta de um botão de barra de aplicações em algumas aplicações para tomar uma ação. Por exemplo, ao olhar para uma aplicação, um utilizador pode dizer o comando "Remover" para remover a aplicação do mundo (isto poupa tempo de ter de a selecionar com a mão).
  • Podes começar a Cortana a ouvir dizendo "Olá Cortana". Podes fazer-lhe perguntas ("Hey Cortana, quão alta é a torre Eiffel"), dizer-lhe para abrir uma aplicação ("Hey Cortana, abrir netflix"), ou dizer-lhe para falar do Menu Inicial ("Hey Cortana, leva-me para casa") e muito mais.

Perguntas e preocupações comuns que os utilizadores têm sobre a voz

  • O que posso dizer?
  • Como sei que o sistema me ouviu corretamente?
    • O sistema continua a fazer os meus comandos de voz errados.
    • Não reage quando lhe dou um comando de voz.
  • Reage da maneira errada quando lhe dou um comando de voz.
  • Como direciono a minha voz para uma aplicação específica ou um comando de aplicações?
  • Posso usar a voz para comandar as coisas da moldura holográfica HoloLens?

Comunicação

Para aplicações que queiram tirar partido das opções personalizadas de processamento de entradas de áudio fornecidas por HoloLens, é importante entender as várias categorias de streaming de áudio que a sua aplicação pode consumir. Windows 10 suporta várias categorias de fluxos diferentes e HoloLens faz uso de três destas para permitir o processamento personalizado para otimizar a qualidade de áudio do microfone adaptada para a fala, comunicação e outras, que podem ser usadas para cenários de captação de áudio ambiente ambiente ambiente (isto é, "câmara de vídeo").

  • A categoria de stream AudioCategory_Communications é personalizada para cenários de qualidade de chamada e narração e fornece ao cliente um fluxo de áudio mono de 16 kHz de 24 bits da voz do utilizador
  • A categoria de stream AudioCategory_Speech é personalizada para o motor de fala HoloLens (Windows) e fornece-lhe um fluxo mono de 16 kHz de 24 bits da voz do utilizador. Esta categoria pode ser utilizada por motores de fala de terceiros, se necessário.
  • A categoria de stream AudioCategory_Other é personalizada para gravação de áudio ambiente ambiente e fornece ao cliente um fluxo de áudio estéreo de 48 kHz de 24 bits.

Todo este processamento de áudio é acelerado pelo hardware, o que significa que as funcionalidades drenam muito menos energia do que se o mesmo processamento fosse feito no CPU HoloLens. Evite executar outros processamentos de entrada sonora no CPU para maximizar a vida útil da bateria do sistema e tirar partido do processamento de entrada sonora incorporada e descarregada.

Idiomas

HoloLens 2 suporta várias línguas. Tenha em mente que os comandos de fala serão sempre executados no idioma de exibição do sistema, mesmo que vários teclados estejam instalados ou se as aplicações tentarem criar um reconhecimento de fala numa língua diferente.

Resolução de problemas

Se tiver algum problema usando "select" e "Hey Cortana", tente mover-se para um espaço mais silencioso, afastando-se da fonte de ruído, ou falando mais alto. Neste momento, todo o reconhecimento da fala em HoloLens é sintonizado e otimizado especificamente para falantes nativos do inglês dos Estados Unidos.

Para o lançamento Windows Mixed Reality Developer Edition de 2017, a lógica de gestão de pontos finais áudio funcionará bem (para sempre) depois de ter saído e voltado para o ambiente de trabalho do PC após a ligação inicial de HMD. Antes do primeiro sinal para fora/no evento depois de passar pelo WMR OOBE, o utilizador poderia experimentar vários problemas de funcionalidade sonora que vão desde nenhum áudio a nenhuma comutação de áudio dependendo da configuração do sistema antes de ligar o HMD pela primeira vez.



Entrada de voz no MRTK (Mixed Reality Toolkit) para unidade

Com o MRTK,pode atribuir facilmente o comando de voz a quaisquer objetos. Utilize o perfil de entrada de discurso do MRTK para definir as suas palavras-chave. Ao atribuir o script SpeechInputHandler, pode fazer com que qualquer objeto responda às palavras-chave definidas no Perfil de Entrada de Discurso. SpeechInputHandler também fornece o rótulo de confirmação da fala para melhorar a confiança do utilizador.


Ver também

Entrada de voz

A voz é uma das principais formas de entrada no HoloLens. Permite-lhe comandar diretamente um holograma sem ter de usar gestos com as mãos. A entrada de voz pode ser uma forma natural de comunicar a sua intenção. A voz é especialmente boa a atravessar interfaces complexos, pois permite que os utilizadores cortem os menus aninhados com um comando.

A entrada de voz é alimentada pelo mesmo motor que suporta a fala em todas as Aplicações de Windows Universal. No HoloLens, o reconhecimento da fala funcionará sempre no Windows apresentar o idioma configurado no seu dispositivo Definições.


Voz e olhar

Quando se usa comandos de voz, olhar de cabeça ou olho é o mecanismo de mira típico, seja com um cursor para "selecionar" ou para canalizar o seu comando para uma aplicação que está a ver. Pode nem ser obrigado a mostrar qualquer cursor de olhar ("ver, dizer"). Alguns comandos de voz não requerem um alvo, como "ir para o início" ou "Hey Cortana".


Suporte de dispositivos