Integrar e utilizar reconhecimento e transcrição de discursos

Concluído

O serviço de discurso é a unificação da tradução de discurso-a-texto, texto-a-fala e tradução da fala numa única subscrição do Azure. É fácil de falar ativar as suas aplicações, ferramentas e dispositivos com o Discurso CLI, Speech SDK, Speech Devices SDK, Speech Studio ou REST APIs.

Reconhecimento de voz

O serviço de Reconhecimento de Altifalantes fornece algoritmos que verificam e identificam os altifalantes pelas suas características de voz únicas utilizando biometria de voz. É usado para responder à pergunta "quem está a falar?" Em primeiro lugar, fornece dados de formação áudio para um único orador, o que cria um perfil de inscrição baseado nas características únicas da voz do orador. Em seguida, pode cruzar as amostras de voz áudio contra este perfil para verificar se o altifalante é a mesma pessoa (verificação do altifalante), ou pode cruzar amostras de voz áudio contra um grupo de perfis de altifalantes inscritos para ver se corresponde a algum perfil do grupo (identificação do altifalante). Em contraste, a Diarização dos Altifalantes usa uma operação de lote para agrupar fluxos de áudio por identidade de altifalante, o que significa que diferentes altifalantes teriam cada um os seus próprios segmentos de áudio.

Transcrição

A transcrição é um conjunto de operações de API REST que lhe permitem transcrever áudio no armazenamento. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona.

Comandos de discurso mrtk

Tal como Windows Speech Input, os fornecedores de entradas de discurso não criam controladores, mas permitem definir palavras-chave que irão levantar eventos de entrada de discurso quando reconhecidos. Configurará as palavras-chave para reconhecimento no Perfil de Comandos de Voz no Perfil do Sistema de Entrada. Para cada comando, também pode:

  • Selecione uma ação de entrada para mapear para o comando. Desta forma pode, por exemplo, fazer com que o Keyword Select tenha o mesmo efeito que um clique de rato esquerdo, mapeando ambos para a mesma ação.
  • Especifique um código-chave que produza o mesmo evento de fala quando pressionado.
  • Adicione uma chave de localização que será usada em aplicações UWP para obter a palavra-chave localizada a partir dos recursos da aplicação.

API de Voz

O kit de desenvolvimento de software speech (SDK) expõe muitas capacidades de serviço de fala para capacitar-te a desenvolver aplicações ativadas pela fala. O Speech SDK está disponível em muitas linguagens de programação e em todas as plataformas. O Speech SDK expõe muitas funcionalidades (embora nem todas) do serviço Discurso. As capacidades do SDK do Discurso estão frequentemente associadas a cenários. O Speech SDK é ideal para cenários em tempo real e não em tempo real, utilizando dispositivos locais, ficheiros, armazenamento de blob Azure e até fluxos de entrada e saída. Quando um cenário não for alcançável com o Discurso SDK, procure uma alternativa DE API REST.

Perceção espacial

A perceção espacial fornece acesso programático a dados de mapeamento espacial, fornecendo informações sobre aplicações de realidade mista sobre superfícies em regiões de espaço especificadas por aplicações perto do utilizador. Declare a capacidade de perceção espacial apenas quando a sua aplicação utilizar explicitamente estas malhas de superfície. A capacidade não é necessária para aplicações de realidade mista para executar renderização holográfica com base na pose da cabeça do utilizador.

Servidor de clientes de Internet

O servidor de clientes da Internet permite cenários peer-to-peer (P2P) onde a aplicação precisa de ouvir as ligações de rede recebidas.

Servidor de cliente de rede privada

O servidor de clientes de rede privada fornece acesso de entrada e saída a redes de trabalho e casa através da firewall. Esta capacidade é normalmente utilizada para jogos que comunicam através da rede local (LAN) e para apps que partilham dados em vários dispositivos locais.