Integrowanie i używanie funkcji rozpoznawania mowy i transkrypcji

Ukończone

Usługa mowa to zjednoczenie zamiany mowy na tekst, zamiany tekstu na mowę i zamianę mowy na jedną subskrypcję platformy Azure. Łatwo jest włączyć mowę w aplikacjach, narzędziach i urządzeniach przy użyciu interfejsu wiersza polecenia usługi Mowa, zestawu SPEECH SDK, zestawu SDK urządzeń usługi Mowa, programu Speech Studio lub interfejsów API REST.

Rozpoznawanie mowy

Usługa rozpoznawania osoby mówiącej udostępnia algorytmy, które weryfikują i identyfikują osoby mówiące o ich unikatowych cechach głosowych przy użyciu biometrii głosowej. Służy do odpowiadania na pytanie "kto mówi?" Najpierw należy podać dane szkoleniowe dźwięku dla pojedynczego głośnika, który tworzy profil rejestracji na podstawie unikatowych cech głosu osoby mówiącej. Następnie możesz sprawdzić krzyżowo próbki głosu audio w tym profilu, aby sprawdzić, czy osoba mówiąca jest tą samą osobą (weryfikacja osoby mówiącej) lub możesz sprawdzić krzyżowo próbki głosu audio względem grupy zarejestrowanych profilów osoby mówiącej, aby sprawdzić, czy pasuje do dowolnego profilu w grupie (identyfikacja osoby mówiącej). Natomiast diaryzacja osoby mówiącej używa operacji wsadowej do grupowania strumieni audio według tożsamości osoby mówiącej, co oznacza, że każdy z nich ma własne segmenty audio.

Transkrypcja

Transkrypcja to zestaw operacji interfejsu API REST, który umożliwia transkrypcję dźwięku w magazynie. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.

Polecenia mowy zestawu narzędzi MRTK

Podobnie jak dane wejściowe mowy systemu Windows, dostawcy danych wejściowych mowy nie tworzą żadnych kontrolerów, ale umożliwiają definiowanie słów kluczowych, które będą zgłaszać zdarzenia wprowadzania mowy po rozpoznaniu. Skonfigurujesz słowa kluczowe do rozpoznawania w profilu poleceń mowy w profilu systemu wprowadzania danych wejściowych. Dla każdego polecenia można również wykonać następujące czynności:

  • Wybierz akcję wejściową, aby zamapować na polecenie . W ten sposób można na przykład ustawić, że wybranie słowa kluczowego ma taki sam efekt jak kliknięcie lewym przyciskiem myszy, mapując obie te same akcje.
  • Określ kod klucza, który generuje to samo zdarzenie mowy po naciśnięciu klawisza.
  • Dodaj klucz lokalizacji używany w aplikacjach platformy UWP w celu uzyskania zlokalizowanego słowa kluczowego z zasobów aplikacji.

Zestaw SDK rozpoznawania mowy

Zestaw SDK (Speech Software Development Kit) uwidacznia wiele funkcji usługi rozpoznawania mowy, aby umożliwić tworzenie aplikacji z obsługą mowy. Zestaw SPEECH SDK jest dostępny w wielu językach programowania i na wszystkich platformach. Zestaw SPEECH SDK udostępnia wiele funkcji (choć nie wszystkie) z usługi Mowa. Możliwości zestawu SPEECH SDK są często kojarzone ze scenariuszami. Zestaw SPEECH SDK jest idealny dla scenariuszy czasu rzeczywistego i nie w czasie rzeczywistym, przy użyciu lokalnych urządzeń, plików, magazynu obiektów blob platformy Azure, a nawet strumieni wejściowych i wyjściowych. Jeśli scenariusz nie jest osiągalny w zestawie SDK usługi Mowa, poszukaj alternatywnego interfejsu API REST.

Postrzeganie przestrzenne

Percepcja przestrzenna zapewnia programowy dostęp do danych mapowania przestrzennego, zapewniając aplikacjom rzeczywistości mieszanej informacje o powierzchniach w określonych przez aplikację regionach przestrzeni w pobliżu użytkownika. Zadeklaruj możliwość percepcji przestrzennej tylko wtedy, gdy aplikacja jawnie użyje tych siatk powierzchni. Możliwość nie jest wymagana, aby aplikacje rzeczywistości mieszanej wykonywały renderowanie holograficzne na podstawie pozy użytkownika.

Internetowy serwer klienta

Serwer klienta internetowego umożliwia scenariusze komunikacji równorzędnej (P2P), w których aplikacja musi nasłuchiwać przychodzących połączeń sieciowych.

Serwer klienta sieci prywatnej

Serwer klienta sieci prywatnej zapewnia dostęp przychodzący i wychodzący do sieci domowych i służbowych za pośrednictwem zapory. Ta funkcja jest zwykle używana w przypadku gier komunikujących się w sieci lokalnej (LAN) i w aplikacjach, które udostępniają dane na różnych urządzeniach lokalnych.