음성 인식 및 대화 내용 기록의 통합과 사용

완료됨

Speech Service는 음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역을 단일 Azure 구독으로 통합한 것입니다. Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio 또는 REST API를 사용하여 애플리케이션, 도구 및 디바이스를 음성으로 쉽게 사용할 수 있습니다.

음성 인식

Speaker Recognition 서비스는 고유한 음성 특성에 따라 화자를 확인 및 식별하는 알고리즘을 제공합니다. "누가 말하고 있는가?" 질문에 대답하는 데 사용됩니다. 먼저 단일 화자용 오디오 학습 데이터를 제공하여 화자의 음성의 고유한 특성에 따라 등록 프로필을 만듭니다. 그런 다음에는 이 프로필에 대해 오디오 음성 샘플을 교차 확인하여 화자가 동일한 사람(화자 검증)인지 확인하거나 등록된 화자 프로필 그룹에 대해 오디오 음성 샘플을 교차 확인하여 그룹의 프로필(화자 식별)과 일치하는지 확인할 수 있습니다. 반면 Speaker Diarization은 일괄 처리 작업을 이용해 스피커 ID를 기준으로 오디오 스트림을 그룹화하며, 따라서 스피커마다 고유한 오디오 세그먼트가 존재합니다.

전사

전사는 스토리지에서 오디오를 전사할 수 있는 REST API 작업 집합입니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다.

MRTK 음성 명령

Windows Speech Input처럼 음성 입력 공급자는 컨트롤러를 만들지 않고 대신 인식될 때 음성 입력 이벤트를 발생시키는 키워드를 정의할 수 있습니다. 입력 시스템 프로필의 Speech Commands Profile에서 인식할 키워드(keyword) 구성합니다. 각 명령에 대해 다음을 수행할 수도 있습니다.

  • 명령에 매핑할 입력 작업을 선택합니다. 예를 들어 Select 키워드를 마우스 왼쪽 단추 누름과 동일한 작업에 매핑하여 동일한 효과를 발휘하게 할 수 있습니다.
  • 누를 때 동일한 음성 이벤트를 생성하는 키 코드를 지정합니다.
  • UWP 앱에서 사용되는 지역화 키를 추가하여 앱 리소스에서 지역화된 키워드(keyword) 가져옵니다.

Speech SDK

음성 SDK(소프트웨어 개발 키트)는 음성 지원 애플리케이션을 개발하는 데 사용할 수 있는 많은 음성 서비스 기능을 제공합니다. Speech SDK는 많은 프로그래밍 언어 및 모든 플랫폼에서 사용할 수 있습니다. Speech SDK는 Speech 서비스가 제공하는 (모든 기능이 아닌) 대부분의 기능을 노출합니다. Speech SDK의 기능은 시나리오와 연결되는 경우가 많습니다. Speech SDK는 로컬 디바이스, 파일, Azure Blob Storage, 입력 및 출력 스트림을 사용하는 실시간 및 비 실시간 시나리오에 이상적입니다. Speech SDK를 사용하여 시나리오를 달성할 수 없는 경우 REST API 대안을 찾습니다.

공간 인식

공간 인식은 공간 매핑 데이터에 프로그래밍 방식으로 액세스하여 사용자와 가까운 공간의 애플리케이션 지정 공간 영역에 있는 표면에 대한 정보를 혼합 현실 앱에 제공합니다. 앱에서 명시적으로 이러한 표면 메시를 사용하는 경우에만 공간 인식 기능을 선언합니다. 혼합 현실 앱이 사용자의 머리 포즈에 따라 홀로그램 렌더링을 수행하는 데는 이 기능이 필요하지 않습니다.

인터넷 클라이언트 서버

인터넷 클라이언트 서버는 들어오는 네트워크 연결을 앱이 수신 대기해야 하는 P2P(피어 투 피어) 시나리오를 지원합니다.

개인 네트워크 클라이언트 서버

개인 네트워크 클라이언트 서버에서는 방화벽을 통과하는 홈 및 회사 네트워크에 대한 인바운드 및 아웃바운드 액세스를 제공합니다. 이 기능은 LAN(로컬 영역 네트워크)을 통해 통신하는 게임과 다양한 로컬 디바이스에서 데이터를 공유하는 애플리케이션에 일반적으로 사용됩니다.