음성 도우미란?

아티클
02/23/2024

개발자는 Speech Service와 함께 음성 도우미를 사용하여 애플리케이션과 환경에 맞게 자연스럽고 인간과 유사한 대화형 인터페이스를 만들 수 있습니다. 음성 도우미 서비스는 디바이스와 도우미 구현 간에 빠르고 안정적인 상호 작용을 제공합니다.

도우미 솔루션 선택

음성 도우미를 만드는 첫 번째 단계는 원하는 작업을 결정하는 것입니다. Speech Service는 도우미 상호 작용을 만들기 위한 여러 보완 솔루션을 제공합니다. 애플리케이션에서 “시애틀에 가야 합니다.” 또는 “어떤 종류의 피자를 주문할 수 있나요?”와 같은 문구가 포함된 개방형 대화를 지원하려고 할 수 있습니다. 유연성과 다양성을 위해 Direct Line Speech 채널에서 Azure Bot Service를 사용하여 음성 입력 및 음성 출력 기능을 봇에 추가할 수 있습니다.

도우미가 원하는 작업을 아직 잘 모르는 경우 Direct Line Speech를 최상의 옵션으로 사용하는 것이 좋습니다. 가상 도우미 솔루션 및 엔터프라이즈 템플릿 및 QnA Maker 서비스와 같은 다양한 도구 및 작성 도구와의 통합을 제공하여 공통 패턴을 구축하고 기존 지식 소스를 사용합니다.

Speech SDK를 사용하여 음성 도우미를 빌드하기 위한 참조 아키텍처

Conceptual diagram of the voice assistant orchestration service flow.

핵심 기능

도우미 상호 작용을 만들기 위해 Direct Line Speech 또는 다른 솔루션을 선택하는지 여부에 관계없이 풍부한 사용자 지정 기능 세트를 사용하여 도우미를 브랜드, 제품 및 개성에 맞게 사용자 지정할 수 있습니다.

범주	기능
사용자 지정 키워드	사용자는 "Hey Contoso"와 같은 사용자 지정 키워드를 통해 도우미와의 대화를 시작할 수 있습니다. 앱은 Speech SDK에서 사용자 지정 키워드 엔진을 통해 이 작업을 수행하며 사용자 지정 키워드 시작으로 이동하여 구성할 수 있습니다. 음성 도우미는 서비스 측 키워드 확인을 사용하여 키워드 활성화의 정확성을 향상시킬 수 있습니다(디바이스만 사용하는 경우와 비교).
음성 텍스트 변환	음성 도우미는 Speech Service의 음성 텍스트 변환을 사용하여 실시간 오디오를 인식된 텍스트로 변환합니다. 이 텍스트는 전사된 대로 도우미 구현과 클라이언트 애플리케이션 모두에서 사용할 수 있습니다.
텍스트 음성 변환	도우미의 텍스트 응답은 Speech Service의 텍스트 음성 변환을 통해 합성됩니다. 이 합성은 클라이언트 애플리케이션에서 오디오 스트림으로 사용할 수 있습니다. Microsoft는 브랜드에 음성을 제공하는 고유한 사용자 지정 고품질 인공신경망 TTS(인공신경망 텍스트 음성 변환) 음성을 구축할 수 있는 기능을 제공합니다.

음성 도우미 시작

10분 이내에 코드를 실행하도록 디자인된 빠른 시작 문서인 빠른 시작: Direct Line Speech를 사용하여 사용자 지정 음성 도우미 만들기를 제공합니다.

샘플 코드 및 자습서

음성 도우미를 만드는 샘플 코드는 GitHub에서 사용할 수 있습니다. 이 샘플을 사용하면 클라이언트 애플리케이션에서 여러 인기 프로그래밍 언어로 도우미에 연결할 수 있습니다.

사용자 지정

Speech Service를 사용하여 빌드하는 음성 도우미는 전체 범위의 사용자 지정 옵션을 사용할 수 있습니다.

참고 항목

사용자 지정 옵션은 언어 및 로캘에 따라 다릅니다. 자세한 내용은 지원되는 언어를 참조하세요.