Speech Service란?

Speech Service는 Azure 음성 리소스를 사용하여 음성을 텍스트로, 텍스트를 음성으로 변환하는 기능을 제공합니다. 높은 정확도로 음성을 텍스트로 변환하고, 자연스러운 텍스트 음성 변환을 생성하고, 음성 오디오를 번역하고, 대화 중에 화자 인식을 사용할 수 있습니다.

일부 Speech Service 기능을 강조 표시하고 있는 타일 이미지

사용자 지정 음성을 만들고 기본 어휘에 특정 단어를 추가하거나 고유한 모델을 빌드합니다. 클라우드 또는 컨테이너의 에지 어디에서나 Speech를 실행합니다. Speech CLI, Speech SDK, Speech Studio 또는 REST API를 통해 애플리케이션, 도구 및 디바이스를 음성으로 쉽게 사용할 수 있습니다.

다양한 언어, 지역가격에서 음성을 사용할 수 있습니다.

음성 시나리오

음성에 대한 일반적인 시나리오는 다음과 같습니다.

  • 캡션: 에는 캡션을 입력 오디오와 동기화하고, 욕설 필터를 적용하고, 부분 결과를 얻고, 사용자 지정을 적용하고, 다국어 시나리오에 대해 음성 언어를 식별하는 방법이 포함됩니다.
  • 오디오 콘텐츠 만들기: 신경망 음성을 사용하여 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만들고 전자책과 같은 디지털 텍스트를 오디오북으로 변환하고 차량 내 내비게이션 시스템을 개선할 수 있습니다.
  • 콜 센터 통화 내용 기록: 실시간으로 통화를 기록하거나 일괄 처리하고, 개인 식별 정보를 수정하고, 감정과 같은 인사이트를 추출하여 콜 센터 사용 사례에 도움이 됩니다.
  • 음성 도우미: 애플리케이션 및 환경을 위한 자연스럽고 인간과 유사한 대화형 인터페이스를 만듭니다. 음성 도우미 기능은 디바이스와 어시스턴트 구현 간의 빠르고 안정적인 상호 작용을 제공합니다.

Microsoft는 Teams의 캡션, Office 365의 받아쓰기, Edge 브라우저의 소리 내어 읽기와 같은 다양한 시나리오에 음성을 사용합니다.

Speech Service를 사용하는 Microsoft 제품의 로고를 보여 주는 이미지

음성 기능

음성 기능 요약은 자세한 정보를 위한 링크와 함께 아래에 제공됩니다.

음성 텍스트 변환

음성 텍스트 변환를 사용하여 실시간으로 또는 비동기적으로 오디오를 텍스트로 변환합니다.

마이크, 오디오 파일 및 Blob Storage를 포함한 다양한 원본의 오디오를 텍스트로 변환합니다. 화자 분할을 사용하여 누가 무엇을 언제 말했는지 확인합니다. 자동 서식 지정 및 구두점으로 읽을 수 있는 스크립트를 가져옵니다.

오디오에 주변 노이즈가 포함되어 있거나 업계 및 영역별 전문 용어가 많이 포함된 경우 베이스 모델이 충분하지 않을 수 있습니다. 이러한 경우 음향, 언어 및 발음 데이터를 사용하여 Custom Speech 모델을 만들고 학습시킬 수 있습니다. Custom Speech 모델은 프라이빗하며 경쟁 우위를 제공할 수 있습니다.

이 데모 웹앱 또는 Speech Studio에서 음성을 텍스트로 변환해 볼 수 있습니다.

텍스트 음성 변환

텍스트 음성 변환을 사용하면 입력 텍스트를 사람과 유사한 합성된 음성으로 변환할 수 있습니다. 심층 신경망에서 지원하는 인간과 유사한 음성인 인공신경망 음성을 사용합니다. SSML(Speech Synthesis Markup Language)을 사용하여 음높이, 발음, 말하기 속도, 음량 등을 미세 조정합니다.

  • 미리 빌드된 신경망 음성: 매우 자연스러운 즉시 사용 가능한 음성. 여기에서 미리 빌드된 신경망 음성 샘플을 확인하고 비즈니스 요구 사항에 적합한 음성을 결정합니다.
  • 사용자 지정 신경망 음성: 기본적으로 제공되는 미리 빌드된 신경망 음성 외에도 브랜드 또는 제품에 고유하고 식별 가능하고 고유한 사용자 지정 신경망 음성을 만들 수도 있습니다. 사용자 지정 인공신경망 음성은 프라이빗하며 경쟁 우위를 제공할 수 있습니다. 사용자 지정 신경망 음성 샘플은 여기에서 확인합니다.

음성 번역

음성 번역을 사용하면 애플리케이션, 도구 및 디바이스에 대한 실시간 다국어 음성 번역이 가능합니다. 음성을 음성으로 변환과 음성 텍스트 변환에 이 기능을 사용합니다.

언어 식별

언어 식별지원되는 언어 목록과 비교할 때 오디오에서 말하는 언어를 식별하는 데 사용됩니다. 음성 텍스트 변환 인식 또는 음성 번역에서 언어 식별을 단독으로 사용합니다.

화자 인식

화자 인식은 고유한 음성 특성에 따라 화자를 확인 및 식별하는 알고리즘을 제공합니다. 화자 인식은 "누가 말하고 있나요?"라는 질문에 대답하는 데 사용됩니다.

발음 평가

발음 평가는 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 피드백을 발표자에게 제공합니다. 발음 평가를 통해 언어 학습자는 자신 있게 말하고 발표할 수 있도록 연습하고, 즉각적인 피드백을 받고, 발음을 개선할 수 있습니다.

의도 인식

의도 인식: LUIS(Language Understanding)와 함께 음성을 텍스트로 변환하여 기록된 음성에서 사용자 의도를 도출하고 음성 명령에 따라 행동합니다.

제공 및 현재 상태

클라우드 또는 온-프레미스에서 Azure Cognitive Services 음성 기능을 배포할 수 있습니다.

컨테이너를 사용하면 규정 준수, 보안 또는 기타 운영상의 이유로 서비스를 데이터에 더 가깝게 가져올 수 있습니다.

소버린 클라우드의 Speech Services 배포는 일부 정부 기관 및 파트너가 사용할 수 있습니다. 예를 들어 Azure Government 클라우드는 미국 정부 기관 및 파트너가 사용할 수 있습니다. Azure 중국 클라우드는 중국에 비즈니스를 두고 있는 조직에서 사용할 수 있습니다. 자세한 내용은 소버린 클라우드를 참조하세요.

Speech Service를 배포하고 액세스할 수 있는 위치를 보여 주는 다이어그램

애플리케이션에서 Speech 사용

Speech Studio는 애플리케이션에서 Azure Cognitive Services Speech Service의 기능을 빌드하고 통합하기 위한 UI 기반 도구 세트입니다. 코드 없는 방식을 사용하여 Speech Studio에서 프로젝트를 만든 다음, Speech SDK, Speech CLI 또는 REST API를 사용하여 애플리케이션에서 해당 자산을 참조합니다.

Speech CLI는 코드를 작성할 필요 없이 Speech Service를 사용하기 위한 명령줄 도구입니다. Speech SDK의 대부분의 기능은 Speech CLI에서 사용할 수 있으며 일부 고급 기능 및 사용자 지정은 Speech CLI에서 단순화됩니다.

Speech SDK는 음성 지원 애플리케이션을 개발하는 데 사용할 수 있는 많은 Speech Services 기능을 제공합니다. Speech SDK는 많은 프로그래밍 언어 및 모든 플랫폼에서 사용할 수 있습니다.

경우에 따라 Speech SDK를 사용할 수 없거나 사용해서는 안 됩니다. 이러한 경우 REST API를 사용하여 Speech Services에 액세스할 수 있습니다. 예를 들어 일괄 처리 대화 기록화자 인식 REST API에 REST API를 사용합니다.

시작하기

Microsoft는 여러 개의 자주 사용되는 프로그래밍 언어로 빠른 시작을 제공합니다. 각 빠른 시작은 기본 디자인 패턴을 학습하고 코드를 10분 이내에 실행할 수 있도록 설계되었습니다. 각 기능에 대한 빠른 시작은 다음 목록을 참조하세요.

코드 샘플

Speech Services에 대한 샘플 코드는 GitHub에서 사용할 수 있습니다. 이러한 샘플은 파일 또는 스트림에서 오디오 읽기, 연속 및 1단계 인식 및 사용자 지정 모델 사용과 같은 일반적인 시나리오를 다룹니다. 다음 링크를 사용하여 SDK 및 REST 샘플을 확인하세요.

다음 단계