Microsoft Speech API 개요Microsoft Speech API overview

클라우드 기반 Microsoft Speech API를 사용하면 개발자가 음성 명령 제어, 자연스러운 음성 대화를 사용하는 사용자 대화 및 음성 전사/받아쓰기와 같이 응용 프로그램에서 강력한 음성 사용 기능을 쉽게 만들 수 있습니다.The cloud-based Microsoft Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Microsoft Speech API는 Speech to TextText to Speech 변환을 모두 지원합니다.The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Speech to Text(음성 - 텍스트 변환) API는 인간의 음성을 텍스트로 변환하여 응용 프로그램을 제어하기 위한 입력 또는 명령으로 사용할 수 있습니다.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Text to Speech(텍스트 음성 변환) API는 텍스트를 오디오 스트림으로 변환하여 응용 프로그램 사용자에게 재생할 수 있습니다.Text to Speech API converts text to audio streams that can be played back to the user of your application.

음성 - 텍스트 변환(음성 인식)Speech to text (speech recognition)

Microsoft Speech Recognition API는 오디오 스트림을 응용 프로그램에서 사용자에게 표시하거나 명령 입력으로 작동할 수 있는 텍스트로 전사합니다.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. 개발자가 앱에 Speech를 추가하는 두 가지 방법, 즉 REST API 또는 Websocket 기반 클라이언트 라이브러리를 제공합니다.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • REST API: 개발자가 음성 인식을 위해 앱에서 서비스로의 HTTP 호출을 사용할 수 있습니다.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • 클라이언트 라이브러리: 고급 기능의 경우 개발자가 Microsoft Speech 클라이언트 라이브러리를 다운로드하고 앱에 연결할 수 있습니다.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. 클라이언트 라이브러리는 다양한 언어(C#, Java, JavaScript, ObjectiveC)를 사용하여 다양한 플랫폼(Windows, Android, iOS)에서 사용할 수 있습니다.The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). REST API와 달리, 클라이언트 라이브러리는 Websocket 기반 프로토콜을 사용합니다.Unlike the REST APIs, the client libraries utilize Websocket-based procotol.
사용 사례Use cases REST APIREST APIs 클라이언트 라이브러리Client Libraries
중간 결과가 없는 짧은 음성 오디오(예: 오디오 길이가 15초 미만인 명령) 변환Convert a short spoken audio, for example, commands (audio length < 15 s) without interim results Yes Yes
긴 오디오(15초 초과) 변환Convert a long audio (> 15 s) 아니오No Yes
중간 결과가 필요한 오디오 스트림Stream audio with interim results desired 아니오No Yes
LUIS를 사용하여 오디오에서 변환된 텍스트 인식Understand the text converted from audio using LUIS 아니오No Yes

개발자가 REST API와 클라이언트 라이브러리 중에서 어느 것을 선택하든 Microsoft Speech Service에서 지원하는 항목은 다음과 같습니다.Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Cortana, Office Dictation, Office Translator 및 기타 Microsoft 제품에서 사용하는 Microsoft의 고급 음성 인식 기술Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • 실시간 연속 인식.Real-time continuous recognition. 음성 인식 API를 사용하면 오디오를 텍스트로 실시간으로 전사할 수 있으며, 지금까지 인식된 단어에 대한 중간 결과를 받을 수 있습니다.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. 음성 끝 감지도 음성 서비스에서 지원합니다.The speech service also supports end-of-speech detection. 또한 사용자는 대문자 표시/문장 부호, 불경한 언어 마스킹 및 텍스트 정규화와 같은 추가 형식 지정 기능을 선택할 수 있습니다.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • 대화형, 대화받아쓰기 시나리오에 최적화된 음성 인식 결과를 지원합니다.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. 사용자 지정 언어 모델과 음향 모델이 필요한 사용자 시나리오의 경우 Custom Speech Service를 사용하면 응용 프로그램과 사용자에 맞게 조정된 음성 모델을 만들 수 있습니다.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • 여러 방언으로 된 다양한 음성 언어를 지원합니다.Support many spoken languages in multiple dialects. 각 인식 모드에서 지원되는 언어의 전체 목록은 인식 언어를 참조하세요.For the full list of supported languages in each recognition mode, see recognition languages.
  • 언어 인식과의 통합.Integration with language understanding. Speech to Text는 입력 오디오를 텍스트로 변환하는 것 외에도 텍스트의 의미를 인식하는 추가 기능을 응용 프로그램에 제공합니다.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. LUIS(Language Understanding Intelligent Service)를 사용하여 인식된 텍스트에서 의도와 엔터티를 추출합니다.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

다음 단계Next steps

텍스트 음성 변환(음성 합성)Text to speech (speech synthesis)

Text to Speech API는 REST를 사용하여 구조화된 텍스트를 오디오 스트림으로 변환합니다.Text to Speech APIs use REST to convert structured text to an audio stream. API는 다양한 음성과 언어를 통해 빠른 텍스트 음성 변환 기능을 제공합니다.The APIs provide fast text to speech conversion in various voices and languages. 또한 사용자는In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. SSML 태그를 사용하여 발음, 음량, 피치 등과 같은 오디오 특성을 변경할 수 있습니다.using SSML tags.

다음 단계Next steps