음성 번역이란?

아티클
05/04/2024

이 문서에서는 Azure AI 음성을 사용한 번역의 이점과 기능에 대해 알아봅니다. 음성 서비스는 오디오 스트림의 실시간 다국어 음성을 음성으로 변환 및 음성을 텍스트로 변환을 지원합니다.

Speech SDK 또는 Speech CLI를 사용하여 애플리케이션, 도구 및 디바이스에서 제공된 오디오의 원본 대화 기록 및 번역 출력에 액세스할 수 있습니다. 음성이 감지되면 임시 기록 및 번역 결과가 반환되고 최종 결과가 합성 음성으로 변환될 수 있습니다.

음성 번역에 지원되는 언어 목록은 언어 및 음성 지원을 참조하세요.

팁

짧은 대기 시간으로 음성을 원하는 다른 언어로 빠르게 테스트하고 번역하려면 Speech Studio로 이동합니다.

핵심 기능

음성 번역의 핵심 기능은 다음과 같습니다.

음성을 텍스트로 변환
음성을 음성으로 변환
다국어 음성 번역
다양한 대상 언어 번역

음성을 텍스트로 번역

음성 서비스에서 제공하는 표준 기능은 지정된 소스 언어로 입력 오디오 스트림을 가져와 지정된 대상 언어로 번역하고 텍스트로 출력하는 기능입니다.

음성을 음성으로 변환

위 기능에 대한 보완으로 음성 서비스는 미리 학습된 음성의 대규모 데이터베이스를 사용하여 번역된 텍스트를 소리내어 읽어주는 옵션도 제공하므로 입력 음성을 자연스럽게 출력할 수 있습니다.

다국어 음성 번역(미리 보기)

다국어 음성 번역은 지정된 입력 언어 없음, 동일한 세션 내 언어 전환 처리, 영어로의 라이브 스트리밍 번역 지원 등 다양한 기능을 내보이는 새로운 수준의 음성 번역 기술을 구현합니다. 이러한 기능을 사용하면 제품에 구현할 수 있는 새로운 수준의 음성 번역 기능이 가능해집니다.

입력 언어가 지정되지 않았습니다. 다국어 음성 번역은 다양한 언어의 오디오를 수신할 수 있으며 예상되는 입력 언어가 무엇인지 지정할 필요가 없습니다.
언어 전환. 다국어 음성 번역을 사용하면 동일한 세션 중에 여러 언어를 말하고 모두 동일한 대상 언어로 번역할 수 있습니다. 입력 언어가 변경되거나 기타 작업을 수행할 때 세션을 다시 시작할 필요가 없습니다.
대화 내용 기록. 서비스는 지정된 대상 언어로 대화 내용 기록을 출력합니다. 소스 언어 대화 내용 기록은 아직 사용할 수 없습니다.

다국어 음성 번역의 일부 사용 사례는 다음과 같습니다.

여행 인터프리터. 해외 여행 시 다국어 음성 번역은 고객이 입력 오디오를 로컬 언어로 번역할 수 있는 솔루션을 만드는 기능을 제공합니다. 이를 통해 지역 주민들과 소통하고 주변 환경을 더 잘 이해할 수 있습니다.
비즈니스 미팅. 서로 다른 언어를 사용하는 사용자들과의 모임에서 다국어 음성 번역을 통해 모임 멤버 모두가 언어 장벽이 없는 것처럼 자연스럽게 소통할 수 있습니다.

다국어 음성 번역의 경우 음성 서비스가 입력에서 자동으로 검색하고 전환할 수 있는 언어는 다음과 같습니다. 아랍어(ar), 바스크어(eu), 보스니아어(bs), 불가리아어(bg), 중국어 간체(zh), 중국어 번체(zhh), 체코어(cs), 덴마크어(da), 네덜란드어(nl), 영어(en ), 에스토니아어(et), 핀란드어(fi), 프랑스어(fr), 갈리시아어(gl), 독일어(de), 그리스어(el), 힌디어(hi), 헝가리어(hu), 인도네시아어(id), 이탈리아어(it) ), 일본어(ja), 한국어(ko), 라트비아어(lv), 리투아니아어(lt), 마케도니아어(mk), 노르웨이어(nb), 폴란드어(pl), 포르투갈어(pt), 루마니아어(ro), 러시아어(ru) ), 세르비아어(sr), 슬로바키아어(sk), 슬로베니아어(sl), 스페인어(es), 스웨덴어(sv), 태국어(th), 터키어(tr), 우크라이나어(uk), 베트남어(vi) 및 웨일스어(cy).

지원되는 출력(대상) 언어 목록은 언어 및 음성 지원 설명서의 텍스트 언어로 번역 표를 참조하세요.

다국어 음성 번역에 대한 자세한 내용은 음성 번역 안내 방법 및 GitHub의 음성 번역 샘플을 참조하세요.

다중 대상 언어 번역

여러 언어로 출력하려는 시나리오에서 음성 서비스는 입력 언어를 두 가지 대상 언어로 번역하는 기능을 직접 제공합니다. 이를 통해 두 개의 출력을 수신하고 단일 API 호출을 통해 이러한 번역을 더 많은 대상 그룹과 공유할 수 있습니다. 출력해야 할 언어가 많은 경우 다중 서비스 리소스를 만들거나 별도의 번역 서비스를 사용할 수 있습니다.

2개 이상의 대상 언어로 번역해야 하는 경우 다중 서비스 리소스를 만들거나 두 번째 이상의 언어에 대해 별도의 번역 서비스를 활용해야 합니다. 다중 서비스 리소스를 통해 음성 번역 서비스를 호출하기로 선택한 경우 번역의 문자 수에 따라 두 번째 언어 이후의 각 언어에 대해 번역 요금이 적용된다는 점에 유의하세요.

적용되는 번역 비용을 계산하려면 Azure AI 번역기 가격 책정을 참조하세요.

여러 대상 언어 번역 가격 책정

음성 번역 서비스는 실시간으로 작동하며 중간 음성 결과를 번역하여 중간 번역 결과를 생성한다는 점에 유의해야 합니다. 따라서 실제 번역량이 입력 오디오의 토큰보다 큽니다. 각 대상 언어에 대한 음성 텍스트 변환 대화 내용 기록 및 텍스트 번역 요금이 부과됩니다.

예를 들어, 1시간 분량의 오디오 파일을 세 가지 대상 언어로 번역하려고 한다고 가정하겠습니다. 초기 음성 텍스트 변환 대화 내용 기록에 10,000자가 포함된 경우 $2.80이 청구될 수 있습니다.

Warning

이 예의 가격은 설명 목적으로만 제공됩니다. 최신 가격 책정 정보는 Azure AI 음성 가격 책정 및 Azure AI 번역기 가격 책정을 참조하세요.

이전 가격 예인 2.80달러는 음성 텍스트 변환 대화 내용 기록 비용과 텍스트 번역 비용을 결합하여 계산되었습니다. 계산 방법은 다음과 같습니다.

음성 번역 정가는 시간당 $2.50이며 최대 2개의 대상 언어를 포함합니다. 이 가격은 비용을 계산하는 방법의 예로 사용됩니다. 최신 가격 책정 정보는 Azure AI 음성 가격 책정표의 종량제>음성 번역>표준을 참조하세요.
이 예에서는 제3언어 번역 비용이 30센트입니다. 번역 정가는 백만 자당 10달러입니다. 오디오 파일에 10,000자가 포함되어 있으므로 번역 비용은 $10 * 10,000 / 1,000,000 * 3 = $0.3입니다. 이 수식에서 숫자 "3"은 중간 트래픽의 가중치 계수를 나타내며 관련 언어에 따라 달라질 수 있습니다. 이 가격은 비용을 계산하는 방법의 예로 사용됩니다. 최신 가격 책정 정보는 Azure AI 번역기 가격 책정표의 종량제>표준 번역>텍스트 번역을 참조하세요.

시작하기

첫 번째 단계로 음성 번역 빠른 시작을 시도합니다. 음성 번역 서비스는 Speech SDK 및 Speech CLI를 통해 사용할 수 있습니다.

GitHub에서 Speech SDK 음성 텍스트 변환 및 번역 샘플을 찾을 수 있습니다. 이러한 샘플은 파일 또는 스트림에서 오디오 읽기, 연속 싱글샷 인식 및 번역, 사용자 지정 모델 사용과 같은 일반적인 시나리오를 다룹니다.