텍스트 음성 변환이란?

아티클
02/23/2024

이 개요에서는 Azure AI 서비스의 일부인 음성 서비스의 텍스트 음성 변환 기능의 이점과 기능에 대해 알아봅니다.

텍스트 음성 변환을 사용하면 애플리케이션, 도구 또는 디바이스에서 텍스트를 인간과 유사한 합성된 음성으로 변환할 수 있습니다. 텍스트 음성 변환 기능은 음성 합성이라고도 합니다. 즉시 사용 가능한 인간과 유사한 미리 빌드된 신경망 음성을 사용하거나 제품 또는 브랜드에 고유한 사용자 지정 신경망 음성을 만듭니다. 지원되는 음성, 언어 및 로캘의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

핵심 기능

텍스트 음성 변환에는 다음 기능이 포함됩니다.

기능	요약	데모
미리 빌드된 인공신경망 음성(가격 책정 페이지에서 신경망이라고 함)	매우 자연스러운 즉시 사용 가능한 음성. Azure 계정과 Speech Service 구독을 만든 다음, Speech SDK를 사용하거나 Speech Studio 포털을 방문하여 미리 빌드된 인공신경망 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 갤러리를 확인하고 귀하의 비즈니스 요구에 적합한 음성을 결정하세요.
사용자 지정 신경망 음성(가격 책정 페이지에서 사용자 지정 신경망이라고 함)	책임감 있는 사용을 위해 제한된 액세스로 자연스러운 브랜드 보이스를 만들기 위한 사용하기 쉬운 셀프 서비스입니다. Azure 계정 및 Speech Services 구독(S0 계층 포함)을 만들고 사용자 지정 신경망 기능을 사용하도록 신청합니다. 액세스 권한을 부여받은 후 Speech Studio 포털을 방문하여 사용자 지정 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 샘플을 확인하세요.

인공신경망 텍스트 음성 변환 기능에 대한 추가 정보

텍스트 음성 변환은 심층 신경망을 사용하여 컴퓨터의 음성을 사람의 녹음과 거의 구분할 수 없도록 만듭니다. 단어의 명확한 표현을 통해 인공신경망 텍스트 음성 변환은 사용자가 AI 시스템과 상호 작용할 때 청취 피로를 크게 줄여줍니다.

구어의 강세와 억양 패턴을 운율이라고 합니다. 기존의 TTS(텍스트 음성 변환) 시스템은 운율을 독립적인 모델에 의해 관리되는 별도의 언어 분석 및 음향 예측 단계로 나눕니다. 그 결과 희미하고 윙윙거리는 음성 합성이 발생할 수 있습니다.

음성 서비스의 인공신경망 텍스트 음성 변환 기능과 이러한 기능이 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법에 대한 자세한 내용은 다음과 같습니다.

실시간 음성 합성: 음성 SDK 또는 REST API를 사용하여 사전 구축된 신경 음성 또는 사용자 지정 인공신경망 음성을 사용하여 텍스트를 음성으로 변환합니다.
긴 오디오의 비동기 합성: 일괄 합성 API(미리 보기)를 사용하여 10분보다 긴 텍스트 음성 변환 파일(예: 오디오북 또는 강의)을 비동기적으로 합성합니다. Speech SDK 또는 음성 텍스트 변환 REST API를 통해 수행한 합성과 달리 응답은 실시간으로 반환되지 않습니다. 요청이 비동기적으로 전송되고, 응답이 폴링되며, 서비스에서 사용할 수 있을 때 합성된 오디오가 다운로드될 것으로 예상됩니다.
미리 빌드된 신경망 음성: Microsoft 인공신경망 텍스트 음성 변환 기능은 심층 신경망을 사용하여 구어의 강세 및 억양과 관련하여 기존 음성 합성의 한계를 극복합니다. 운율 예측 및 음성 합성은 동시에 발생하여 더 부드럽고 자연스럽게 들리는 출력이 생성됩니다. 미리 빌드된 각 신경망 음성 모델은 24kHz 및 고충실도 48kHz에서 사용할 수 있습니다. 인공신경망 음성을 사용하여 다음을 수행할 수 있습니다.
- 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만듭니다.
- 전자책과 같은 디지털 텍스트를 오디오북으로 변환합니다.
- 차량 내 내비게이션 시스템을 개선합니다.
플랫폼 인공신경망 음성의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.
SSML을 사용하여 텍스트 음성 변환 출력 미세 조정 - SSML(Speech Synthesis Markup Language)은 텍스트 음성 변환 출력을 사용자 지정하는 데 사용되는 XML 기반 생성 언어입니다. SSML을 사용하면 피치를 조정하고, 중단을 추가하고, 발음을 개선하고, 말하는 속도를 변경하고, 볼륨을 조정하고, 단일 문서에 여러 음성을 지정할 수 있습니다.

SSML을 사용하여 고유한 어휘를 정의하거나 다른 말하기 스타일로 전환할 수 있습니다. 다국어 음성 기능을 사용하면 SSML을 통해 말하는 언어를 조정할 수도 있습니다. 시나리오에 대한 음성 출력을 미세 조정하려면 Speech Synthesis Markup Language를 사용하여 합성 향상 및 오디오 콘텐츠 만들기 도구를 사용한 음성 합성을 참조하세요.
Visemes: Viseme는 특정 음소를 생성할 때 입술, 턱 및 혀의 위치를 포함하여 관찰된 음성의 주요 포즈입니다. Viseme는 음성 및 음소와 강력한 상관 관계가 있습니다.

Speech SDK에서 viseme 이벤트를 사용하여 얼굴 애니메이션 데이터를 생성할 수 있습니다. 이런 데이터는 독화술 커뮤니케이션, 교육, 엔터테인먼트 및 고객 서비스에서 얼굴 애니메이션에 사용할 수 있습니다. Viseme은 현재 en-US(미국 영어) 인공신경망 음성에 대해서만 지원됩니다.

참고 항목

2024년에는 기존/표준 음성 및 비신경망 사용자 지정 음성을 사용 중지할 계획입니다. 그 후에는 더 이상 지원하지 않습니다.

애플리케이션, 도구 또는 제품이 표준 음성 및 Custom Voice를 사용하는 경우 인공신경망 버전으로 마이그레이션해야 합니다. 자세한 내용은 인공신경망 음성으로 마이그레이션을 참조하세요.

시작하기

텍스트 음성 변환을 시작하려면 빠른 시작을 참조하세요. 텍스트 음성 변환은 Speech SDK, REST API 및 Speech CLI를 통해 사용할 수 있습니다.

팁

코드 없는 접근 방식으로 텍스트를 음성으로 변환하려면 Speech Studio에서 오디오 콘텐츠 만들기 도구를 사용해 보세요.

샘플 코드

텍스트 음성 변환을 위한 샘플 코드는 GitHub에서 사용할 수 있습니다. 다음 샘플은 가장 널리 사용되는 프로그래밍 언어의 텍스트 음성 변환을 다룹니다.

사용자 지정 신경망 음성

미리 빌드된 인공신경망 음성 외에도 제품 또는 브랜드 고유의 사용자 지정 신경망 음성을 만들고 미세 조정할 수 있습니다. 몇 가지 오디오 파일과 연결된 대화 내용 기록만 있으면 시작할 수 있습니다. 자세한 내용은 사용자 지정 신경망 음성 시작을 참조하세요.

가격 책정 메모

청구 가능 문자

텍스트 음성 변환 기능을 사용하면 구두점을 포함하여 음성으로 변환된 각 문자에 대해 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소는 청구 대상 문자로 계산됩니다. 청구 대상 항목 목록은 다음과 같습니다.

요청의 SSML 본문에 있는 텍스트 음성 변환 기능에 전달된 텍스트
<speak> 및 <voice> 태그를 제외한 SSML 형식의 요청 본문 텍스트 필드에 있는 모든 태그
문자, 문장 부호, 공백, 탭, 태그 및 모든 공백 문자
유니코드에 정의된 모든 코드 포인트

자세한 내용은 Speech Service 가격 책정을 참조하세요.

Important

각 한자는 2자로 계산되어 청구됩니다(일본어에서 사용되는 한자, 한국어에서 사용되는 한자 또는 다른 언어에서 사용되는 한자를 포함).

사용자 지정 신경망 음성에 대한 모델 학습 및 호스팅 시간

사용자 지정 신경망 음성 학습 및 호스팅은 시간별로 계산되며 초당 요금이 청구됩니다. 청구 단가는 Speech Service 가격 책정을 참조하세요.

CNV(사용자 지정 신경망 음성) 학습 시간은 ‘컴퓨팅 시간‘(컴퓨터 실행 시간을 측정하는 단위)으로 측정됩니다. 일반적으로 음성 모델을 학습시킬 때 두 개의 컴퓨팅 작업이 병렬로 실행됩니다. 따라서 계산된 컴퓨팅 시간은 실제 학습 시간보다 깁니다. 평균적으로 CNV Lite 음성을 학습하는 데 1시간 미만의 컴퓨팅 시간이 걸립니다. 하지만 CNV Pro의 경우 일반적으로 단일 스타일 음성을 학습하는 데 20~40시간의 컴퓨팅 시간, 다중 스타일 음성을 학습하는 데 약 90시간의 컴퓨팅 시간이 걸립니다. CNV 학습 시간은 최대 96시간의 컴퓨팅 시간에 대한 요금이 청구됩니다. 따라서 음성 모델이 98시간으로 학습되는 경우 96시간의 컴퓨팅 시간으로만 요금이 청구됩니다.

CNV(사용자 지정 신경망 음성) 엔드포인트 호스팅은 실제 시간(시간)으로 측정됩니다. 각 엔드포인트의 호스팅 시간(시간)은 이전 24시간 동안 매일 00:00 UTC에 계산됩니다. 예를 들어 엔드포인트가 첫날 24시간 동안 활성화된 경우 두 번째 날 00:00 UTC에 24시간에 대한 요금이 청구됩니다. 하루 동안 엔드포인트가 새로 만들어지거나 일시 중단된 경우 둘째 날 00:00 UTC까지의 누적 실행 시간에 대해 요금이 청구됩니다. 엔드포인트가 현재 호스트되지 않으면 요금이 청구되지 않습니다. 매일 00:00 UTC의 일일 계산 외에도 엔드포인트가 삭제되거나 일시 중단될 때 청구가 즉시 트리거됩니다. 예를 들어 12월 1일 08:00 UTC에 생성된 엔드포인트의 경우 호스팅 시간은 12월 2일 00:00 UTC에 16시간으로, 12월 3일 00:00 UTC에 24시간으로 계산됩니다. 사용자가 12월 3일 16:30 UTC에 엔드포인트 호스팅을 일시 중단하면 12월 3일 00:00에서 16:30 UTC까지 기간(16.5시간)이 청구를 위해 계산됩니다.

참조 문서

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.