오디오 콘텐츠 만들기 도구를 사용한 음성 합성

아티클
01/18/2024

코드를 작성하지 않고 텍스트 음성 변환 합성을 위해 Speech Studio의 오디오 콘텐츠 만들기 도구를 사용할 수 있습니다. 출력 오디오를 있는 그대로 사용하거나 추가 사용자 지정을 위한 시작점으로 사용할 수 있습니다.

오디오북, 뉴스 브로드캐스트, 동영상 내레이션, 챗봇 등 다양한 시나리오에 대해 매우 자연스러운 오디오 콘텐츠를 빌드합니다. 오디오 콘텐츠 만들기를 사용하면 텍스트 음성 변환 음성을 효율적으로 미세 조정하고 사용자 지정 오디오 환경을 설계할 수 있습니다.

도구는 SSML(Speech Synthesis Markup Language)을 기반으로 합니다. 음성 문자, 음성 스타일, 말하는 속도, 발음 및 운율 체계와 같은 텍스트-음성 변환 출력 특성을 실시간 또는 일괄 처리 합성에서 조정할 수 있습니다.

코드 없는 방식: 코드를 작성하지 않고 오디오 콘텐츠 만들기 도구를 사용하여 텍스트를 음성으로 변환할 수 있습니다. 출력 오디오는 원하는 최종 결과물일 수 있습니다. 예를 들어, 팟캐스트 또는 동영상 내레이션에 출력 오디오를 사용할 수 있습니다.
개발자 친화적: 출력 오디오를 듣고 SSML을 조정하여 음성 합성을 개선할 수 있습니다. 그런 다음 Speech SDK 또는 음성 CLI를 사용하여 SSML을 애플리케이션에 통합할 수 있습니다. 예를 들어, SSML을 사용하여 챗봇을 빌드할 수 있습니다.

광범위한 언어 및 음성 포트폴리오에 쉽게 액세스할 수 있습니다. 해당 음성에는 미리 빌드된 최신 신경망 음성 및 사용자 지정 신경망 음성(빌드한 경우)이 포함됩니다.

자세한 콘텐츠는 YouTube에서 오디오 콘텐츠 만들기 자습서 동영상을 참조하세요.

시작하기

Speech Studio의 오디오 콘텐츠 만들기 도구는 무료로 액세스할 수 있지만 Speech Services 사용료를 지불해야 합니다. 이 도구를 사용하려면 Azure 계정으로 로그인하여 음성 리소스를 만들어야 합니다. 각 Azure 계정에 대해 미리 빌드된 신경망 음성(가격 책정 페이지에서 인공신경망이라고 함)에 대해 50만 문자를 포함하는 월간 무료 음성 할당량이 있습니다. 일반적으로 매월 할당된 분량은 3~5명의 사용자를 위한 소규모 콘텐츠 팀에게 충분합니다.

다음 섹션에서는 Azure 계정을 만들고 음성 리소스를 가져오는 방법을 설명합니다.

1단계 - Azure 계정 만들기

오디오 콘텐츠 만들기를 사용하려면 Microsoft 계정 및 Azure 계정이 필요합니다.

Azure Portal은 Azure 계정을 관리할 수 있는 중앙 집중식 위치입니다. 음성 리소스를 만들고, 제품 액세스를 관리하고, 간단한 웹앱에서 복잡한 클라우드 배포까지 모든 항목을 모니터링할 수 있습니다.

2단계 - 음성 리소스 만들기

Azure 계정에 가입한 후 Speech Service에 액세스하려면 음성 리소스를 Azure 계정에 만들어야 합니다. Azure Portal에서 음성 리소스를 만듭니다. 자세한 내용은 다중 서비스 리소스 만들기를 참조하세요.

새 Speech 리소스를 배포하는 데 몇 분 정도 걸립니다. 배포가 완료되면 오디오 콘텐츠 만들기 도구를 사용할 수 있습니다.

참고 항목

인공신경망 음성을 사용할 계획이라면 인공신경망 음성을 지원하는 지역에서 리소스를 만들어야 합니다.

Azure 계정 및 Speech 리소스를 가져온 후 Speech Studio에 로그인한 다음, 오디오 콘텐츠 만들기를 선택합니다.
사용하려는 Azure 구독 및 음성 리소스를 선택한 다음, 리소스 사용을 선택합니다.

다음 번에 오디오 콘텐츠 만들기에 로그인하면 현재 음성 리소스 아래에 있는 오디오 작업 파일에 직접 연결됩니다. Azure Portal에서 Azure 구독 세부 정보 및 상태를 확인할 수 있습니다.

사용 가능한 음성 리소스가 없고 Azure 구독의 소유자 또는 관리자인 경우 새 리소스 만들기를 선택하여 Speech Studio에서 음성 리소스를 만들 수 있습니다.

특정 Azure 구독에 대한 사용자 역할이 있는 경우 새 음성 리소스를 만들 수 있는 권한이 없을 수 있습니다. 액세스하려면 관리자에게 문의하세요.

언제든지 음성 리소스를 전환하려면 페이지 위쪽에서 설정을 선택합니다.

디렉터리를 전환하려면 설정을 선택하거나 프로필로 이동합니다.

도구 사용

다음 다이어그램은 텍스트 음성 변환 출력을 미세 조정하는 프로세스를 표시합니다.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

위 다이어그램의 각 단계는 다음과 같습니다.

사용하려는 음성 리소스를 선택합니다.
일반 텍스트 또는 SSML 스크립트를 사용하여 오디오 튜닝 파일을 만듭니다. 오디오 콘텐츠 만들기에 콘텐츠를 입력하거나 업로드합니다.
스크립트 콘텐츠에 사용할 음성 및 언어를 선택합니다. 오디오 콘텐츠 만들기에는 모든 미리 빌드된 텍스트 음성 변환 음성이 포함됩니다. 미리 빌드된 신경망 음성 또는 사용자 지정 신경망 음성을 사용할 수 있습니다.

참고 항목

게이트 액세스는 사용자 지정 신경망 음성에 사용할 수 있으며, 이를 통해 자연스러운 음성과 비슷한 고품위 음성을 만들 수 있습니다. 자세한 내용은 게이팅 프로세스를 참조하세요.
미리 보려는 콘텐츠를 선택한 다음, 재생(삼각형 아이콘)을 클릭하여 기본 합성 출력을 미리 봅니다.

텍스트를 변경한 경우 중지 아이콘을 선택한 다음, 재생을 다시 선택하여 변경된 스크립트를 사용하여 오디오를 다시 생성합니다.

발음, 중단, 피치, 음조, 음성 스타일 등을 조정하여 출력을 향상시킵니다. 전체 옵션 목록은 음성 합성 표시 언어를 참조하세요.

음성 출력을 미세 조정하는 방법에 대한 자세한 내용은 Microsoft Azure AI 음성을 사용하여 텍스트를 음성으로 변환하는 방법 비디오를 참조하세요.
저장하고 튜닝된 오디오를 내보냅니다.

시스템에서 튜닝 트랙을 저장할 때 계속해서 작업하고 출력을 반복할 수 있습니다. 출력에 만족하는 경우 내보내기 기능을 사용하여 오디오 만들기 작업을 만들 수 있습니다. 내보내기 작업의 상태를 관찰하고 앱 및 제품에 사용할 출력을 다운로드할 수 있습니다.

오디오 튜닝 파일 만들기

다음 두 가지 방법 중 하나를 사용하여 콘텐츠를 오디오 콘텐츠 만들기 도구로 가져올 수 있습니다.

옵션 1
1. 새로 만들기>텍스트 파일을 차례로 선택하여 새 오디오 튜닝 파일을 만듭니다.
2. 콘텐츠를 편집 창에 입력하거나 붙여넣습니다. 각 파일에 허용되는 문자 수는 20,000자 이하입니다. 스크립트에 20,000자가 넘는 문자가 포함되는 경우 옵션 2를 사용하여 콘텐츠를 여러 파일로 자동으로 분할할 수 있습니다.
3. 저장을 선택합니다.

옵션 2

업로드>텍스트 파일을 선택하여 하나 이상의 텍스트 파일을 가져옵니다. 일반 텍스트와 SSML은 모두 지원됩니다.

스크립트 파일이 20,000자를 초과하는 경우 콘텐츠를 단락, 문자 또는 정규식을 기준으로 분할합니다.

텍스트 파일을 업로드하는 경우 파일에서 이러한 요구 사항을 충족하는지 확인합니다.

속성	설명
파일 형식	일반 텍스트(.txt)* SSML 텍스트(.txt)** Zip 파일은 지원되지 않습니다.
인코딩 형식	UTF-8
File name	각 파일은 고유한 이름이 있어야 합니다. 중복 파일은 지원되지 않습니다.
Text length	문자 제한은 20,000자입니다. 파일이 제한을 초과하는 경우 도구의 지침에 따라 해당 파일을 분할합니다.
SSML 제한	각 SSML 파일은 SSML의 단일 부분만 포함할 수 있습니다.

* 일반 텍스트 예제:

Welcome to use Audio Content Creation to customize audio output for your products.

** SSML 텍스트 예제:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

튜닝된 오디오 내보내기

오디오 출력을 검토한 후 튜닝 및 조정에 만족하면 오디오를 내보낼 수 있습니다.

내보내기를 클릭하여 오디오 만들기 작업을 만듭니다.

클라우드에서 오디오 출력을 쉽게 저장하고, 찾고, 검색하려면 오디오 라이브러리로 내보내기를 수행하는 것이 좋습니다. Azure Blob Storage를 통해 애플리케이션과 더 잘 통합할 수 있습니다. 로컬 디스크에 직접 오디오를 다운로드할 수도 있습니다.

튜닝된 오디오의 출력 형식을 선택합니다. 지원되는 오디오 형식 및 샘플 속도는 다음 표에 나와 있습니다.

형식	8kHz 샘플 속도	16kHz 샘플 속도	24kHz 샘플 속도	48kHz 샘플 속도
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	해당 없음	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

작업 상태를 보려면 작업 목록 탭을 선택합니다.

작업이 실패하면 전체 보고서에 대한 세부 정보 페이지를 참조하세요.
작업이 완료되면 오디오 라이브러리 창에서 오디오를 다운로드할 수 있습니다.
다운로드하려는 파일을 선택하고 다운로드합니다.

이제 앱 또는 제품에서 사용자 지정 튜닝된 오디오를 사용할 준비가 되었습니다.

Blob에 대한 BYOS 및 익명 공개 읽기 액세스 구성

BYOS(Bring Your Own Storage)에 대한 액세스 권한을 상실하면 파일을 확인, 생성, 편집, 삭제할 수 없습니다. 액세스를 다시 시작하려면 현재 스토리지를 제거하고 Azure portal에서 BYOS를 다시 구성해야 합니다. BYOS 구성 방법에 대해 자세히 알아보려면 Azure Storage를 App Service에서 로컬 공유로 마운트를 참조하세요.

BYOS 권한을 구성한 후에는 관련 컨테이너 및 Blob에 대한 익명 공개 읽기 액세스를 구성해야 합니다. 그렇지 않으면 BLOB 데이터를 공개적으로 액세스할 수 없으며 BLOB의 어휘 파일에 액세스할 수 없습니다. 기본적으로 컨테이너의 공개 액세스 설정은 비활성화되어 있습니다. 익명 사용자에게 컨테이너 및 해당 BLOB에 대한 읽기 액세스를 부여하려면 먼저 스토리지 계정에 대한 공용 액세스를 허용하도록 BLOB 공용 액세스 허용을 사용으로 설정한 다음 컨테이너(acc-public-files) 공용 액세스 수준(BLOB의 경우에만 익명 읽기 액세스)을 설정합니다. 익명 공개 읽기 액세스를 구성하는 방법에 대해 자세히 알아보려면 컨테이너 및 BLOB에 대한 익명 공개 읽기 액세스 구성을 참조하세요.

오디오 콘텐츠 만들기 사용자 추가 또는 제거

둘 이상의 사용자가 오디오 콘텐츠 만들기를 사용하려는 경우 Azure 구독 및 음성 리소스에 대한 액세스 권한을 부여할 수 있습니다. 사용자를 Azure 구독에 추가하면 해당 사용자가 Azure 구독의 모든 리소스에 액세스할 수 있습니다. 그러나 사용자를 음성 리소스에만 추가하면 이 Azure 구독의 다른 리소스에는 액세스할 수 없고 음성 리소스에만 액세스할 수 있습니다. 음성 리소스에 대한 액세스 권한이 있는 사용자는 오디오 콘텐츠 만들기 도구를 사용할 수 있습니다.

액세스 권한을 부여받은 사용자는 Microsoft 계정을 설정해야 합니다. Microsoft 계정이 없는 경우 몇 분 만에 계정을 만들 수 있습니다. 기존 이메일을 사용하여 Microsoft 계정에 연결하거나 Outlook 이메일 주소를 만들어 Microsoft 계정으로 사용할 수 있습니다.

음성 리소스에 사용자 추가

오디오 콘텐츠 만들기를 사용할 수 있도록 사용자를 음성 리소스에 추가하려면 다음을 수행합니다.

Azure Portal에서 모든 서비스를 선택합니다.
그런 다음 Azure AI 서비스를 선택하고 특정 음성 리소스로 이동합니다.

참고 항목

또한 전체 리소스 그룹, 구독 또는 관리 그룹에 대해 Azure RBAC를 설정할 수 있습니다. 원하는 범위 수준을 선택한 다음 원하는 항목으로 이동하여 이 작업을 수행합니다(예: 리소스 그룹을 선택하고 원하는 리소스 그룹으로 클릭하여 선택).
왼쪽 탐색 창에서 액세스 제어(IAM)를 선택합니다.
추가 ->역할 할당 추가를 선택합니다.
다음 화면의 역할 탭에서 추가할 역할(이 경우 소유자)을 선택합니다.
멤버 탭에서 사용자의 이메일 주소를 입력하고, 디렉터리에서 사용자의 이름을 선택합니다. 이메일 주소는 Microsoft Entra ID에서 신뢰하는 Microsoft 계정에 연결해야 합니다. 사용자는 개인 이메일 주소를 사용하여 Microsoft 계정에 쉽게 가입할 수 있습니다.
검토 + 할당 탭에서 검토 + 할당을 선택하여 역할을 할당합니다.

그러면 다음과 같은 상황이 발생합니다.

이메일 초대가 사용자에게 자동으로 보내집니다. 이메일에서 초대 수락>Azure 조인 수락을 차례로 선택하여 수락할 수 있습니다. 그러면 Azure Portal로 리디렉션됩니다. Azure Portal에서는 추가 작업을 수행할 필요가 없습니다. 잠시 후 사용자에게 이 음성 리소스에 대한 액세스 권한을 부여하는 음성 리소스 범위의 역할이 할당됩니다. 사용자가 초대 이메일을 받지 못하면 역할 할당 아래에서 해당 계정을 검색하여 프로필로 이동할 수 있습니다. ID>초대 수락됨을 차례로 찾고, (관리)를 선택하여 이메일 초대를 다시 보냅니다. 초대 링크를 복사하여 사용자에게 보낼 수도 있습니다.

이제 사용자는 오디오 콘텐츠 만들기 제품 페이지를 방문하거나 새로 고치고, Microsoft 계정으로 로그인합니다. 모든 음성 제품 중에서 오디오 콘텐츠 만들기 블록을 선택합니다. 팝업 창 또는 오른쪽 위의 설정에서 음성 리소스를 선택합니다.

사용 가능한 음성 리소스를 찾을 수 없는 경우 올바른 디렉터리에 있는지 확인할 수 있습니다. 이렇게 하려면 오른쪽 위에서 계정 프로필을 선택한 다음, 현재 디렉터리 옆에 있는 전환을 선택합니다. 둘 이상의 사용 가능한 디렉터리가 있는 경우 여러 디렉터리에 액세스할 수 있음을 의미합니다. 다른 디렉터리로 전환하고, 설정으로 이동하여 적합한 음성 리소스를 사용할 수 있는지 확인할 수 있습니다.

동일한 음성 리소스에 있는 사용자는 오디오 콘텐츠 만들기 도구에서 서로의 작업을 볼 수 있습니다. 각 개별 사용자가 오디오 콘텐츠 만들기에서 고유한 프라이빗 작업 공간을 갖도록 하려면 각 사용자에 대해 새 음성 리소스를 만들고 각 사용자에게 음성 리소스에 대한 고유한 액세스 권한을 부여합니다.

음성 리소스에서 사용자 제거

Azure portal에서 Azure AI 서비스를 검색하고 사용자를 제거하려는 음성 리소스를 선택합니다.
액세스 제어(IAM)를 선택한 다음, 역할 할당 탭을 선택하여 이 음성 리소스에 대한 모든 역할 할당을 봅니다.
제거하려는 사용자를 선택하고, 제거를 선택한 다음, 확인을 선택합니다.

사용자가 다른 사용자에게 액세스 권한을 부여하도록 설정

사용자가 다른 사용자에게 액세스 권한을 부여하도록 허용하려면 해당 사용자에게 음성 리소스에 대한 소유자 역할을 할당하고 사용자를 Azure 디렉터리 읽기 권한자로 설정해야 합니다.

사용자를 음성 리소스의 소유자로 추가합니다. 자세한 내용은 음성 리소스에 사용자 추가를 참조하세요.
Azure Portal의 왼쪽 위에서 축소된 메뉴를 선택하고, Microsoft Entra ID를 선택한 다음, 사용자를 선택합니다.
사용자의 Microsoft 계정을 검색하고, 세부 정보 페이지로 이동한 다음, 할당된 역할을 선택합니다.
할당 추가>디렉터리 읽기 권한자를 차례로 선택합니다. 할당 추가 단추를 사용할 수 없으면 액세스 권한이 없음을 의미합니다. 이 디렉터리의 전역 관리자만 사용자에게 할당을 추가할 수 있습니다.

오디오 콘텐츠 만들기 도구를 사용한 음성 합성