빠른 시작: Azure AI Speech CLI 시작

아티클
01/23/2024

이 문서에서는 Azure AI Speech CLI(SPX라고도 함)를 사용하여 코드를 작성하지 않고도 음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역과 같은 Speech Service에 액세스하는 방법에 대해 알아봅니다. Speech CLI는 프로덕션 환경에 즉시 사용할 수 있으며, .bat 또는 셸 스크립트를 사용하여 Speech Service에서 간단한 워크플로를 자동화하는 데 사용할 수 있습니다.

이 문서에서는 사용자가 명령 프롬프트 창, 터미널 또는 PowerShell에 대한 실무 지식이 있다고 가정합니다.

참고 항목

PowerShell에서 stop-parsing 토큰(--%)은 spx 다음에 와야 합니다. 예를 들어 spx --% config @region을 실행하여 현재 지역 구성 값을 확인합니다.

다운로드 및 설치

Windows에 Speech CLI를 설치하려면 다음 단계를 수행합니다.

플랫폼에 맞는 Visual Studio 2019용 Microsoft Visual C++ 재배포 가능 패키지를 설치합니다. 처음 설치하는 경우 재시작이 필요할 수 있습니다.
.NET 6을 설치합니다.
다음 명령을 입력하여 .NET CLI를 통해 Speech CLI를 설치합니다.
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
음성 CLI를 업데이트하려면 다음 명령을 입력합니다.
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

음성 CLI에 대한 도움말을 보려면 spx 또는 spx help를 입력합니다.

글꼴 제한 사항

Windows에서 Speech CLI는 로컬 컴퓨터의 명령 프롬프트에서 사용할 수 있는 글꼴만 표시할 수 있습니다. Windows 터미널은 Speech CLI에서 대화형으로 생성하는 모든 글꼴을 지원합니다.

파일로 출력하면 메모장과 같은 텍스트 편집기나 Microsoft Edge와 같은 웹 브라우저도 모든 글꼴을 표시할 수 있습니다.

주의

이 문서에서는 EOL(수명 종료) 상태에 가까워진 Linux 배포판인 CentOS를 참조하세요. 이에 따라 사용 및 계획을 고려하세요. 자세한 내용은 CentOS 수명 종료 지침을 참조 하세요.

Speech CLI를 사용하는 x64 아키텍처를 지원하는 Linux 배포판은 다음과 같습니다.

CentOS 7/8
Debian 9/10
RHEL(Red Hat Enterprise Linux) 7/8
Ubuntu 18.04/20.04

참고 항목

Speech SDK는(Speech CLI 아님) 추가 아키텍처를 지원합니다. 자세한 내용은 Speech SDK 정보를 참조하세요.

x64 CPU에서 Linux에 Speech CLI를 설치하려면 다음 단계를 수행합니다.

.NET 6을 설치합니다.
다음 명령을 입력하여 .NET CLI를 통해 Speech CLI를 설치합니다.
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
음성 CLI를 업데이트하려면 다음 명령을 입력합니다.
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
RHEL/CentOS Linux에서 linux용 OpenSSL을 구성합니다.
Ubuntu 20.04 Linux에서 GStreamer를 설치합니다.

Speech CLI에 대한 도움말을 보려면 spx를 입력합니다.

macOS 10.14 이상에 음성 CLI를 설치하려면 다음 단계를 따릅니다.

.NET 6을 설치합니다.
다음 명령을 입력하여 .NET CLI를 통해 Speech CLI를 설치합니다.
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
음성 CLI를 업데이트하려면 다음 명령을 입력합니다.
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

음성 CLI에 대한 도움말을 보려면 spx 또는 spx help를 입력합니다.

다음 예제에서는 Docker 허브에서 공용 컨테이너 이미지를 가져옵니다. 익명 끌어오기 요청을 수행하는 대신 먼저 Docker 허브 계정(docker login)을 사용하여 인증하는 것이 좋습니다. 공용 콘텐츠를 사용할 때 안정성을 향상시키려면 프라이빗 Azure 컨테이너 레지스트리에서 이미지를 가져오고 관리하세요. 공용 이미지 사용에 대해 자세히 알아봅니다.

Docker 컨테이너에서 Speech CLI를 설치하려면 다음 단계를 수행합니다.

아직 설치되지 않은 경우 플랫폼에 Docker Desktop을 설치합니다.
새 명령 프롬프트 또는 터미널에서 다음 명령을 입력합니다.
```
docker pull msftspeech/spx
```

Speech CLI에 대한 도움말 정보를 표시하려면 다음 명령을 입력합니다.

docker run -it --rm msftspeech/spx help

컨테이너에 디렉터리 탑재

Speech CLI 도구는 구성 설정을 파일로 저장합니다. 명령(help 명령 제외)을 수행할 때 이 도구에서 이러한 파일을 로드합니다.

Docker 컨테이너 내에서 Speech CLI를 사용하는 경우 도구에서 다음을 수행할 수 있도록 컨테이너의 로컬 디렉터리를 탑재해야 합니다.

구성 설정을 저장하거나 찾습니다.
음성의 오디오 파일과 같이 명령에 필요한 모든 파일을 읽거나 씁니다.

Windows에서 다음 명령을 입력하여 Speech CLI가 컨테이너 내에서 사용할 수 있는 로컬 디렉터리를 만듭니다.

mkdir c:\spx-data

Linux 또는 macOS에서 다음 명령을 터미널에 입력하여 디렉터리를 만들고 절대 경로를 확인합니다.

mkdir ~/spx-data
cd ~/spx-data
pwd

Speech CLI를 호출하면 절대 경로가 사용됩니다.

컨테이너에서 Speech CLI 실행

이 설명서에서는 비 Docker 설치에서 사용되는 Speech CLI spx 명령을 보여 줍니다. Docker 컨테이너에서 spx 명령을 호출하는 경우 Speech CLI에서 구성 값을 저장하고 찾고 파일을 읽고 쓸 수 있는 파일 시스템에 컨테이너의 디렉터리를 탑재해야 합니다.

Windows에서 명령은 다음과 같이 시작됩니다.

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Linux 또는 macOS에서 명령은 다음 샘플과 같습니다. ABSOLUTE_PATH를 탑재된 디렉터리의 절대 경로로 바꿉니다. pwd 명령은 이전 섹션에서 이 경로를 반환했습니다. 키와 지역을 설정하기 전에 이 명령을 실행하면 키와 지역을 설정하라는 오류 메시지가 표시됩니다.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

컨테이너에 설치된 spx 명령을 사용하려면 항상 이전 샘플처럼 전체 명령과 요청의 매개 변수를 차례로 입력합니다. 예를 들어 Windows에서 이 명령은 키를 설정합니다.

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

명령줄 도구와 더 확장된 상호 작용을 위해 entrypoint 매개 변수를 추가하여 대화형 Bash 셸을 통해 컨테이너를 시작할 수 있습니다. Windows에서 다음 명령을 입력하여 여러 spx 명령을 입력할 수 있는 대화형 명령줄 인터페이스를 표시하는 컨테이너를 시작합니다.

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

이를 AZ 로그인과 결합하고, Azure Portal을 사용하지 않고도 음성 키를 만들고, 일치하는 데이터 영역을 선택하는 SPX Init 가이드를 만들 수 있습니다. 키는 나중에 사용하기 위해 자동으로 저장됩니다.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

시작하려면 Speech 리소스 키 및 지역 식별자(예: eastus, westus)가 필요합니다. Azure Portal에서 음성 리소스를 만듭니다. 자세한 내용은 다중 서비스 리소스 만들기를 참조하세요.

리소스 키와 지역 식별자를 구성하려면 다음 명령을 실행합니다.

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

키와 지역은 이후 Speech CLI 명령에 대해 저장됩니다. 현재 구성을 확인하려면 다음 명령을 실행합니다.

spx config @key
spx config @region

필요에 따라 저장된 값 중 하나를 제거하는 clear 옵션을 포함합니다.

spx config @key --clear
spx config @region --clear

Speech 리소스 키 및 지역 식별자를 구성하려면 PowerShell에서 다음 명령을 실행합니다.

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

키와 지역은 이후 SPX 명령을 위해 저장됩니다. 현재 구성을 확인하려면 다음 명령을 실행합니다.

spx --% config @key
spx --% config @region

필요에 따라 저장된 값 중 하나를 제거하는 clear 옵션을 포함합니다.

spx --% config @key --clear
spx --% config @region --clear

기본 사용법

Important

컨테이너에서 음성 CLI를 사용하는 경우 --host 옵션을 포함하세요. CLI가 인증을 위해 음성 키를 사용하지 않도록 하려면 --key none도 지정해야 합니다. 예를 들어 spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav를 실행하여 음성 텍스트 변환 컨테이너의 오디오 파일에서 음성을 인식합니다.

이 섹션에서는 처음으로 테스트 또는 실험을 수행할 때 도움이 되는 몇 가지 기본 SPX 명령을 보여줍니다. 도구 내 도움말을 보려면 다음 명령을 실행합니다.

spx

키워드를 기준으로 도움말 항목을 검색할 수 있습니다. 예를 들어 Speech CLI 사용 예제 목록을 보려면 다음 명령을 실행합니다.

spx help find --topics "examples"

recognize 명령에 대한 옵션을 보려면 다음 명령을 실행합니다.

spx help recognize

추가 도움말 명령이 콘솔 출력에 나열됩니다. 이러한 명령을 입력하여 하위 명령에 대한 자세한 도움말을 가져올 수 있습니다.

음성 - 텍스트 변환(음성 인식)

참고 항목

Docker 컨테이너 내에서 Speech CLI를 실행하는 경우 컴퓨터의 마이크를 사용할 수 없습니다. 그러나 로컬에 탑재된 디렉터리에서는 오디오 파일을 읽고 저장할 수 있습니다.

시스템의 기본 마이크를 사용하여 음성을 텍스트로 변환(음성 인식)하려면 다음 명령을 실행합니다.

spx recognize --microphone

명령이 실행되면 SPX에서 현재 활성 입력 디바이스의 오디오 수신 대기를 시작합니다. Enter 키를 선택하면 수신 대기가 중지됩니다. 그러면 음성 오디오가 인식되고 콘솔 출력의 텍스트로 변환됩니다.

Speech CLI를 사용하면 오디오 파일의 음성을 인식할 수도 있습니다. 다음 명령을 실행합니다.

spx recognize --file /path/to/file.wav

팁

문제가 발생하거나 Speech CLI 인식 옵션에 대해 자세히 알아보려면 spx help recognize를 실행할 수 있습니다.

텍스트 음성 변환(음성 합성)

다음 명령은 텍스트를 입력으로 사용한 다음, 합성된 음성을 현재 활성 출력 디바이스(예: 컴퓨터 스피커)로 출력합니다.

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

또한 합성된 출력은 파일에 저장할 수 있습니다. 다음 예제에서는 명령을 실행하는 디렉터리에 my-sample.wav라는 파일을 만들어 보겠습니다.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

이 예제에서는 영어로 테스트하는 것으로 가정합니다. 그러나 Speech Service는 음성 합성을 다양한 언어로 지원합니다. 다음 명령을 실행하거나 언어 지원 페이지를 방문하여 전체 음성 목록을 끌어올 수 있습니다.

spx synthesize --voices

검색한 음성 중 하나를 사용하는 명령은 다음과 같습니다.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

팁

문제가 발생하거나 Speech CLI 인식 옵션에 대해 자세히 알아보려면 spx help synthesize를 실행할 수 있습니다.

음성을 텍스트로 번역

Speech CLI를 사용하여 음성을 텍스트로 번역할 수도 있습니다. 다음 명령을 실행하여 기본 마이크에서 오디오를 캡처하고, 번역을 텍스트로 출력합니다. translate 명령을 사용하여 source 및 target 언어를 제공해야 한다는 점을 기억하세요.

spx translate --microphone --source en-US --target ru-RU

여러 언어로 번역하는 경우 언어 코드를 세미콜론(;)으로 구분합니다.

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

번역 출력을 저장하려면 --output 플래그를 사용합니다. 이 예제에서는 파일의 음성도 읽습니다.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

팁

문제가 발생하거나 Speech CLI 인식 옵션에 대해 자세히 알아보려면 spx help translate를 실행할 수 있습니다.

빠른 시작: Azure AI Speech CLI 시작

다운로드 및 설치

글꼴 제한 사항

리소스 구성 만들기

기본 사용법

음성 - 텍스트 변환(음성 인식)

텍스트 음성 변환(음성 합성)

음성을 텍스트로 번역

다음 단계

추가 리소스