Mulai Cepat: Mulai menggunakan Azure AI Speech CLI

Artikel
01/23/2024

Dalam artikel ini, Anda mempelajari cara menggunakan Azure AI Speech CLI (juga disebut SPX) untuk mengakses layanan Ucapan seperti ucapan ke teks, teks ke ucapan, dan terjemahan ucapan, tanpa harus menulis kode apa pun. Speech CLI siap diproduksi dan dapat digunakan untuk mengotomatiskan alur kerja sederhana dalam layanan Ucapan dengan menggunakan .bat atau skrip shell.

Artikel ini mengasumsikan bahwa Anda memiliki pengetahuan kerja tentang jendela Wantian Perintah, terminal, atau PowerShell.

Catatan

Di PowerShell, token stop-parsing (--%) harus mengikuti spx. Misalnya, jalankan spx --% config @region untuk melihat nilai konfigurasi wilayah saat ini.

Unduh dan instal

Ikuti langkah-langkah ini untuk menginstal Speech CLI di Windows:

Di Windows, Anda memerlukan Microsoft Visual C++ Redistributable untuk Visual Studio 2019 untuk platform Anda. Ketika memasang Microsoft Visual C++ Redistributable untuk pertama kalinya, mungkin Anda perlu menghidupkan ulang.
Instal .NET 6.

Instal CLI Ucapan melalui CLI .NET dengan memasukkan perintah ini:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Untuk memperbarui Speech CLI, masukkan perintah ini:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Masukkan spx atau spx help untuk melihat bantuan untuk Speech CLI.

Batasan font

Di Windows, Speech CLI hanya bisa menampilkan font yang tersedia untuk perintah di komputer lokal. Terminal Windows mendukung semua font yang diproduksi secara interaktif oleh Speech CLI.

Jika Anda menyimpan hasilnya sebagai file, editor teks seperti Notepad atau browser web seperti Microsoft Edge juga dapat menampilkan semua font.

Perhatian

Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan perencanaan Anda yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.

Distribusi Linux berikut didukung untuk arsitektur x64 menggunakan Speech CLI:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Catatan

Speech SDK (bukan Speech CLI) mendukung arsitektur tambahan. Untuk informasi selengkapnya, lihat Tentang Speech SDK.

Ikuti langkah-langkah ini untuk menginstal Speech CLI di Linux pada CPU x64:

Instal .NET 6.

Instal CLI Ucapan melalui CLI .NET dengan memasukkan perintah ini:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Untuk memperbarui Speech CLI, masukkan perintah ini:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Pada RHEL/CentOS Linux, Konfigurasikan OpenSSL untuk Linux.
Pada Ubuntu 20.04 Linux, instal GStreamer.

Masukkan spx untuk melihat bantuan untuk Speech CLI.

Ikuti langkah-langkah berikut untuk menginstal Speech CLI pada macOS 10.14 atau yang lebih baru:

Instal .NET 6.

Instal CLI Ucapan melalui CLI .NET dengan memasukkan perintah ini:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Untuk memperbarui Speech CLI, masukkan perintah ini:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Masukkan spx atau spx help untuk melihat bantuan untuk Speech CLI.

Contoh berikut menarik gambar kontainer publik dari Docker Hub. Sebaiknya autentikasi dengan akun Docker Hub Anda (docker login) terlebih dahulu alih-alih membuat permintaan pull anonim. Untuk meningkatkan keandalan saat menggunakan konten publik, impor dan kelola gambar dalam Azure container registry privat. Pelajari lebih lanjut cara menangani citra publik.

Ikuti langkah-langkah berikut untuk menginstal Speech CLI dalam kontainer Docker:

Instal Docker Desktop untuk platform Anda jika belum diinstal.
Di perintah atau terminal baru, masukkan perintah ini:
```
docker pull msftspeech/spx
```

Masukkan perintah ini untuk menampilkan informasi bantuan untuk Speech CLI:

docker run -it --rm msftspeech/spx help

Memasang direktori dalam kontainer

Alat Speech CLI menyimpan pengaturan konfigurasi sebagai file. Ini memuat file-file ini saat Anda melakukan perintah apa pun (kecuali perintah bantuan).

Saat Anda menggunakan Speech CLI dalam kontainer Docker, Anda harus memasang direktori lokal dari kontainer, sehingga alat ini dapat:

Simpan atau temukan pengaturan konfigurasi.
Baca atau tulis file apa pun yang dibutuhkan perintah, seperti file audio ucapan.

Di Windows, masukkan perintah ini untuk membuat direktori lokal yang dapat digunakan Speech CLI dari dalam kontainer:

mkdir c:\spx-data

Atau di Linux atau macOS, masukkan perintah ini di terminal untuk membuat direktori dan melihat jalur absolutnya:

mkdir ~/spx-data
cd ~/spx-data
pwd

Anda akan menggunakan jalur absolut saat Anda memanggil Speech CLI.

Jalankan Speech CLI dalam kontainer

Dokumentasi ini menunjukkan perintah spx Speech CLI yang digunakan dalam penginstalan pada selain Docker. Saat memanggil perintah spx dalam kontainer Docker, Anda harus memasang direktori dalam kontainer ke sistem file tempat Speech CLI dapat menyimpan dan menemukan nilai konfigurasi serta membaca dan menulis file.

Di Windows, perintah Anda akan dimulai seperti ini:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Di Linux atau macOS, perintah Anda akan terlihat seperti sampel di bawah ini. Ganti ABSOLUTE_PATH dengan jalur absolut untuk direktori yang dipasang. Perintah pwd mengembalikan jalur ini di bagian sebelumnya. Jika Anda menjalankan perintah ini sebelum mengatur kunci dan wilayah, Anda akan mendapatkan kesalahan yang memberitahu Anda untuk mengatur kunci dan wilayah Anda.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Untuk menggunakan perintah spx yang diinstal dalam kontainer, selalu masukkan perintah lengkap yang ditunjukkan di atas, diikuti oleh parameter permintaan Anda. Misalnya, di Windows, perintah ini mengatur kunci Anda:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Untuk interaksi yang lebih lama dengan alat baris perintah, Anda dapat memulai kontainer dengan shell bash interaktif dengan menambahkan parameter entrypoint. Di Windows, masukkan perintah ini untuk memulai kontainer yang mengekspos antarmuka baris perintah interaktif, tempat Anda dapat memasukkan beberapa perintah spx:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Anda dapat menggabungkannya dengan AZ Login dan memiliki SPX Init memandu Anda membuat kunci ucapan dan memilih wilayah data yang cocok tanpa harus menggunakan portal Azure. Kunci akan secara otomatis disimpan untuk digunakan nanti.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Untuk memulai, Anda memerlukan kunci sumber daya Ucapan dan pengidentifikasi wilayah (misalnya, eastus, westus). Buat sumber daya Ucapan di portal Azure. Untuk informasi selengkapnya, lihat Membuat sumber daya multi-layanan.

Untuk mengonfigurasi kunci sumber daya dan pengidentifikasi wilayah Anda, jalankan perintah berikut:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Kunci dan wilayah disimpan untuk perintah Speech CLI di masa mendatang. Untuk melihat konfigurasi saat ini, jalankan perintah berikut:

spx config @key
spx config @region

Jika diperlukan, sertakan opsi clear untuk menghapus salah satu nilai yang tersimpan:

spx config @key --clear
spx config @region --clear

Untuk mengonfigurasi kunci sumber daya Ucapan dan pengidentifikasi wilayah Anda, jalankan perintah berikut di PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Kunci dan wilayah disimpan untuk perintah SPX di masa mendatang. Untuk melihat konfigurasi saat ini, jalankan perintah berikut:

spx --% config @key
spx --% config @region

Jika diperlukan, sertakan opsi clear untuk menghapus salah satu nilai yang tersimpan:

spx --% config @key --clear
spx --% config @region --clear

Penggunaan dasar

Penting

Saat Anda menggunakan Speech CLI dalam kontainer, sertakan --host opsi . Anda juga harus menentukan --key none untuk memastikan bahwa CLI tidak mencoba menggunakan kunci Ucapan untuk autentikasi. Misalnya, jalankan spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav untuk mengenali ucapan dari file audio dalam kontainer ucapan ke teks.

Bagian ini menunjukkan beberapa perintah SPX dasar yang sering berguna untuk pengujian dan eksperimen pertama kali. Jalankan perintah berikut untuk melihat bantuan dalam alat:

spx

Anda dapat mencari topik bantuan berdasarkan kata kunci. Misalnya, untuk melihat daftar contoh penggunaan Speech CLI, jalankan perintah berikut:

spx help find --topics "examples"

Untuk melihat opsi untuk recognize perintah, jalankan perintah berikut:

spx help recognize

Perintah bantuan lainnya tercantum dalam output konsol. Anda dapat memasukkan perintah ini untuk mendapatkan bantuan terperinci tentang sub-perintah.

Ucapan ke teks (pengenalan ucapan)

Catatan

Anda tidak dapat menggunakan mikrofon komputer saat menjalankan Speech CLI dalam kontainer Docker. Namun, Anda dapat menyimpan file audio dan membaca dari direktori lokal yang dipasang.

Untuk mengonversi ucapan menjadi teks (pengenalan ucapan) dengan menggunakan mikrofon default sistem Anda, jalankan perintah berikut:

spx recognize --microphone

Setelah Anda menjalankan perintah, SPX mulai mendengarkan audio di perangkat input aktif saat ini. SPX berhenti mendengarkan saat Anda memilih Enter. Ucapan yang direkam kemudian dikenali dan dikonversi ke teks di output konsol.

Dengan Speech CLI, Anda juga dapat mengenali ucapan dari file audio. Jalankan perintah berikut:

spx recognize --file /path/to/file.wav

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help recognize.

Teks ke ucapan (sintesis ucapan)

Perintah berikut mengambil teks sebagai input dan kemudian mengeluarkan suara yang disintesis ke perangkat output aktif saat ini (misalnya, speaker komputer Anda).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Anda juga dapat menyimpan output yang disintesis ke file. Dalam contoh ini, mari kita buat file bernama my-sample.wav di direktori tempat Anda menjalankan perintah.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Beberapa contoh ini menganggap bahwa Anda menguji dalam bahasa Inggris. Namun, layanan Ucapan mendukung sintesis ucapan dalam banyak bahasa. Anda dapat menarik daftar lengkap suara dengan perintah berikut atau dengan mengunjungi halaman dukungan bahasa.

spx synthesize --voices

Berikut adalah perintah untuk menggunakan salah satu suara yang Anda temukan.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help synthesize.

Terjemahan ucapan ke teks

Dengan Speech CLI, Anda juga dapat melakukan terjemahan ucapan ke teks. Jalankan perintah ini untuk mengambil audio dari mikrofon default Anda dan mengeluarkan terjemahan sebagai teks. Perlu diingat bahwa Anda perlu menyediakan source dan target bahasa dengan translate perintah.

spx translate --microphone --source en-US --target ru-RU

Saat Anda menerjemahkan ke dalam beberapa bahasa, pisahkan kode bahasa dengan titik koma (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Jika Anda ingin menyimpan output terjemahan, gunakan --output bendera. Dalam contoh ini, Anda juga membaca dari file.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help translate.

Mulai Cepat: Mulai menggunakan Azure AI Speech CLI

Unduh dan instal

Batasan font

Memasang direktori dalam kontainer

Jalankan Speech CLI dalam kontainer

Membuat konfigurasi sumber daya

Penggunaan dasar

Ucapan ke teks (pengenalan ucapan)

Teks ke ucapan (sintesis ucapan)

Terjemahan ucapan ke teks

Langkah berikutnya

Sumber Daya Tambahan: