Mulai Cepat: Mulai menggunakan Azure AI Speech CLI

Dalam artikel ini, Anda mempelajari cara menggunakan Azure AI Speech CLI (juga disebut SPX) untuk mengakses layanan Ucapan seperti ucapan ke teks, teks ke ucapan, dan terjemahan ucapan, tanpa harus menulis kode apa pun. Speech CLI siap diproduksi dan dapat digunakan untuk mengotomatiskan alur kerja sederhana dalam layanan Ucapan dengan menggunakan .bat atau skrip shell.

Artikel ini mengasumsikan bahwa Anda memiliki pengetahuan kerja tentang jendela Wantian Perintah, terminal, atau PowerShell.

Catatan

Di PowerShell, token stop-parsing (--%) harus mengikuti spx. Misalnya, jalankan spx --% config @region untuk melihat nilai konfigurasi wilayah saat ini.

Unduh dan instal

Ikuti langkah-langkah ini untuk menginstal Speech CLI di Windows:

  1. Di Windows, Anda memerlukan Microsoft Visual C++ Redistributable untuk Visual Studio 2019 untuk platform Anda. Ketika memasang Microsoft Visual C++ Redistributable untuk pertama kalinya, mungkin Anda perlu menghidupkan ulang.

  2. Instal .NET 6.

  3. Instal CLI Ucapan melalui CLI .NET dengan memasukkan perintah ini:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Untuk memperbarui Speech CLI, masukkan perintah ini:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Masukkan spx atau spx help untuk melihat bantuan untuk Speech CLI.

Batasan font

Di Windows, Speech CLI hanya bisa menampilkan font yang tersedia untuk perintah di komputer lokal. Terminal Windows mendukung semua font yang diproduksi secara interaktif oleh Speech CLI.

Jika Anda menyimpan hasilnya sebagai file, editor teks seperti Notepad atau browser web seperti Microsoft Edge juga dapat menampilkan semua font.

Membuat konfigurasi sumber daya

Untuk memulai, Anda memerlukan kunci sumber daya Ucapan dan pengidentifikasi wilayah (misalnya, eastus, westus). Buat sumber daya Ucapan di portal Azure. Untuk informasi selengkapnya, lihat Membuat sumber daya multi-layanan.

Untuk mengonfigurasi kunci sumber daya dan pengidentifikasi wilayah Anda, jalankan perintah berikut:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Kunci dan wilayah disimpan untuk perintah Speech CLI di masa mendatang. Untuk melihat konfigurasi saat ini, jalankan perintah berikut:

spx config @key
spx config @region

Jika diperlukan, sertakan opsi clear untuk menghapus salah satu nilai yang tersimpan:

spx config @key --clear
spx config @region --clear

Penggunaan dasar

Penting

Saat Anda menggunakan Speech CLI dalam kontainer, sertakan --host opsi . Anda juga harus menentukan --key none untuk memastikan bahwa CLI tidak mencoba menggunakan kunci Ucapan untuk autentikasi. Misalnya, jalankan spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav untuk mengenali ucapan dari file audio dalam kontainer ucapan ke teks.

Bagian ini menunjukkan beberapa perintah SPX dasar yang sering berguna untuk pengujian dan eksperimen pertama kali. Jalankan perintah berikut untuk melihat bantuan dalam alat:

spx

Anda dapat mencari topik bantuan berdasarkan kata kunci. Misalnya, untuk melihat daftar contoh penggunaan Speech CLI, jalankan perintah berikut:

spx help find --topics "examples"

Untuk melihat opsi untuk recognize perintah, jalankan perintah berikut:

spx help recognize

Perintah bantuan lainnya tercantum dalam output konsol. Anda dapat memasukkan perintah ini untuk mendapatkan bantuan terperinci tentang sub-perintah.

Ucapan ke teks (pengenalan ucapan)

Catatan

Anda tidak dapat menggunakan mikrofon komputer saat menjalankan Speech CLI dalam kontainer Docker. Namun, Anda dapat menyimpan file audio dan membaca dari direktori lokal yang dipasang.

Untuk mengonversi ucapan menjadi teks (pengenalan ucapan) dengan menggunakan mikrofon default sistem Anda, jalankan perintah berikut:

spx recognize --microphone

Setelah Anda menjalankan perintah, SPX mulai mendengarkan audio di perangkat input aktif saat ini. SPX berhenti mendengarkan saat Anda memilih Enter. Ucapan yang direkam kemudian dikenali dan dikonversi ke teks di output konsol.

Dengan Speech CLI, Anda juga dapat mengenali ucapan dari file audio. Jalankan perintah berikut:

spx recognize --file /path/to/file.wav

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help recognize.

Teks ke ucapan (sintesis ucapan)

Perintah berikut mengambil teks sebagai input dan kemudian mengeluarkan suara yang disintesis ke perangkat output aktif saat ini (misalnya, speaker komputer Anda).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Anda juga dapat menyimpan output yang disintesis ke file. Dalam contoh ini, mari kita buat file bernama my-sample.wav di direktori tempat Anda menjalankan perintah.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Beberapa contoh ini menganggap bahwa Anda menguji dalam bahasa Inggris. Namun, layanan Ucapan mendukung sintesis ucapan dalam banyak bahasa. Anda dapat menarik daftar lengkap suara dengan perintah berikut atau dengan mengunjungi halaman dukungan bahasa.

spx synthesize --voices

Berikut adalah perintah untuk menggunakan salah satu suara yang Anda temukan.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help synthesize.

Terjemahan ucapan ke teks

Dengan Speech CLI, Anda juga dapat melakukan terjemahan ucapan ke teks. Jalankan perintah ini untuk mengambil audio dari mikrofon default Anda dan mengeluarkan terjemahan sebagai teks. Perlu diingat bahwa Anda perlu menyediakan source dan target bahasa dengan translate perintah.

spx translate --microphone --source en-US --target ru-RU

Saat Anda menerjemahkan ke dalam beberapa bahasa, pisahkan kode bahasa dengan titik koma (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Jika Anda ingin menyimpan output terjemahan, gunakan --output bendera. Dalam contoh ini, Anda juga membaca dari file.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Jika Anda bingung atau ingin mempelajari selengkapnya tentang opsi pengenalan Speech CLI, Anda dapat menjalankan spx help translate.

Langkah berikutnya