Kontainer ucapan ke teks kustom dengan Docker

Artikel
01/22/2024

Kontainer ucapan ke teks kustom mentranskripsikan rekaman ucapan atau audio batch real time dengan hasil perantara. Anda dapat menggunakan model kustom yang Anda buat di portal ucapan kustom. Dalam artikel ini, Anda mempelajari cara mengunduh, menginstal, dan menjalankan kontainer ucapan ke teks kustom.

Untuk informasi selengkapnya tentang prasyarat, memvalidasi bahwa kontainer sedang berjalan, menjalankan beberapa kontainer pada host yang sama, dan menjalankan kontainer yang terputus, lihat Menginstal dan menjalankan kontainer Ucapan dengan Docker.

Gambar kontainer

Gambar kontainer ucapan ke teks kustom untuk semua versi dan lokal yang didukung dapat ditemukan pada sindikat Microsoft Container Registry (MCR ). Itu berada di dalam repositori azure-cognitive-services/speechservices/ dan dinamai custom-speech-to-text.

Nama gambar kontainer yang sepenuhnya memenuhi syarat adalah, mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Tambahkan versi tertentu atau tambahkan :latest untuk mendapatkan versi terbaru.

Versi	Jalur
terbaru	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Semua tag, kecuali latest, berada dalam format berikut dan peka huruf besar/kecil:

<major>.<minor>.<patch>-<platform>-<prerelease>

Catatan

locale dan voice untuk kontainer ucapan ke teks kustom ditentukan oleh model kustom yang diserap oleh kontainer.

Tag juga tersedia dalam format JSON untuk kenyamanan Anda. Isinya mencakup jalur kontainer dan daftar tag. Tag tidak diurutkan menurut versi, tetapi "latest" selalu disertakan di akhir daftar seperti yang ditunjukkan dalam cuplikan ini:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Dapatkan gambar kontainer dengan penarikan docker

Anda memerlukan prasyarat termasuk perangkat keras yang diperlukan. Lihat juga alokasi sumber daya yang direkomendasikan untuk setiap kontainer Ucapan.

Gunakan perintah penarikan docker untuk mengunduh citra kontainer dari Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Catatan

locale dan voice untuk kontainer Ucapan kustom ditentukan oleh model kustom yang diserap oleh kontainer.

Mendapatkan ID model

Sebelum dapat menjalankan kontainer, Anda perlu mengetahui ID model model kustom Anda atau ID model dasar. Saat menjalankan kontainer, Anda menentukan salah satu ID model untuk diunduh dan digunakan.

ID model kustom
ID model dasar

Model kustom harus dilatih dengan menggunakan Speech Studio. Untuk informasi tentang cara mendapatkan ID model, lihat siklus hidup model ucapan kustom.

Screenshot that shows the custom speech training page.

Dapatkan ID Model untuk digunakan sebagai argumen ModelId parameter perintah docker run.

Screenshot that shows custom speech model details.

Anda bisa mendapatkan informasi model dasar yang tersedia dengan menggunakan opsi BaseModelLocale={LOCALE}. Opsi ini akan memberi Anda daftar model dasar yang tersedia di lokal tersebut di bagian akun penagihan Anda.

Untuk mendapatkan ID model dasar, Anda menggunakan docker run perintah . Misalnya:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Perintah ini memeriksa gambar kontainer dan mengembalikan model dasar yang tersedia dari lokal target.

Catatan

Meskipun Anda menggunakan docker run perintah , kontainer tidak dimulai untuk layanan.

Output memberi Anda daftar model dasar dengan lokal informasi, ID model, dan waktu tanggal pembuatan. Misalnya:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Tampilkan unduhan model

Sebelum menjalankan kontainer, Anda dapat secara opsional mendapatkan informasi model tampilan yang tersedia dan memilih untuk mengunduh model tersebut ke dalam kontainer ucapan ke teks Anda untuk mendapatkan output tampilan akhir yang sangat ditingkatkan. Unduhan model tampilan tersedia dengan kontainer ucapan ke teks kustom versi 3.1.0 dan yang lebih baru.

Catatan

Meskipun Anda menggunakan docker run perintah , kontainer tidak dimulai untuk layanan.

Anda dapat mengkueri atau mengunduh salah satu atau semua jenis model tampilan ini: Penskoran Ulang (Rescore), Tanda Baca (Punct), Segmentasi Ulang (Resegment), dan wfstitn (Wfstitn). Atau, Anda dapat menggunakan opsi FullDisplay (dengan atau tanpa jenis lain) untuk mengkueri atau mengunduh semua jenis model tampilan.

Atur BaseModelLocale untuk mengkueri model tampilan terbaru yang tersedia pada lokal target. Jika Anda menyertakan beberapa jenis model tampilan, perintah mengembalikan model tampilan terbaru yang tersedia untuk setiap jenis. Misalnya:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Atur DisplayLocale untuk mengunduh model tampilan terbaru yang tersedia pada lokal target. Saat Anda mengatur DisplayLocale, Anda juga harus menentukan FullDisplay atau subset model tampilan yang dipisahkan spasi. Perintah mengunduh model tampilan terbaru yang tersedia untuk setiap jenis yang ditentukan. Misalnya:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Atur satu parameter ID model untuk mengunduh model tampilan tertentu: Penskoran Ulang (RescoreId), Tanda Baca (PunctId), segmentasi ulang (ResegmentId), atau wfstitn (WfstitnId). Ini mirip dengan cara Anda akan mengunduh model dasar melalui parameter ModelId. Misalnya, untuk mengunduh model tampilan penskoran ulang, Anda dapat menggunakan perintah berikut dengan parameter RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Catatan

Jika Anda mengatur lebih dari satu parameter kueri atau unduhan, perintah akan memprioritaskan dalam urutan ini: BaseModelLocale, ID model, lalu DisplayLocale (hanya berlaku untuk model tampilan).

Jalankan kontainer dengan docker run

Gunakan perintah jalankan docker untuk menjalankan kontainer untuk layanan.

Ucapan kustom ke teks
Ucapan kustom terputus ke teks

Tabel berikut ini menunjukkan berbagai parameter docker run dan deskripsi terkait:

Parameter	Deskripsi
`{VOLUME_MOUNT}`	Dudukan volume komputer host, yang digunakan docker untuk mempertahankan model kustom. Contohnya adalah `c:\CustomSpeech` tempat `c:\` drive berada di komputer host.
`{MODEL_ID}`	ID model ucapan atau dasar kustom. Untuk informasi selengkapnya, lihat Mendapatkan ID model.
`{ENDPOINT_URI}`	Titik akhir diperlukan untuk pengukuran dan penagihan. Untuk informasi selengkapnya, lihat argumen penagihan.
`{API_KEY}`	Kunci API diperlukan. Untuk informasi selengkapnya, lihat argumen penagihan.

Saat Anda menjalankan kontainer ucapan ke teks kustom, konfigurasikan port, memori, dan CPU sesuai dengan persyaratan dan rekomendasi kontainer ucapan ke teks kustom.

Berikut adalah contoh docker run perintah dengan nilai tempat penampung. Anda harus menentukan VOLUME_MOUNTnilai , MODEL_ID, ENDPOINT_URI, dan API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Perintah ini:

Menjalankan kontainer ucapan ke teks kustom dari gambar kontainer.
Mengalokasikan 4 core CPU dan memori 8 GB.
Memuat model ucapan ke teks kustom dari pemasangan input volume, misalnya, C:\CustomSpeech.
Mengekspos port TCP 5000 dan mengalokasikan pseudo-TTY untuk kontainer.
Mengunduh model yang diberikan ModelId (jika tidak ditemukan pada dudukan volume).
Jika model kustom sebelumnya diunduh, ModelId diabaikan.
Menghapus kontainer secara otomatis setelah kontainer keluar. Gambar kontainer masih tersedia di komputer host.

Untuk informasi selengkapnya tentang docker run kontainer Ucapan, lihat Menginstal dan menjalankan kontainer Ucapan dengan Docker.

Untuk menjalankan kontainer yang terputus (tidak tersambung ke internet), Anda harus mengirimkan formulir permintaan ini dan menunggu persetujuan. Untuk informasi selengkapnya tentang menerapkan dan membeli rencana komitmen untuk menggunakan kontainer di lingkungan yang terputus, lihat Menggunakan kontainer di lingkungan yang terputus dalam dokumentasi layanan Azure AI.

Jika Anda disetujui untuk menjalankan kontainer yang terputus dari internet, contoh berikut menunjukkan pemformatan perintah yang docker run akan digunakan, dengan nilai tempat penampung. Ganti nilai tempat penampung dengan nilai Anda sendiri.

Untuk menyiapkan dan mengonfigurasi ucapan kustom yang terputus ke kontainer teks, Anda memerlukan dua sumber daya ucapan terpisah:

Sumber daya Azure AI Speech reguler yang dikonfigurasi untuk menggunakan tingkat harga "S0 - Standar" atau paket harga tingkat komitmen "Ucapan ke Teks (Kustom)". Ini digunakan untuk melatih, mengunduh, dan mengonfigurasi model ucapan kustom Anda untuk digunakan dalam kontainer Anda.
Sumber daya Azure AI Speech yang dikonfigurasi untuk menggunakan paket harga "Komitmen DC0 (Terputus)". Ini digunakan untuk mengunduh file lisensi kontainer terputus yang diperlukan untuk menjalankan kontainer dalam mode terputus.

Ikuti langkah-langkah ini untuk mengunduh dan menjalankan kontainer di lingkungan yang terputus.

Unduh model untuk kontainer yang terputus. Untuk langkah ini, gunakan sumber daya Azure AI Speech reguler yang dikonfigurasi untuk menggunakan tingkat harga "S0 - Standar" atau paket harga tingkat komitmen "Ucapan ke Teks (Kustom)".
Unduh lisensi kontainer yang terputus. Untuk langkah ini, gunakan sumber daya Azure AI Speech yang dikonfigurasi untuk menggunakan paket harga "Komitmen DC0 (Terputus)".
Jalankan kontainer yang terputus untuk layanan. Untuk langkah ini, gunakan sumber daya Azure AI Speech yang dikonfigurasi untuk menggunakan paket harga "Komitmen DC0 (Terputus)".

Mengunduh model untuk kontainer yang terputus

Untuk langkah ini, gunakan sumber daya Azure AI Speech reguler yang dikonfigurasi untuk menggunakan tingkat harga "S0 - Standar" atau paket harga tingkat komitmen "Ucapan ke Teks (Kustom)".

Tabel berikut ini menunjukkan berbagai parameter docker run dan deskripsi terkait:

Parameter	Deskripsi
`{VOLUME_MOUNT}`	Dudukan volume komputer host, yang digunakan docker untuk mempertahankan model kustom. Contohnya adalah `c:\CustomSpeech` tempat `c:\` drive berada di komputer host.
`{MODEL_ID}`	ID model ucapan atau dasar kustom. Untuk informasi selengkapnya, lihat Mendapatkan ID model.
`{ENDPOINT_URI}`	Titik akhir diperlukan untuk pengukuran dan penagihan. Untuk informasi selengkapnya, lihat argumen penagihan.
`{API_KEY}`	Kunci API diperlukan. Untuk informasi selengkapnya, lihat argumen penagihan.

Saat Anda menjalankan kontainer ucapan ke teks kustom, konfigurasikan port, memori, dan CPU sesuai dengan persyaratan dan rekomendasi kontainer ucapan ke teks kustom.

Berikut adalah contoh docker run perintah dengan nilai tempat penampung. Anda harus menentukan VOLUME_MOUNTnilai , MODEL_ID, ENDPOINT_URI, dan API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Perintah ini:

Menjalankan kontainer ucapan ke teks kustom dari gambar kontainer.
Mengalokasikan 4 core CPU dan memori 8 GB.
Memuat model ucapan ke teks kustom dari pemasangan input volume, misalnya, C:\CustomSpeech.
Mengekspos port TCP 5000 dan mengalokasikan pseudo-TTY untuk kontainer.
Mengunduh model yang diberikan ModelId (jika tidak ditemukan pada dudukan volume).
Jika model kustom sebelumnya diunduh, ModelId diabaikan.
Menghapus kontainer secara otomatis setelah kontainer keluar. Gambar kontainer masih tersedia di komputer host.

Untuk informasi selengkapnya tentang docker run kontainer Ucapan, lihat Menginstal dan menjalankan kontainer Ucapan dengan Docker.

Mengunduh lisensi kontainer yang terputus

Selanjutnya, Anda mengunduh file lisensi yang terputus. Parameter DownloadLicense=True dalam perintah Anda docker run mengunduh file lisensi yang memungkinkan kontainer Docker Anda berjalan saat tidak terhubung ke internet. Ini juga berisi tanggal kedaluwarsa, setelah itu file lisensi akan tidak valid untuk menjalankan kontainer.

Anda hanya dapat menggunakan file lisensi dengan kontainer dan model yang sesuai yang telah Anda setujui. Misalnya, Anda tidak dapat menggunakan file lisensi untuk speech-to-text kontainer dengan neural-text-to-speech kontainer.

Placeholder	Deskripsi
`{IMAGE}`	Gambar kontainer yang ingin Anda gunakan. Misalnya: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Jalur tempat lisensi diunduh, dan dipasang. Misalnya: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Jalur tempat model berada. Misalnya: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Titik akhir untuk mengautentikasi permintaan layanan Anda. Anda dapat menemukannya di halaman Kunci dan titik akhir sumber daya, di portal Azure. Misalnya: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Kunci untuk sumber daya Ucapan Anda. Anda dapat menemukannya di halaman Kunci dan titik akhir sumber daya, di portal Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokasi folder lisensi pada filesystem lokal kontainer. Misalnya: `/path/to/license/directory`

Untuk langkah ini, gunakan sumber daya Azure AI Speech yang dikonfigurasi untuk menggunakan paket harga "Komitmen DC0 (Terputus)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Jalankan kontainer yang terputus

Setelah file lisensi diunduh, Anda dapat menjalankan kontainer di lingkungan yang terputus. Contoh berikut menunjukkan pemformatan perintah yang docker run Anda gunakan, dengan nilai tempat penampung. Ganti nilai tempat penampung dengan nilai Anda sendiri.

Di mana pun kontainer dijalankan, file lisensi harus dipasang ke kontainer dan lokasi folder lisensi pada sistem file lokal kontainer harus ditentukan dengan Mounts:License=. Mount output juga harus ditentukan sehingga catatan penggunaan penagihan dapat ditulis.

Placeholder	Deskripsi
`{IMAGE}`	Gambar kontainer yang ingin Anda gunakan. Misalnya: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Ukuran memori yang sesuai untuk dialokasikan untuk kontainer Anda. Misalnya: `4g`
`{NUMBER_CPUS}`	Jumlah CPU yang sesuai untuk dialokasikan untuk kontainer Anda. Misalnya: `4`
`{LICENSE_MOUNT}`	Jalur tempat lisensi diunduh, dan dipasang. Misalnya: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Jalur tempat model berada. Misalnya: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Jalur output untuk pengelogan. Misalnya: `/host/output:/path/to/output/directory` Untuk informasi selengkapnya, lihat catatan penggunaan dalam dokumentasi layanan Azure AI.
`{ENDPOINT_URI}`	Titik akhir untuk mengautentikasi permintaan layanan Anda. Anda dapat menemukannya di halaman Kunci dan titik akhir sumber daya, di portal Azure. Misalnya: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Kunci untuk sumber daya Ucapan Anda. Anda dapat menemukannya di halaman Kunci dan titik akhir sumber daya, di portal Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokasi folder lisensi pada filesystem lokal kontainer. Misalnya: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Lokasi folder output pada filesystem lokal kontainer. Misalnya: `/path/to/output/directory`

Untuk langkah ini, gunakan sumber daya Azure AI Speech yang dikonfigurasi untuk menggunakan paket harga "Komitmen DC0 (Terputus)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Kontainer ucapan ke teks kustom menyediakan direktori default untuk menulis file lisensi dan log penagihan saat runtime. Direktori default masing-masing adalah /license dan /output.

Saat Anda memasang direktori ini ke kontainer dengan perintah docker run -v, pastikan direktori mesin lokal diatur kepemilikannya ke user:group nonroot:nonroot sebelum menjalankan kontainer.

Di bawah ini adalah perintah sampel untuk mengatur kepemilikan file /direktori.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Gunakan kontainer

Kontainer ucapan menyediakan API titik akhir kueri berbasis websocket yang diakses melalui Speech SDK dan Speech CLI. Secara default, Speech SDK dan Speech CLI menggunakan layanan Ucapan publik. Untuk menggunakan kontainer, Anda perlu mengubah metode inisialisasi.

Penting

Saat Anda menggunakan layanan Ucapan dengan kontainer, pastikan untuk menggunakan autentikasi host. Jika Anda mengonfigurasi kunci dan wilayah, permintaan akan masuk ke layanan Ucapan publik. Hasil dari layanan Ucapan mungkin bukan yang Anda harapkan. Permintaan dari kontainer yang terputus akan gagal.