Mulai cepat: Membuat keterangan dengan ucapan ke teks
Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya.
Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Atur variabel lingkungan
Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.
Tip
Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.
Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.
- Untuk mengatur
SPEECH_KEY
variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda. - Untuk mengatur
SPEECH_REGION
variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Catatan
Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set
alih-alih setx
.
Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.
- Salin skenario/csharp/dotnetcore/captioning/file sampel dari GitHub. Jika Anda telah menginstal Git, buka perintah dan jalankan
git clone
perintah untuk mengunduh repositori sampel Speech SDK.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Buka perintah dan ubah ke direktori proyek.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Buat proyek dengan CLI .NET.
dotnet build
- Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Penting
Pastikan jalur yang ditentukan oleh
--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Pastikan Anda mengatur
SPEECH_KEY
variabel lingkungan danSPEECH_REGION
seperti yang dijelaskan di atas. Jika tidak, gunakan--key
argumen dan--region
.
Memeriksa hasil
Saat Anda menggunakan realTime
opsi dalam contoh di atas, hasil parsial dari Recognizing
peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized
yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing
peristiwa dan Recognized
. Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Saat Anda menggunakan --offline
opsi , hasilnya stabil dari peristiwa akhir Recognized
. Hasil parsial tidak disertakan dalam output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: captioning --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--key
opsi .--region REGION
: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--region
opsi . Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--language LANG
: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai defaulten-US
.
Opsi pengenalan mencakup:
--offline
: Hasil offline output. Mengambil alih--realTime
. Mode output default offline.--realTime
: Hasil real-time output.
Output real time mencakup Recognizing
hasil peristiwa. Output offline default hanya hasil Recognized
peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--maxLineLength LENGTH
: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).--lines LINES
: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.--delay MILLISECONDS
: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Minimum adalah 0,0. Defaultnya adalah 1000.--remainTime MILLISECONDS
: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya
Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Atur variabel lingkungan
Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.
Tip
Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.
Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.
- Untuk mengatur
SPEECH_KEY
variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda. - Untuk mengatur
SPEECH_REGION
variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Catatan
Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set
alih-alih setx
.
Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membuat dan menjalankan contoh kode mulai cepat keterangan dengan Visual Studio Community 2022 di Windows.
Unduh atau salin file sampel skenario/cpp/windows/captioning/dari GitHub ke direktori lokal.
captioning.sln
Buka file solusi di Visual Studio Community 2022.Instal SDK Ucapan di proyek Anda dengan manajer paket NuGet.
Install-Package Microsoft.CognitiveServices.Speech
Buka Proyek>Properti>Umum. Atur Konfigurasi ke
All configurations
. Atur Standar Bahasa C++ keISO C++17 Standard (/std:c++17)
.Buka Build>Pengelola Konfigurasi.
- Pada penginstalan Windows 64-bit, atur Platform solusi aktif ke
x64
. - Pada penginstalan Windows 32-bit, atur Platform solusi aktif ke
x86
.
- Pada penginstalan Windows 64-bit, atur Platform solusi aktif ke
Buka Proyek>Properti>Penelusuran kesalahan. Masukkan argumen baris perintah pilihan Anda di Argumen Perintah. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Penting
Pastikan jalur yang ditentukan oleh
--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Pastikan Anda mengatur
SPEECH_KEY
variabel lingkungan danSPEECH_REGION
seperti yang dijelaskan di atas. Jika tidak, gunakan--key
argumen dan--region
.Buat dan jalankan aplikasi konsol.
Memeriksa hasil
Saat Anda menggunakan realTime
opsi dalam contoh di atas, hasil parsial dari Recognizing
peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized
yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing
peristiwa dan Recognized
. Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Saat Anda menggunakan --offline
opsi , hasilnya stabil dari peristiwa akhir Recognized
. Hasil parsial tidak disertakan dalam output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: captioning --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--key
opsi .--region REGION
: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--region
opsi . Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--language LANG
: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai defaulten-US
.
Opsi pengenalan mencakup:
--offline
: Hasil offline output. Mengambil alih--realTime
. Mode output default offline.--realTime
: Hasil real-time output.
Output real time mencakup Recognizing
hasil peristiwa. Output offline default hanya hasil Recognized
peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--maxLineLength LENGTH
: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).--lines LINES
: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.--delay MILLISECONDS
: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Minimum adalah 0,0. Defaultnya adalah 1000.--remainTime MILLISECONDS
: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Periksa apakah ada langkah-langkah penginstalan khusus platform.
Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.
Unduh atau salin file sampel skenario/go/captioning/ dari GitHub ke direktori lokal.
Buka perintah di direktori yang sama dengan
captioning.go
.Jalankan perintah berikut untuk membuat file
go.mod
yang ditautkan ke komponen SDK Ucapan yang dihosting di GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Buat modul GO.
go build
Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Ganti
YourSubscriptionKey
dengan kunci sumber Ucapan Anda, dan gantiYourServiceRegion
dengan wilayah sumber Ucapan Anda, sepertiwestus
ataunortheurope
. Pastikan jalur yang ditentukan oleh--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Penting
Jangan lupa menghapus kunci dari kode setelah Anda selesai, dan jangan pernah mempostingnya secara publik. Untuk produksi, gunakan cara yang aman untuk menyimpan dan mengakses kredensial Anda seperti Azure Key Vault. Lihat artikel keamanan layanan Azure AI untuk informasi selengkapnya.
Memeriksa hasil
File output dengan keterangan lengkap ditulis ke caption.output.txt
. Hasil perantara ditampilkan di konsol:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda.--region REGION
: Wilayah sumber daya Ucapan Anda. Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--languages LANG1,LANG2
: Mengaktifkan identifikasi bahasa untuk bahasa tertentu. Misalnya:en-US,ja-JP
. Opsi ini hanya tersedia dengan sampel keterangan C++, C#, dan Python. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.
Opsi pengenalan mencakup:
--recognizing
: Hasil peristiwaRecognizing
output. Output default adalah hanya hasil peristiwaRecognized
. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi--quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dokumentasi referensi | Sampel Tambahan pada GitHub
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Sebelum dapat melakukan apa pun, Anda perlu menginstal Speech SDK. Sampel dalam mulai cepat ini berfungsi dengan Microsoft Build of OpenJDK 17
- Menginstal Apache Maven. Kemudian jalankan
mvn -v
untuk mengonfirmasi keberhasilan penginstalan. - Buat file baru
pom.xml
di akar proyek Anda, dan salin yang berikut ini ke dalamnya:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.37.0</version> </dependency> </dependencies> </project>
- Instal SDK Ucapan dan dependensi.
mvn clean dependency:copy-dependencies
- Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Atur variabel lingkungan
Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.
Tip
Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.
Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.
- Untuk mengatur
SPEECH_KEY
variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda. - Untuk mengatur
SPEECH_REGION
variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Catatan
Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set
alih-alih setx
.
Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.
- Salin skenario/java/jre/captioning/file sampel dari GitHub ke direktori proyek Anda. File
pom.xml
yang Anda buat dalam penyiapan lingkungan juga harus berada di direktori ini. - Buka perintah dan jalankan perintah ini untuk mengompilasi file proyek.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Penting
Pastikan jalur yang ditentukan oleh
--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Pastikan Anda mengatur
SPEECH_KEY
variabel lingkungan danSPEECH_REGION
seperti yang dijelaskan di atas. Jika tidak, gunakan--key
argumen dan--region
.
Memeriksa hasil
Saat Anda menggunakan realTime
opsi dalam contoh di atas, hasil parsial dari Recognizing
peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized
yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing
peristiwa dan Recognized
. Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Saat Anda menggunakan --offline
opsi , hasilnya stabil dari peristiwa akhir Recognized
. Hasil parsial tidak disertakan dalam output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: java -cp ".;target\dependency\*" Captioning --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--key
opsi .--region REGION
: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--region
opsi . Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--language LANG
: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai defaulten-US
.
Opsi pengenalan mencakup:
--offline
: Hasil offline output. Mengambil alih--realTime
. Mode output default offline.--realTime
: Hasil real-time output.
Output real time mencakup Recognizing
hasil peristiwa. Output offline default hanya hasil Recognized
peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--maxLineLength LENGTH
: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).--lines LINES
: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.--delay MILLISECONDS
: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Minimum adalah 0,0. Defaultnya adalah 1000.--remainTime MILLISECONDS
: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Sebelum Anda dapat melakukan tindakan apa pun, Anda harus menginstal Speech SDK for JavaScript. Jika Anda hanya ingin menginstal nama paket, jalankan npm install microsoft-cognitiveservices-speech-sdk
. Untuk petunjuk penginstalan terpandu, lihat panduan penginstalan SDK.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.
Salin file sampel skenario/javascript/node/captioning/ dari GitHub ke direktori proyek Anda.
Buka perintah di direktori yang sama dengan
Captioning.js
.Instal SDK Ucapan untuk JavaScript:
npm install microsoft-cognitiveservices-speech-sdk
Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Ganti
YourSubscriptionKey
dengan kunci sumber Ucapan Anda, dan gantiYourServiceRegion
dengan wilayah sumber Ucapan Anda, sepertiwestus
ataunortheurope
. Pastikan jalur yang ditentukan oleh--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Catatan
Speech SDK untuk JavaScript tidak mendukung audio input terkompresi. Anda harus menggunakan file WAV seperti yang ditunjukkan dalam contoh.
Penting
Jangan lupa menghapus kunci dari kode setelah Anda selesai, dan jangan pernah mempostingnya secara publik. Untuk produksi, gunakan cara yang aman untuk menyimpan dan mengakses kredensial Anda seperti Azure Key Vault. Lihat artikel keamanan layanan Azure AI untuk informasi selengkapnya.
Memeriksa hasil
File output dengan keterangan lengkap ditulis ke caption.output.txt
. Hasil perantara ditampilkan di konsol:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: node captioning.js --key <key> --region <region> --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda.--region REGION
: Wilayah sumber daya Ucapan Anda. Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--languages LANG1,LANG2
: Mengaktifkan identifikasi bahasa untuk bahasa tertentu. Misalnya:en-US,ja-JP
. Opsi ini hanya tersedia dengan sampel keterangan C++, C#, dan Python. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.
Opsi pengenalan mencakup:
--recognizing
: Hasil peristiwaRecognizing
output. Output default adalah hanya hasil peristiwaRecognized
. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi--quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub
SDK Ucapan untuk Objective-C memang mendukung untuk mendapatkan hasil pengenalan suara untuk teks, tetapi kami belum menyertakan panduan di sini. Silakan pilih bahasa pemrograman lain untuk memulai dan belajar tentang konsep, atau lihat referensi Objective-C dan sampel yang ditautkan dari awal artikel ini.
Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub
SDK Ucapan untuk Swift memang mendukung untuk mendapatkan hasil pengenalan suara untuk teks, tetapi kami belum menyertakan panduan di sini. Silakan pilih bahasa pemrograman lain untuk memulai dan mempelajari tentang konsep, atau lihat referensi Swift dan sampel yang ditautkan dari awal artikel ini.
Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.
- Anda harus menginstal Microsoft Visual C++ Redistributable untuk Visual Studio 2015, 2017, 2019, dan 2022 untuk platform Anda. Memasang paket ini untuk pertama kalinya mungkin memerlukan menghidupkan ulang.
- Di Linux, Anda harus menggunakan arsitektur target x64.
- Instal versi Python dari 3.10 atau yang lebih baru. Periksa terlebih dahulu panduan penginstalan SDK untuk persyaratan lainnya
- Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Atur variabel lingkungan
Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.
Tip
Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.
Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.
- Untuk mengatur
SPEECH_KEY
variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda. - Untuk mengatur
SPEECH_REGION
variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Catatan
Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set
alih-alih setx
.
Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.
Membuat keterangan dari ucapan
Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.
- Unduh atau salin file sampel skenario/python/console/captioning/ dari GitHub ke direktori lokal.
- Buka perintah di direktori yang sama dengan
captioning.py
. - Jalankan perintah ini untuk menginstal Speech SDK:
pip install azure-cognitiveservices-speech
- Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Penting
Pastikan jalur yang ditentukan oleh
--input
dan--output
adalah valid. Jika tidak, Anda harus mengubah jalur.Pastikan Anda mengatur
SPEECH_KEY
variabel lingkungan danSPEECH_REGION
seperti yang dijelaskan di atas. Jika tidak, gunakan--key
argumen dan--region
.
Memeriksa hasil
Saat Anda menggunakan realTime
opsi dalam contoh di atas, hasil parsial dari Recognizing
peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized
yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing
peristiwa dan Recognized
. Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Saat Anda menggunakan --offline
opsi , hasilnya stabil dari peristiwa akhir Recognized
. Hasil parsial tidak disertakan dalam output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff
. Untuk informasi selengkapnya, lihat Format output keterangan.
Penggunaan dan argumen
Penggunaan: python captioning.py --input <input file>
Opsi mitigasi mencakup:
--key
: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--key
opsi .--region REGION
: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan--region
opsi . Contoh:westus
,northeurope
Opsi input mencakup:
--input FILE
: Audio input dari file. Input default adalah mikrofon.--format FORMAT
: Menggunakan format audio terkompresi. Hanya berlaku dengan--file
. Nilai yang valid adalahalaw
,any
,flac
,mp3
,mulaw
, danogg_opus
. Nilai defaultnya adalahany
. Untuk menggunakanwav
file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
Opsi bahasa mencakup:
--language LANG
: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai defaulten-US
.
Opsi pengenalan mencakup:
--offline
: Hasil offline output. Mengambil alih--realTime
. Mode output default offline.--realTime
: Hasil real-time output.
Output real time mencakup Recognizing
hasil peristiwa. Output offline default hanya hasil Recognized
peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet
mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
Opsi akurasi mencakup:
--phrases PHRASE1;PHRASE2
: Anda dapat menentukan daftar frasa yang akan dikenali, sepertiContoso;Jessie;Rehaan
. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Opsi output mencakup:
--help
: Menampilkan bantuan ini dan menghentikan--output FILE
: Keterangan output kefile
yang ditentukan. Bendera ini diperlukan.--srt
: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.--maxLineLength LENGTH
: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).--lines LINES
: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.--delay MILLISECONDS
: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Minimum adalah 0,0. Defaultnya adalah 1000.--remainTime MILLISECONDS
: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.--quiet
: Menekan output konsol, kecuali kesalahan.--profanity OPTION
: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--threshold NUMBER
: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah3
. Opsi ini hanya berlaku saat Anda menggunakanrealTime
bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.
Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.
Tip
Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.
Prasyarat
- Langganan Azure - Buat langganan gratis.
- Buat sumber daya Ucapan di portal Azure.
- Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.
Menyiapkan lingkungan
Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.
Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti
SUBSCRIPTION-KEY
dengan kunci sumber daya Ucapan Anda dan gantiREGION
dengan wilayah sumber daya Ucapan Anda.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Anda juga harus menginstal GStreamer untuk audio input terkompresi.
Membuat keterangan dari ucapan
Dengan CLI Ucapan, Anda dapat menghasilkan keterangan SRT (Teks SubRip) dan WebVTT (Trek Teks Video Web) dari semua jenis media yang berisi audio.
Untuk mengenali audio dari file dan menghasilkan keterangan WebVtt (vtt
) dan SRT (srt
), ikuti langkah-langkah berikut.
Pastikan Anda memiliki file input bernama
caption.this.mp4
di jalur.Jalankan perintah berikut untuk mengeluarkan keterangan dari file video:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
Keterangan SRT dan WebVTT adalah output ke konsol seperti yang ditunjukkan di sini:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Penggunaan dan argumen
Berikut adalah detail tentang argumen opsional dari perintah sebelumnya:
--file caption.this.mp4 --format any
: Audio input dari file. Input default adalah mikrofon. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.--output vtt file -
dan--output srt file -
: Menghasilkan keterangan WebVTT dan SRT ke output standar. Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan. Untuk informasi selengkapnya tentang argumen--output
, lihat Opsi output CLI Ucapan.@output.each.detailed
: Menghasilkan hasil peristiwa dengan teks, offset, dan durasi. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.--property SpeechServiceResponse_StablePartialResultThreshold=5
: Anda dapat meminta agar layanan Ucapan mengembalikan lebih sedikit peristiwaRecognizing
yang lebih akurat. Dalam contoh ini, layanan Ucapan harus menandaskan pengenalan kata setidaknya lima kali sebelum mengembalikan hasil parsial kepada Anda. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.--profanity masked
: Anda dapat menentukan apakah akan menyembunyikan, menghapus, atau menampilkan kata-kata kotor dalam hasil pengenalan. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.--phrases "Constoso;Jessie;Rehaan"
: Anda dapat menentukan daftar frasa yang akan dikenali, seperti Contoso, Jessie, dan Rehaan. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.
Membersihkan sumber daya
Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.