Mulai cepat: Membuat keterangan dengan ucapan ke teks

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya.

Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.

  1. Salin skenario/csharp/dotnetcore/captioning/file sampel dari GitHub. Jika Anda telah menginstal Git, buka perintah dan jalankan git clone perintah untuk mengunduh repositori sampel Speech SDK.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Buka perintah dan ubah ke direktori proyek.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Buat proyek dengan CLI .NET.
    dotnet build
    
  4. Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Penting

    Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION seperti yang dijelaskan di atas. Jika tidak, gunakan --key argumen dan --region .

Memeriksa hasil

Saat Anda menggunakan realTime opsi dalam contoh di atas, hasil parsial dari Recognizing peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing peristiwa dan Recognized . Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Saat Anda menggunakan --offline opsi , hasilnya stabil dari peristiwa akhir Recognized . Hasil parsial tidak disertakan dalam output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: captioning --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --key opsi .
  • --region REGION: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --region opsi . Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --language LANG: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai default en-US.

Opsi pengenalan mencakup:

  • --offline: Hasil offline output. Mengambil alih --realTime. Mode output default offline.
  • --realTime: Hasil real-time output.

Output real time mencakup Recognizing hasil peristiwa. Output offline default hanya hasil Recognized peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --maxLineLength LENGTH: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).
  • --lines LINES: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.
  • --delay MILLISECONDS: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --remainTime MILLISECONDS: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya

Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membuat dan menjalankan contoh kode mulai cepat keterangan dengan Visual Studio Community 2022 di Windows.

  1. Unduh atau salin file sampel skenario/cpp/windows/captioning/dari GitHub ke direktori lokal.

  2. captioning.sln Buka file solusi di Visual Studio Community 2022.

  3. Instal SDK Ucapan di proyek Anda dengan manajer paket NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Buka Proyek>Properti>Umum. Atur Konfigurasi ke All configurations. Atur Standar Bahasa C++ ke ISO C++17 Standard (/std:c++17).

  5. Buka Build>Pengelola Konfigurasi.

    • Pada penginstalan Windows 64-bit, atur Platform solusi aktif ke x64.
    • Pada penginstalan Windows 32-bit, atur Platform solusi aktif ke x86.
  6. Buka Proyek>Properti>Penelusuran kesalahan. Masukkan argumen baris perintah pilihan Anda di Argumen Perintah. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Penting

    Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION seperti yang dijelaskan di atas. Jika tidak, gunakan --key argumen dan --region .

  7. Buat dan jalankan aplikasi konsol.

Memeriksa hasil

Saat Anda menggunakan realTime opsi dalam contoh di atas, hasil parsial dari Recognizing peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing peristiwa dan Recognized . Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Saat Anda menggunakan --offline opsi , hasilnya stabil dari peristiwa akhir Recognized . Hasil parsial tidak disertakan dalam output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: captioning --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --key opsi .
  • --region REGION: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --region opsi . Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --language LANG: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai default en-US.

Opsi pengenalan mencakup:

  • --offline: Hasil offline output. Mengambil alih --realTime. Mode output default offline.
  • --realTime: Hasil real-time output.

Output real time mencakup Recognizing hasil peristiwa. Output offline default hanya hasil Recognized peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --maxLineLength LENGTH: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).
  • --lines LINES: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.
  • --delay MILLISECONDS: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --remainTime MILLISECONDS: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Periksa apakah ada langkah-langkah penginstalan khusus platform.

Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.

  1. Unduh atau salin file sampel skenario/go/captioning/ dari GitHub ke direktori lokal.

  2. Buka perintah di direktori yang sama dengan captioning.go.

  3. Jalankan perintah berikut untuk membuat file go.mod yang ditautkan ke komponen SDK Ucapan yang dihosting di GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Buat modul GO.

    go build
    
  5. Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ganti YourSubscriptionKey dengan kunci sumber Ucapan Anda, dan ganti YourServiceRegion dengan wilayah sumber Ucapan Anda, seperti westus atau northeurope. Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Penting

    Jangan lupa menghapus kunci dari kode setelah Anda selesai, dan jangan pernah mempostingnya secara publik. Untuk produksi, gunakan cara yang aman untuk menyimpan dan mengakses kredensial Anda seperti Azure Key Vault. Lihat artikel keamanan layanan Azure AI untuk informasi selengkapnya.

Memeriksa hasil

File output dengan keterangan lengkap ditulis ke caption.output.txt. Hasil perantara ditampilkan di konsol:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda.
  • --region REGION: Wilayah sumber daya Ucapan Anda. Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --languages LANG1,LANG2: Mengaktifkan identifikasi bahasa untuk bahasa tertentu. Misalnya: en-US,ja-JP. Opsi ini hanya tersedia dengan sampel keterangan C++, C#, dan Python. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.

Opsi pengenalan mencakup:

  • --recognizing: Hasil peristiwa Recognizing output. Output default adalah hanya hasil peristiwa Recognized. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Sebelum dapat melakukan apa pun, Anda perlu menginstal Speech SDK. Sampel dalam mulai cepat ini berfungsi dengan Microsoft Build of OpenJDK 17

  1. Menginstal Apache Maven. Kemudian jalankan mvn -v untuk mengonfirmasi keberhasilan penginstalan.
  2. Buat file baru pom.xml di akar proyek Anda, dan salin yang berikut ini ke dalamnya:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instal SDK Ucapan dan dependensi.
    mvn clean dependency:copy-dependencies
    
  4. Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.

  1. Salin skenario/java/jre/captioning/file sampel dari GitHub ke direktori proyek Anda. File pom.xml yang Anda buat dalam penyiapan lingkungan juga harus berada di direktori ini.
  2. Buka perintah dan jalankan perintah ini untuk mengompilasi file proyek.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Penting

    Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION seperti yang dijelaskan di atas. Jika tidak, gunakan --key argumen dan --region .

Memeriksa hasil

Saat Anda menggunakan realTime opsi dalam contoh di atas, hasil parsial dari Recognizing peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing peristiwa dan Recognized . Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Saat Anda menggunakan --offline opsi , hasilnya stabil dari peristiwa akhir Recognized . Hasil parsial tidak disertakan dalam output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: java -cp ".;target\dependency\*" Captioning --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --key opsi .
  • --region REGION: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --region opsi . Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --language LANG: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai default en-US.

Opsi pengenalan mencakup:

  • --offline: Hasil offline output. Mengambil alih --realTime. Mode output default offline.
  • --realTime: Hasil real-time output.

Output real time mencakup Recognizing hasil peristiwa. Output offline default hanya hasil Recognized peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --maxLineLength LENGTH: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).
  • --lines LINES: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.
  • --delay MILLISECONDS: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --remainTime MILLISECONDS: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Sebelum Anda dapat melakukan tindakan apa pun, Anda harus menginstal Speech SDK for JavaScript. Jika Anda hanya ingin menginstal nama paket, jalankan npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat panduan penginstalan SDK.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.

  1. Salin file sampel skenario/javascript/node/captioning/ dari GitHub ke direktori proyek Anda.

  2. Buka perintah di direktori yang sama dengan Captioning.js.

  3. Instal SDK Ucapan untuk JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut adalah contoh:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ganti YourSubscriptionKey dengan kunci sumber Ucapan Anda, dan ganti YourServiceRegion dengan wilayah sumber Ucapan Anda, seperti westus atau northeurope. Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Catatan

    Speech SDK untuk JavaScript tidak mendukung audio input terkompresi. Anda harus menggunakan file WAV seperti yang ditunjukkan dalam contoh.

    Penting

    Jangan lupa menghapus kunci dari kode setelah Anda selesai, dan jangan pernah mempostingnya secara publik. Untuk produksi, gunakan cara yang aman untuk menyimpan dan mengakses kredensial Anda seperti Azure Key Vault. Lihat artikel keamanan layanan Azure AI untuk informasi selengkapnya.

Memeriksa hasil

File output dengan keterangan lengkap ditulis ke caption.output.txt. Hasil perantara ditampilkan di konsol:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: node captioning.js --key <key> --region <region> --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda.
  • --region REGION: Wilayah sumber daya Ucapan Anda. Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --languages LANG1,LANG2: Mengaktifkan identifikasi bahasa untuk bahasa tertentu. Misalnya: en-US,ja-JP. Opsi ini hanya tersedia dengan sampel keterangan C++, C#, dan Python. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.

Opsi pengenalan mencakup:

  • --recognizing: Hasil peristiwa Recognizing output. Output default adalah hanya hasil peristiwa Recognized. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

SDK Ucapan untuk Objective-C memang mendukung untuk mendapatkan hasil pengenalan suara untuk teks, tetapi kami belum menyertakan panduan di sini. Silakan pilih bahasa pemrograman lain untuk memulai dan belajar tentang konsep, atau lihat referensi Objective-C dan sampel yang ditautkan dari awal artikel ini.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

SDK Ucapan untuk Swift memang mendukung untuk mendapatkan hasil pengenalan suara untuk teks, tetapi kami belum menyertakan panduan di sini. Silakan pilih bahasa pemrograman lain untuk memulai dan mempelajari tentang konsep, atau lihat referensi Swift dan sampel yang ditautkan dari awal artikel ini.

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

  1. Instal versi Python dari 3.10 atau yang lebih baru. Periksa terlebih dahulu panduan penginstalan SDK untuk persyaratan lainnya
  2. Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Membuat keterangan dari ucapan

Ikuti langkah-langkah ini untuk membangun dan menjalankan contoh kode mulai cepat keterangan.

  1. Unduh atau salin file sampel skenario/python/console/captioning/ dari GitHub ke direktori lokal.
  2. Buka perintah di direktori yang sama dengan captioning.py.
  3. Jalankan perintah ini untuk menginstal Speech SDK:
    pip install azure-cognitiveservices-speech
    
  4. Jalankan aplikasi dengan argumen baris perintah pilihan Anda. Lihat penggunaan dan argumen untuk opsi yang tersedia. Berikut contohnya:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Penting

    Pastikan jalur yang ditentukan oleh --input dan --output adalah valid. Jika tidak, Anda harus mengubah jalur.

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION seperti yang dijelaskan di atas. Jika tidak, gunakan --key argumen dan --region .

Memeriksa hasil

Saat Anda menggunakan realTime opsi dalam contoh di atas, hasil parsial dari Recognizing peristiwa disertakan dalam output. Dalam contoh ini, hanya peristiwa akhir Recognized yang menyertakan koma. Koma bukan satu-satunya perbedaan antara Recognizing peristiwa dan Recognized . Untuk informasi selengkapnya, lihat Mendapatkan hasil parsial.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Saat Anda menggunakan --offline opsi , hasilnya stabil dari peristiwa akhir Recognized . Hasil parsial tidak disertakan dalam output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Format output rentang waktu SRT (Teks SubRip) adalah hh:mm:ss,fff. Untuk informasi selengkapnya, lihat Format output keterangan.

Penggunaan dan argumen

Penggunaan: python captioning.py --input <input file>

Opsi mitigasi mencakup:

  • --key: Kunci sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_KEY. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --key opsi .
  • --region REGION: Wilayah sumber daya Ucapan Anda. Mengambil alih variabel lingkungan SPEECH_REGION. Anda harus mengatur variabel lingkungan (disarankan) atau menggunakan --region opsi . Contoh: westus, northeurope

Opsi input mencakup:

  • --input FILE: Audio input dari file. Input default adalah mikrofon.
  • --format FORMAT: Menggunakan format audio terkompresi. Hanya berlaku dengan --file. Nilai yang valid adalah alaw, any, flac, mp3, mulaw, dan ogg_opus. Nilai defaultnya adalah any. Untuk menggunakan wav file, jangan tentukan formatnya. Opsi ini tidak tersedia dengan sampel keterangan JavaScript. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.

Opsi bahasa mencakup:

  • --language LANG: Tentukan bahasa menggunakan salah satu lokal yang didukung yang sesuai. Ini digunakan saat memecah keterangan menjadi baris. Nilai default en-US.

Opsi pengenalan mencakup:

  • --offline: Hasil offline output. Mengambil alih --realTime. Mode output default offline.
  • --realTime: Hasil real-time output.

Output real time mencakup Recognizing hasil peristiwa. Output offline default hanya hasil Recognized peristiwa. Ini selalu ditulis ke konsol, tidak pernah ke file output. Opsi --quiet mengambil alih ini. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.

Opsi akurasi mencakup:

Opsi output mencakup:

  • --help: Menampilkan bantuan ini dan menghentikan
  • --output FILE: Keterangan output ke file yang ditentukan. Bendera ini diperlukan.
  • --srt: Keterangan output dalam format SRT (Teks SubRip). Format defaultnya adalah WebVTT (Trek Teks Video Web). Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan.
  • --maxLineLength LENGTH: Atur jumlah maksimum karakter per baris untuk keterangan ke LENGTH. Minimum adalah 20. Defaultnya adalah 37 (30 untuk bahasa Tionghoa).
  • --lines LINES: Atur jumlah baris untuk keterangan ke LINES. Minimum adalah 1. Defaultnya adalah 2.
  • --delay MILLISECONDS: Berapa banyak MILIDETIK untuk menunda tampilan setiap keterangan, untuk menipu pengalaman real-time. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --remainTime MILLISECONDS: Berapa banyak MILIDETIK keterangan yang harus tetap ada di layar jika tidak digantikan oleh yang lain. Minimum adalah 0,0. Defaultnya adalah 1000.
  • --quiet: Menekan output konsol, kecuali kesalahan.
  • --profanity OPTION: Nilai yang valid: mentah, hapus, beri mask. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --threshold NUMBER: Mengatur ambang hasil parsial yang stabil. Nilai defaultnya adalah 3. Opsi ini hanya berlaku saat Anda menggunakan realTime bendera. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda menjalankan aplikasi konsol untuk membuat keterangan dengan ucapan ke teks.

Tip

Coba Studio Ucapan dan pilih contoh klip video untuk melihat hasil keterangan yang diproses secara real time atau offline.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.

  1. Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda dan ganti REGION dengan wilayah sumber daya Ucapan Anda.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Anda juga harus menginstal GStreamer untuk audio input terkompresi.

Membuat keterangan dari ucapan

Dengan CLI Ucapan, Anda dapat menghasilkan keterangan SRT (Teks SubRip) dan WebVTT (Trek Teks Video Web) dari semua jenis media yang berisi audio.

Untuk mengenali audio dari file dan menghasilkan keterangan WebVtt (vtt) dan SRT (srt), ikuti langkah-langkah berikut.

  1. Pastikan Anda memiliki file input bernama caption.this.mp4 di jalur.

  2. Jalankan perintah berikut untuk mengeluarkan keterangan dari file video:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Keterangan SRT dan WebVTT adalah output ke konsol seperti yang ditunjukkan di sini:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Penggunaan dan argumen

Berikut adalah detail tentang argumen opsional dari perintah sebelumnya:

  • --file caption.this.mp4 --format any: Audio input dari file. Input default adalah mikrofon. Untuk file audio terkompresi seperti MP4, instal GStreamer dan lihat Cara menggunakan audio input terkompresi.
  • --output vtt file - dan --output srt file -: Menghasilkan keterangan WebVTT dan SRT ke output standar. Untuk informasi selengkapnya tentang format file keterangan SRT dan WebVTT, lihat Format output keterangan. Untuk informasi selengkapnya tentang argumen --output, lihat Opsi output CLI Ucapan.
  • @output.each.detailed: Menghasilkan hasil peristiwa dengan teks, offset, dan durasi. Untuk informasi selengkapnya, lihat Mendapatkan hasil pengenalan ucapan.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Anda dapat meminta agar layanan Ucapan mengembalikan lebih sedikit peristiwa Recognizing yang lebih akurat. Dalam contoh ini, layanan Ucapan harus menandaskan pengenalan kata setidaknya lima kali sebelum mengembalikan hasil parsial kepada Anda. Untuk informasi selengkapnya, lihat konsep Mendapatkan hasil parsial.
  • --profanity masked: Anda dapat menentukan apakah akan menyembunyikan, menghapus, atau menampilkan kata-kata kotor dalam hasil pengenalan. Untuk informasi selengkapnya, lihat konsep Filter kata-kata kotor.
  • --phrases "Constoso;Jessie;Rehaan": Anda dapat menentukan daftar frasa yang akan dikenali, seperti Contoso, Jessie, dan Rehaan. Untuk informasi selengkapnya, lihat Meningkatkan pengenalan dengan daftar frasa.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah berikutnya