Mendapatkan hasil pengenalan ucapan

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.RequestWordLevelTimestamps();

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig->RequestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.RequestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.requestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.requestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

[speechConfig requestWordLevelTimestamps];

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

[speechConfig requestWordLevelTimestamps];

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speech_config.request_word_level_timestamps()

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

  • Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
  • Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Anda mungkin ingin menyinkronkan keterangan dengan trek audio, baik dilakukan secara real time atau dengan prarekording. Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Misalnya, jalankan perintah berikut untuk mendapatkan offset dan durasi ucapan yang dikenali:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Karena argumen @output.each.detailed telah ditetapkan, output akan menyertakan header kolom berikut:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

Di kolom result.json, Anda dapat menemukan detail yang menyertakan offset dan durasi untuk peristiwa Recognizing dan Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Untuk informasi selengkapnya, lihat konfigurasi datastore CLI Ucapan dan opsi output.

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING selamat datang 17000000 5000000
RECOGNIZING selamat datang di 17000000 6400000
RECOGNIZING selamat datang di matematika terapan 17000000 13600000
RECOGNIZING selamat datang di matematika terapan 17000000 17200000
RECOGNIZING selamat datang di kursus matematika terapan 17000000 23700000
RECOGNIZING selamat datang di kursus matematika terapan 2 17000000 26700000
RECOGNIZING selamat datang di kursus matematika terapan 201 17000000 33400000
DIKENALI Selamat datang di kursus Matematika terapan 201. 17000000 34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian Teks Offset (dalam tanda centang) Durasi (dalam tanda centang)
RECOGNIZING OK 71500000 3100000
RECOGNIZING Baik 71500000 10300000
RECOGNIZING OK sekarang mari kita 71500000 14700000
RECOGNIZING OK sekarang mari kita mulai 71500000 18500000
DIKENALI Baik, mari kita mulai. 71500000 20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Langkah berikutnya