Mendapatkan hasil pengenalan ucapan

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.RequestWordLevelTimestamps();

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig->RequestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.RequestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.requestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speechConfig.requestWordLevelTimestamps();

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

[speechConfig requestWordLevelTimestamps];

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

[speechConfig requestWordLevelTimestamps];

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Offset dan durasi yang dikenali

Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig yang sesuai seperti yang ditunjukkan di sini:

speech_config.request_word_level_timestamps()

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.

Sinkronisasi ucapan

Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.

Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.

Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari 0 (nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik.
Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.

Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.

Mengenali offset dan durasi

Anda mungkin ingin menyinkronkan keterangan dengan trek audio, baik dilakukan secara real time atau dengan prarekording. Dengan peristiwa Recognizing, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.

Misalnya, jalankan perintah berikut untuk mendapatkan offset dan durasi ucapan yang dikenali:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Karena argumen @output.each.detailed telah ditetapkan, output akan menyertakan header kolom berikut:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

Di kolom result.json, Anda dapat menemukan detail yang menyertakan offset dan durasi untuk peristiwa Recognizing dan Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Untuk informasi selengkapnya, lihat konfigurasi datastore CLI Ucapan dan opsi output.

Contoh offset dan durasi

Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing dan Recognized. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing dan Recognized, karena hasil akhir bisa berbeda.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	selamat datang	17000000	5000000
RECOGNIZING	selamat datang di	17000000	6400000
RECOGNIZING	selamat datang di matematika terapan	17000000	13600000
RECOGNIZING	selamat datang di matematika terapan	17000000	17200000
RECOGNIZING	selamat datang di kursus matematika terapan	17000000	23700000
RECOGNIZING	selamat datang di kursus matematika terapan 2	17000000	26700000
RECOGNIZING	selamat datang di kursus matematika terapan 201	17000000	33400000
DIKENALI	Selamat datang di kursus Matematika terapan 201.	17000000	34500000

Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).

Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.

Kejadian	Teks	Offset (dalam tanda centang)	Durasi (dalam tanda centang)
RECOGNIZING	OK	71500000	3100000
RECOGNIZING	Baik	71500000	10300000
RECOGNIZING	OK sekarang mari kita	71500000	14700000
RECOGNIZING	OK sekarang mari kita mulai	71500000	18500000
DIKENALI	Baik, mari kita mulai.	71500000	20600000

Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Offset dan durasi yang dikenali

Contoh offset dan durasi

Sinkronisasi ucapan

Mengenali offset dan durasi

Contoh offset dan durasi

Langkah berikutnya

Sumber Daya Tambahan: