Mendapatkan hasil pengenalan ucapan
Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speechConfig.RequestWordLevelTimestamps();
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speechConfig->RequestWordLevelTimestamps();
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speechConfig.RequestWordLevelTimestamps();
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speechConfig.requestWordLevelTimestamps();
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik itu dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speechConfig.requestWordLevelTimestamps();
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
[speechConfig requestWordLevelTimestamps];
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
[speechConfig requestWordLevelTimestamps];
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Cuplikan kode ini menunjukkan cara mendapatkan offset dan durasi dari suatu peristiwa Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Offset dan durasi yang dikenali
Setelah ucapan dikenali, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Dengan peristiwa Recognized
tersebut, Anda juga bisa mendapatkan offset dan durasi per kata. Untuk meminta offset dan durasi per kata, pertama-tama Anda harus mengatur properti SpeechConfig
yang sesuai seperti yang ditunjukkan di sini:
speech_config.request_word_level_timestamps()
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).
Dalam panduan ini, Anda mempelajari cara menggunakan hasil pengenalan ucapan.
Sinkronisasi ucapan
Anda mungkin ingin menyinkronkan transkripsi dengan trek audio, baik dilakukan secara real time atau dengan prarekording.
Layanan Azure Cognitive Service untuk Ucapan mengembalikan offset dan durasi ucapan yang dikenali.
- Offset: Offset ke dalam aliran audio yang dikenali, dinyatakan sebagai durasi. Offset diukur dalam tanda centang, mulai dari
0
(nol) centang, terkait dengan byte audio pertama yang diproses oleh SDK. Misalnya, offset dimulai saat Anda memulai pengenalan, karena saat itulah SDK mulai memproses aliran audio. Satu centang mewakili seratus nanodetik atau sepersepuluh juta detik. - Durasi: Durasi ucapan yang sedang dikenali. Durasi dalam tanda centang tidak mencakup keheningan di akhir atau di awal.
Akhir dari sebuah ucapan ditentukan dengan mendengarkan keheningan di akhir. Anda tidak akan mendapatkan hasil pengenalan final sampai ucapan selesai. Mengenali peristiwa akan memberikan hasil perantara yang dapat berubah saat aliran audio sedang diproses. Peristiwa yang dikenali akan memberikan teks transkripsi final setelah pemrosesan ucapan selesai.
Mengenali offset dan durasi
Anda mungkin ingin menyinkronkan keterangan dengan trek audio, baik dilakukan secara real time atau dengan prarekording. Dengan peristiwa Recognizing
, Anda bisa mendapatkan offset dan durasi ucapan yang dikenali. Offset dan durasi per kata tidak tersedia saat pengenalan sedang berlangsung. Setiap peristiwa Recognizing
dilengkapi dengan perkiraan tekstual dari ucapan yang dikenali sejauh ini.
Misalnya, jalankan perintah berikut untuk mendapatkan offset dan durasi ucapan yang dikenali:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Karena argumen @output.each.detailed
telah ditetapkan, output akan menyertakan header kolom berikut:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
Di kolom result.json
, Anda dapat menemukan detail yang menyertakan offset dan durasi untuk peristiwa Recognizing
dan Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Untuk informasi selengkapnya, lihat konfigurasi datastore CLI Ucapan dan opsi output.
Contoh offset dan durasi
Tabel berikut menunjukkan potensi offset dan durasi dalam tanda centang saat pembicara mengatakan "Selamat datang di kursus Matematika Terapan 201." Pada contoh ini, offset tidak berubah di seluruh peristiwa Recognizing
dan Recognized
. Namun, jangan mengandalkan offset untuk tetap sama antara peristiwa Recognizing
dan Recognized
, karena hasil akhir bisa berbeda.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | selamat datang | 17000000 | 5000000 |
RECOGNIZING | selamat datang di | 17000000 | 6400000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 13600000 |
RECOGNIZING | selamat datang di matematika terapan | 17000000 | 17200000 |
RECOGNIZING | selamat datang di kursus matematika terapan | 17000000 | 23700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 2 | 17000000 | 26700000 |
RECOGNIZING | selamat datang di kursus matematika terapan 201 | 17000000 | 33400000 |
DIKENALI | Selamat datang di kursus Matematika terapan 201. | 17000000 | 34500000 |
Total durasi ucapan pertama adalah 3,45 detik. Ini dikenali pada offset 1,7 hingga 5,15 detik dari awal pengenalan aliran audio (00:00:01.700 --> 00:00:05.150).
Jika pembicara melanjutkan maka untuk mengatakan "Mari kita mulai," offset baru dihitung dari awal aliran audio yang dikenali, hingga awal ungkapan baru. Tabel berikut menunjukkan potensi offset dan durasi ucapan yang dimulai dua detik setelah ucapan sebelumnya berakhir.
Kejadian | Teks | Offset (dalam tanda centang) | Durasi (dalam tanda centang) |
---|---|---|---|
RECOGNIZING | OK | 71500000 | 3100000 |
RECOGNIZING | Baik | 71500000 | 10300000 |
RECOGNIZING | OK sekarang mari kita | 71500000 | 14700000 |
RECOGNIZING | OK sekarang mari kita mulai | 71500000 | 18500000 |
DIKENALI | Baik, mari kita mulai. | 71500000 | 20600000 |
Total durasi ucapan kedua adalah 2,06 detik. Ini dikenali pada offset 7,15 hingga 9,21 detik dari awal aliran audio yang dikenali (00:00:07.150 --> 00:00:09.210).