Penilaian pengucapan di Studio Azure Cognitive Service untuk Ucapan

Artikel
01/23/2024

Penilaian pengucapan menggunakan kemampuan Ucapan ke teks untuk memberikan umpan balik subjektif dan objektif bagi pelajar bahasa. Berlatih pengucapan dan mendapatkan umpan balik tepat waktu sangat penting untuk meningkatkan keterampilan bahasa. Penilaian yang didorong oleh guru berpengalaman dapat memakan banyak waktu dan upaya dan membuat penilaian berkualitas tinggi mahal bagi pelajar. Penilaian pengucapan dapat membantu membuat penilaian bahasa lebih menarik dan dapat diakses oleh pelajar dari semua latar belakang.

Catatan

Untuk informasi tentang ketersediaan penilaian pengucapan, lihat bahasa yang didukung dan wilayah yang tersedia.

Artikel ini menjelaskan cara menggunakan alat penilaian pengucapan tanpa menulis kode apa pun melalui Speech Studio. Untuk informasi tentang cara mengintegrasikan penilaian pengucapan di aplikasi ucapan Anda, lihat Cara menggunakan penilaian pengucapan.

Selain skor dasar akurasi, kefasihan, dan kelengkapan, fitur penilaian pengucapan di Speech Studio mencakup skor yang lebih komprehensif untuk memberikan umpan balik terperinci tentang berbagai aspek performa dan pemahaman ucapan. Skor yang ditingkatkan adalah sebagai berikut: Skor prosody, skor Kosakata, skor Tata Bahasa, dan Skor topik. Skor ini menawarkan wawasan berharga tentang prosodi ucapan, penggunaan kosakata, kebenaran tata bahasa, dan pemahaman topik.

Screenshot of overall pronunciation score and overall content score on Speech Studio.

Di bagian bawah hasil Penilaian, dua skor keseluruhan ditampilkan: Skor pengucapan dan Skor konten. Di tab Baca, Anda menemukan Skor Pengucapan ditampilkan. Di tab Berbicara, Skor Pengucapan dan Skor Konten ditampilkan.

Skor Pengucapan: Skor ini mewakili penilaian agregat dari kualitas pengucapan dan mencakup empat subaspek. Skor ini tersedia di tab baca dan bicara untuk penilaian skrip dan tanpa naskah.

Skor akurasi: Mengevaluasi kebenaran pengucapan.
Skor kefasihan: Mengukur tingkat kelancaran dan kealamaan dalam ucapan.
Skor kelengkapan: Mencerminkan jumlah kata yang diucapkan dengan benar.
Skor prosody: Menilai penggunaan intonasi, ritme, dan stres yang sesuai. Beberapa jenis kesalahan lainnya yang terkait dengan penilaian prosody diperkenalkan, seperti Istirahat tak terduga, Istirahat yang hilang, dan Monotone. Jenis kesalahan ini memberikan informasi yang lebih rinci tentang kesalahan pengucapan dibandingkan dengan mesin sebelumnya.

Skor Konten: Skor ini memberikan penilaian agregat dari konten ucapan dan menyertakan tiga subaspek. Skor ini hanya tersedia di tab berbicara untuk penilaian yang tidak diskrip.

Skor kosakata: Mengevaluasi penggunaan kata-kata pembicara yang efektif dan kepatutannya dalam konteks yang diberikan untuk mengekspresikan ide secara akurat, dan tingkat kompleksitas leksikal.
Skor tata bahasa: Mengevaluasi kebenaran penggunaan tata bahasa dan berbagai pola kalimat. Ini mempertimbangkan akurasi leksikal, akurasi tata bahasa, dan keragaman struktur kalimat, memberikan evaluasi kecakapan bahasa yang lebih komprehensif.
Skor topik: Menilai tingkat pemahaman dan keterlibatan dengan topik yang dibahas dalam ucapan. Ini mengevaluasi kemampuan pembicara untuk mengekspresikan pemikiran dan ide yang terkait dengan topik yang diberikan secara efektif.

Skor keseluruhan ini menawarkan penilaian komprehensif dari pengucapan dan konten, memberikan umpan balik yang berharga kepada pelajar tentang berbagai aspek performa dan pemahaman ucapan mereka. Dengan menggunakan fitur yang ditingkatkan ini, pelajar bahasa dapat memperoleh wawasan yang lebih mendalam tentang keuntungan dan area mereka untuk peningkatan dalam pengucapan dan ekspresi konten.

Catatan

Penilaian konten dan prosody hanya tersedia di lokal en-US .

Harga

Sebagai garis besar, penggunaan biaya penilaian pengucapan sama dengan ucapan ke teks untuk harga tingkat bayar sesuai penggunaan atau komitmen. Jika Anda membeli tingkat komitmen untuk ucapan ke teks, pengeluaran untuk penilaian pengucapan akan memenuhi komitmen.

Fitur penilaian pengucapan juga menawarkan skor lain yang tidak termasuk dalam garis besar ucapan ke harga teks: prosody, tata bahasa, topik, dan kosakata. Skor ini tersedia sebagai biaya add-on di atas ucapan garis besar ke harga teks. Untuk informasi tentang harga, lihat harga ucapan ke teks.

Berikut adalah tabel skor penilaian pengucapan yang tersedia, apakah tersedia dalam penilaian berskrip atau tidak , dan apakah itu termasuk dalam ucapan dasar ke harga teks atau harga add-on.

Skor	Skrip atau tidak diskrip	Termasuk dalam ucapan garis besar ke harga teks?
Akurasi	Skrip dan tidak diskrip	Ya
Kelancaran	Skrip dan tidak diskrip	Ya
Kelengkapan	Terskrip	Ya
Salah tuntas	Skrip dan tidak diskrip	Ya
Prosodi	Skrip dan tidak diskrip	No
Tatabahasa	Tidak diskrip saja	No
Topik	Tidak diskrip saja	No
Kosakata	Tidak diskrip saja	No

Mencoba penilaian pengucapan

Anda dapat menjelajahi dan mencoba penilaian pengucapan bahkan tanpa proses masuk.

Tip

Untuk menilai lebih dari 5 detik ucapan dengan skrip Anda sendiri, masuk dengan akun Azure dan gunakan sumber daya Ucapan Anda.

Granularitas penilaian pengucapan

Penilaian pengucapan memberikan berbagai hasil penilaian dalam granularitas yang berbeda, dari fonem individual hingga seluruh input teks.

Pada tingkat teks lengkap, penilaian pengucapan menawarkan skor Fluency, Completeness, dan Prosody tambahan: Fluency menunjukkan seberapa dekat ucapan cocok dengan penggunaan pembicara asli dari istirahat senyap di antara kata-kata; Kelengkapan menunjukkan berapa banyak kata yang diucapkan dalam ucapan ke input teks referensi; Prosody menunjukkan seberapa baik pembicara menyampaikan elemen kealamaan, ekspresif, dan prosodi keseluruhan dalam ucapan mereka. Skor keseluruhan yang dikumpulkan dari Akurasi, Kefasihan, Kelengkapan dan Prosody kemudian diberikan untuk menunjukkan kualitas pengucapan keseluruhan dari ucapan yang diberikan. Penilaian pengucapan juga menawarkan skor konten (Kosakata, Tata Bahasa, dan Topik) di tingkat teks lengkap.
Pada tingkat kata, penilaian pengucapan dapat secara otomatis mendeteksi kesalahan penggunaan dan memberikan skor akurasi secara bersamaan, yang memberikan informasi lebih rinci tentang penghilangan, pengulangan, penyisipan, dan kesalahan pengucapan dalam ucapan tertentu.
Skor akurasi tingkat suku kata saat ini tersedia melalui file JSON atau Speech SDK.
Pada tingkat fonem, penilaian pengucapan memberikan skor akurasi setiap fonem, membantu pelajar untuk lebih memahami detail pengucapan dari ucapan mereka.

Skenario membaca dan berbicara

Untuk penilaian pengucapan, ada dua skenario: Membaca dan Berbicara.

Membaca: Skenario ini dirancang untuk penilaian skrip. Ini mengharuskan pelajar untuk membaca teks tertentu. Teks referensi disediakan terlebih dahulu.
Berbicara: Skenario ini dirancang untuk penilaian yang tidak diskrip. Ini mengharuskan pelajar untuk berbicara tentang topik tertentu. Teks referensi tidak disediakan terlebih dahulu.

Melakukan penilaian berskrip

Ikuti langkah-langkah ini untuk menilai pengucapan Anda terkait teks referensi:

Buka Penilaian Pengucapan di Studio Azure Cognitive Service untuk Ucapan.
Pada tab Baca, pilih bahasa yang didukung yang ingin Anda evaluasi pengucapannya.
Anda dapat menggunakan sampel teks yang disediakan atau memasukkan skrip Anda sendiri.

Saat membaca teks, Anda harus dekat dengan mikrofon untuk memastikan suara yang direkam tidak terlalu rendah.

Jika tidak, Anda dapat mengunggah audio yang direkam untuk penilaian pengucapan. Setelah berhasil diunggah, audio secara otomatis dievaluasi oleh sistem, seperti yang ditunjukkan pada cuplikan layar berikut.

Melakukan penilaian tanpa naskah

Jika Anda ingin melakukan penilaian tanpa naskah, pilih tab Berbicara. Fitur ini memungkinkan Anda untuk melakukan penilaian tanpa memberikan teks referensi terlebih dahulu. Berikut cara melanjutkan:

Buka Penilaian Pengucapan di Studio Azure Cognitive Service untuk Ucapan.
Pada tab Berbicara, pilih bahasa yang didukung yang ingin Anda evaluasi pengucapannya.
Selanjutnya, Anda dapat memilih dari topik sampel yang disediakan atau memasukkan topik Anda sendiri. Pilihan ini memungkinkan Anda menilai kemampuan Anda untuk berbicara pada subjek tertentu tanpa skrip yang telah ditentukan sebelumnya.

Saat merekam ucapan Anda untuk penilaian pengucapan, penting untuk memastikan bahwa waktu perekaman Anda berada dalam kisaran 15 detik yang direkomendasikan (setara dengan lebih dari 50 kata) hingga 10 menit. Rentang waktu ini optimal untuk mengevaluasi konten ucapan Anda secara akurat. Untuk menerima skor topik, audio lisan Anda harus berisi setidaknya tiga kalimat.

Anda juga dapat mengunggah audio yang direkam untuk penilaian pengucapan. Setelah berhasil diunggah, audio secara otomatis dievaluasi oleh sistem.

Hasil penilaian pengucapan

Setelah Anda merekam ucapan atau mengunggah audio yang direkam, hasil Penilaian adalah output. Hasilnya mencakup audio lisan Anda dan umpan balik tentang penilaian ucapan Anda. Anda dapat mendengarkan audio lisan Anda dan mengunduhnya jika perlu.

Anda juga dapat memeriksa hasil penilaian pengucapan di JSON. Skor akurasi tingkat kata, tingkat suku kata, dan tingkat fonem disertakan dalam file JSON.

Menampilkan
JSON

Screenshot of showing the assessment result on the display window, which includes transcript and feedback on your speech.

Transkripsi lengkap ditampilkan di jendela Tampilan. Kata disorot sesuai dengan jenis kesalahan. Jenis kesalahan dalam penilaian pengucapan diwakili menggunakan warna yang berbeda. Perbedaan visual ini memudahkan untuk mengidentifikasi dan menganalisis kesalahan tertentu. Ini memberikan gambaran umum yang jelas tentang jenis kesalahan dan frekuensi dalam audio lisan, membantu Anda fokus pada area yang perlu ditingkatkan. Anda dapat mengaktifkan/menonaktifkan setiap jenis kesalahan untuk fokus pada jenis kesalahan tertentu atau mengecualikan jenis tertentu dari tampilan. Fitur ini memberikan fleksibilitas dalam cara Anda meninjau dan menganalisis kesalahan dalam audio lisan Anda. Saat mengarahkan mouse ke atas setiap kata, Anda dapat melihat skor akurasi untuk seluruh kata atau fonem tertentu.

Di bagian bawah hasil Penilaian, hasil penilaian ditampilkan. Untuk penilaian pengucapan berskrip, hanya skor pengucapan (termasuk skor akurasi, skor kelancaran, skor kelengkapan, dan skor prosody) yang disediakan. Untuk penilaian pengucapan yang tidak ditulis, skor pengucapan (termasuk skor akurasi, skor kefasihan, dan skor prosody) dan skor konten (termasuk skor kosakata, skor tata bahasa, dan skor topik) ditampilkan.

Transkripsi lengkap ditampilkan dalam atribut text. Anda dapat melihat skor akurasi untuk seluruh kata, suku kata, dan fonem tertentu. Anda bisa mendapatkan hasil yang sama menggunakan SDK Azure Cognitive Service untuk Ucapan. Untuk informasi, lihat Cara menggunakan penilaian pengucapan.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

Skor penilaian dalam mode streaming

Penilaian Pengucapan mendukung mode streaming yang tidak terganggu. Demo Speech Studio memungkinkan perekaman hingga 60 menit dalam mode streaming untuk evaluasi. Selama Anda tidak menekan tombol hentikan perekaman, proses evaluasi tidak selesai dan Anda dapat menjeda dan melanjutkan evaluasi dengan nyaman.

Penilaian Pengucapan mengevaluasi beberapa aspek pengucapan. Di bagian bawah hasil Penilaian, Anda dapat melihat skor Pengucapan sebagai skor keseluruhan agregat, yang mencakup 4 sub aspek: Skor akurasi, Skor kefasihan, Skor kelengkapan, dan skor Prosody. Dalam mode streaming, karena skor Akurasi, Skor fluensi, dan skor Prosody akan bervariasi dari waktu ke waktu sepanjang proses rekaman, kami menunjukkan pendekatan di Speech Studio untuk menampilkan perkiraan skor keseluruhan secara bertahap sebelum akhir evaluasi, yang hanya ditimbang dengan skor Akurasi, Skor kefasihan, dan skor Prosody. Skor Kelengkapan hanya dihitung pada akhir evaluasi setelah Anda menekan tombol berhenti, sehingga skor keseluruhan pengucapan akhir dikumpulkan dari Skor akurasi, Skor kefasihan, Skor kelengkapan, dan skor Prosody dengan berat.

Lihat contoh demo di bawah ini untuk seluruh proses mengevaluasi pengucapan dalam mode streaming.

Mulai merekam

Saat Anda mulai merekam, skor di bagian bawah mulai berganti dari 0.

Selama perekaman

Selama merekam paragraf panjang, Anda dapat menjeda perekaman kapan saja. Anda dapat terus mengevaluasi rekaman selama Anda tidak menekan tombol berhenti.

Selesaikan perekaman

Setelah menekan tombol berhenti, Anda dapat melihat skor Pengucapan, Skor akurasi, Skor kefasihan, Skor kelengkapan, dan skor Prosody di bagian bawah.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang akan terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Langkah berikutnya

Menggunakan penilaian pengucapan dengan SDK Azure Cognitive Service untuk Ucapan
Membaca blog terkait kasus penggunaan