Speech Studio 中的發音評量

發行項
01/21/2024

發音評定會使用語音轉換文字功能，為語言學習者提供主觀和客觀意見反應。練習發音和及時的意見反應對於改善語言技能至關重要。由經驗豐富的教師推動的評量可能需要大量時間和精力，併為學習者提供高質量的評估成本。發音評定可協助讓所有背景的學習者更容易參與和存取語言評估。

注意

如需發音評估可用性的相關信息，請參閱支援的語言和可用區域。

本文說明如何使用發音評估工具，而不需透過 Speech Studio撰寫任何程序代碼。如需如何在語音應用程式中整合發音評估的資訊，請參閱如何使用發音評估。

除了精確度、流暢度和完整性的基準分數之外，Speech Studio 中的發音評估功能還包含更全面的分數，以提供語音效能和理解各方面的詳細意見反應。增強分數如下：Prosody 分數、詞彙分數、文法分數和主題分數。這些分數提供語音語意、詞彙使用方式、文法正確性和主題理解的寶貴見解。

Screenshot of overall pronunciation score and overall content score on Speech Studio.

在評定結果底部，會顯示兩個整體分數：發音分數和內容分數。在 [閱讀] 索引標籤中，您會找到顯示的發音分數。在 [說話] 索引標籤中，會顯示發音分數和內容分數。

發音分數：此分數代表發音質量的匯總評估，並包含四個子專案。這些分數適用於文稿和未標語評估的閱讀和說話索引標籤。

精確度分數：評估發音的正確性。
流暢分數：測量語音中的平滑度和自然程度。
完整性分數：反思正確發音的字數。
Prosody 分數：評估使用適當的調音、節奏和壓力。導入了與 Prosody 評定相關的數個錯誤類型，例如非預期中斷、遺漏中斷和單調。這些錯誤類型提供與上一個引擎相比發音錯誤的詳細資訊。

內容分數：此分數提供語音內容的匯總評估，並包含三個子專案。此分數僅適用於未標語評定的說話索引標籤。

詞彙分數：評估說話者在指定內容中有效使用單字及其適當性，以準確表達想法，以及語彙複雜度的水準。
文法分數：評估文法使用方式的正確性和各種句子模式。它考慮語彙精確度、文法精確度和句子結構的多樣性，為語言熟練程度提供更全面的評估。
主題分數：評估與演講中所討論主題的了解和參與程度。它會評估演講者有效表達與指定主題相關的思想和想法的能力。

這些整體分數可全面評估發音和內容，為學習者提供語音效能和理解各方面的寶貴意見反應。藉由使用這些增強的功能，語言學習者可以更深入地瞭解其發音和內容表達式改善的優點和領域。

注意

內容和專業評定僅適用於美國地區設定。

定價

作為基準，發音評估的使用成本與語音轉文字相同，適用於隨用隨付或承諾層定價。如果您購買語音轉文字的承諾層，發音評估的支出會用於符合承諾用量。

發音評估功能也提供其他分數，不包含在基準語音到文字價格：語言、文法、主題和詞彙。這些分數會以附加元件費用的形式提供，高於基準語音到文字價格。如需定價的相關信息，請參閱語音轉換文字定價。

以下是可用的發音評估分數表格，無論是在編寫腳本或未標寫的評定中提供，以及它是否包含在基準語音到文字價格或附加元件價格中。

分數	腳本或未標寫	包含在基準語音轉換文字價格中？
準確率	已編寫文本且未標寫	Yes
流利	已編寫文本且未標寫	Yes
完整性	腳本	Yes
誤判	已編寫文本且未標寫	Yes
韻律	已編寫文本且未標寫	No
文法	僅限未標明	No
主題	僅限未標明	No
詞彙	僅限未標明	No

試用發音評估

即使未登入，您也可以探索並試用發音評估。

提示

若要使用您自己的腳本評估超過 5 秒的語音，請使用 Azure 帳戶登入並使用您的語音資源。

發音評估的粒度

發音評估會以不同的粒度提供各種評量結果，從個別音素到整個文字輸入。

在全文檢索層級，發音評估提供額外的流利度、完整性和專業分數：Fluency 表示語音與原生說話者在單字之間無聲中斷的使用程度有多密切：完整性表示在語音中對參考文字輸入發音多少個單字;Prosody 指出說話者在演講中傳達自然、表達力和整體語意的元素有多好。接著會提供從精確度、流暢度、完整性和 Prosody 匯總的整體分數，以指出指定語音的整體發音品質。發音評量也提供全文檢索層級的內容分數（詞彙、文法和主題）。
在字級上，發音評估可以自動偵測誤判並同時提供精確度分數，以在指定的語音中提供遺漏、重複、插入和錯誤提示的更詳細資訊。
音節層級的精確度分數目前可透過 JSON 檔案或語音 SDK 來使用。
在音素層級，發音評估會提供每個音素的正確分數，協助學習者進一步瞭解其語音的發音詳細數據。

閱讀和說話案例

對於發音評估，有兩種案例：閱讀和說話。

閱讀：此案例是專為編寫腳本的評量所設計。它需要學習者讀取指定的文字。參考文字會事先提供。
說出：此案例是專為未標明的評量所設計。它需要學習者在指定的主題上發言。未事先提供參考文字。

進行腳本式評定

請遵循下列步驟來評估參考文字的發音：

移至 Speech Studio 中的發音評定。
在 [閱讀] 索引標籤上，選擇您想要評估發音的支持語言。
您可以使用布建的文字範例，或輸入自己的腳本。

閱讀文字時，您應該接近麥克風，以確保錄製的語音不是太低。

否則，您可以上傳錄製的音訊以進行發音評估。成功上傳之後，系統會自動評估音訊，如下列螢幕快照所示。

進行未標明的評定

如果您想要進行未標明的評定，請選取 [說話] 索引標籤。這項功能可讓您進行未標明的評定，而不需要事先提供參考文字。以下說明如何繼續：

移至 Speech Studio 中的發音評定。
在 [說話] 索引標籤上，選擇您想要評估發音的支持語言。
接下來，您可以從提供的範例主題中選取，或輸入您自己的主題。此選項可讓您評估在給定主題上說話的能力，而不需要預先定義的腳本。

錄製您的語音進行發音評估時，請務必確保錄製時間落在建議的 15 秒（相當於 50 個字以上）到 10 分鐘的範圍內。此時間範圍最適合用來正確評估您的語音內容。若要接收主題分數，您的口語音頻應該至少包含三個句子。

您也可以上傳錄製的音訊以進行發音評估。成功上傳之後，系統會自動評估音訊。

發音評估結果

錄製語音或上傳錄製的音訊之後， 就會輸出評定結果 。結果包含您的語音音訊，以及語音評量的意見反應。您可以接聽語音音訊，並視需要下載。

您也可以在 JSON 中檢查發音評估結果。文字層級、音節層級和音素層級精確度分數會包含在 JSON 檔案中。

顯示器
JSON

Screenshot of showing the assessment result on the display window, which includes transcript and feedback on your speech.

完整的轉譯會顯示在 [顯示 ] 視窗中。此字會根據錯誤類型反白顯示。發音評定中的錯誤類型會使用不同的色彩來表示。此視覺區別可讓您更輕鬆地識別和分析特定錯誤。這提供語音音訊中錯誤類型和頻率的清楚概觀，協助您專注於需要改善的區域。您可以切換/關閉每個錯誤類型，將焦點放在特定類型的錯誤，或從顯示器中排除特定類型。此功能提供您檢閱和分析口語音頻中錯誤的方式彈性。將滑鼠停留在每個單字上方時，您可以看到整個單字或特定音素的精確度分數。

在評定結果底部會顯示評分結果。針對腳本式發音評估，只會提供發音分數（包括精確度分數、流暢分數、完整性分數和音序分數）。針對未標語發音評估，會顯示發音分數（包括精確度分數、流暢分數和音譯分數）和內容分數（包括詞彙分數、文法分數和主題分數）。

完整的轉譯會顯示在屬性中 text 。您可以看到整個單字、音節和特定音素的精確度分數。您可以使用語音 SDK 取得相同的結果。如需詳細資訊，請參閱如何使用發音評定。

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

串流模式的評量分數

發音評定支援不中斷的串流模式。 Speech Studio 示範允許在串流模式中錄製高達 60 分鐘以進行評估。只要您未按停止錄製按鈕，評估程式就不會完成，而且您可以方便地暫停和繼續評估。

發音評估會評估發音的幾個層面。在評定結果底部，您可以看到發音分數為匯總的整體分數，其中包含 4 個子層面：精確度分數、流暢分數、完整性分數和 Prosody 分數。 在串流模式中，由於精確度分數、流利度分數和 Prosody 分數在錄製過程中會隨著時間而有所不同，因此我們在 Speech Studio 上示範一種方法，在評估結束時以累加方式顯示近似整體分數，這隻會以精確度分數、流暢分數和 Prosody 分數加權。 完成度分數只有在您按下停止按鈕之後才會在評估結束時計算，因此最終發音整體分數會從精確度分數、流暢分數、完整性分數和粗細的 Prosody 分數匯總。

請參閱下面的示範範例，以取得在串流模式中評估發音的整個程序。

開始錄製

開始錄製時，底部的分數會從 0 開始改變。

錄製期間

在錄製長段落期間，您可以隨時暫停錄製。只要您未按下停止按鈕，就可以繼續評估錄製。

完成錄製

按下停止按鈕之後，您可以看到底部的發音分數、精確度分數、流暢分數、完整性分數和 Prosody 分數。

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

下一步

搭配語音 SDK 使用發音評估
閱讀有關使用案例的部落格