什麼是語音服務？

發行項
01/23/2024

語音服務透過語音資源提供語音轉換文字和文字轉換語音等功能。您可以準確將語音謄寫成文字、產生文字轉換語音的自然語音、翻譯語音音訊，以及在交談期間使用說話者辨識。

Image of tiles that highlight some Speech service features.

建立自訂語音、新增特定字詞至您的基本詞彙，或建置您自己的模型。在任何位置 (雲端或容器邊緣) 執行語音。使用語音 CLI、語音 SDK 、Speech Studio 或 REST API 輕鬆啟用您的應用程式、工具和裝置。

語音適用於許多語言、區域和價格點。

語音案例

語音的常見案例包括：

標題：瞭解如何同步處理標題與輸入音訊、套用不雅內容篩選、取得部分結果、套用自定義專案，以及識別多語種案例的口語語言。
音訊內容建立：您可以使用類神經語音，讓與聊天機器人和語音助理的互動更加自然且引人入勝，將電子書等數位文字轉換成音訊書籍，並增強汽車內導覽系統。
通話中心：實時轉譯通話或處理一批通話、修訂個人識別資訊，以及擷取情感等深入解析，以協助您的話務中心使用案例。
語言學習：為語言學習者提供發音評估意見反應、支援遠端學習交談的即時謄寫，以及使用神經語音的大聲朗讀教材。
語音助理：為其應用程式和體驗建立自然、像交談介面一樣的人。語音助理功能提供裝置與助理實作之間的快速可靠互動。

Microsoft 針對許多案例使用語音，例如在 Teams 中標題、Office 365 中的聽寫，以及在 Microsoft Edge 瀏覽器中大聲朗讀。

Image showing logos of Microsoft products where Speech service is used.

語音功能

這些章節摘要說明語音功能與連結以取得詳細資訊。

語音轉換文字

使用語音轉換文字，或使用批次謄寫以即時或非同步方式將音訊謄寫成文字。

提示

您可以在 Speech Studio 中嘗試即時語音轉換文字，而不需要註冊或撰寫任何程式碼。

將來自各種來源 (包括麥克風、音訊檔案和 Blob 儲存體) 的音訊轉換成文字。使用說話者自動分段標記來判斷誰說了什麼和說話的時間。取得具有自動格式設定和標點符號的易懂文字稿。

如果音訊包含環境噪音，或包含許多產業和領域特定術語，則基底模型可能不夠。在這些情況下，您可以使用原音、語言和發音數據來建立和定型自定義語音模型。自定義語音模型是私人的，而且可以提供競爭優勢。

即時語音轉換文字

透過即時語音轉換文字，可以在辨識麥克風或檔案中的語音時轉錄語音。針對需要即時謄寫音訊的應用程式使用即時語音轉換文字，例如：

即時會議的謄寫、隱藏式輔助字幕或字幕
自動分段標記
發音評量
連絡中心專員協助
聽寫
語音代理程式

批次轉譯

批次謄寫是用來謄寫儲存體中的大量音訊。您可使用共用存取簽章 (SAS) URI 來指向音訊檔案，並以非同步方式接收轉譯結果。針對需要大量謄寫音訊的應用程式使用批次謄寫，例如：

預先錄製音訊的轉譯、標題或字幕
連絡中心通話後分析
自動分段標記

將文字轉換成語音

使用文字到語音轉換，您可以將輸入文字轉換成人類，例如合成語音。使用類神經語音，這是人類以深度神經網路為動力的聲音。使用語音合成標記語言（SSML）來微調音調、發音、說話速率、音量等等。

預先建置的神經語音：非常自然的現成語音。請參閱語音資源庫的預先建置神經語音範例，並依照您的商務需求決定合適的語音。
自定義神經語音：除了現成的預先建置神經語音之外，您也可以建立可辨識且專屬於您品牌或產品的自定義神經語音。自定義神經語音是私人的，而且可以提供競爭優勢。在這裡檢查自定義神經語音範例。

語音翻譯

語音翻譯可讓您即時、多語系的語音翻譯到您的應用程式、工具和裝置。使用此功能進行語音轉換和語音轉換文字翻譯。

語言識別

相較於支援的語言清單，語言識別是用來識別音訊中說話的語言。單獨使用語言識別、搭配語音轉換文字辨識，或搭配語音翻譯。

說話者辨識

說話者辨識提供演算法，以其獨特的語音特性來驗證和識別說話者。說話者辨識可用來回答「神秘說話？」的問題。

發音評量

發音評估會評估語音發音，並提供說話者關於口語音頻正確性和流暢性的意見反應。使用發音評定，語言學習者可進行練習、取得即時意見反應，並改善其發音，以便有信心地說話和簡報。

意圖辨識

意圖辨識：搭配交談語言理解 (LUIS) 使用語音轉換文字，即可從謄寫的語音衍生使用者意圖，以及根據語音命令執行動作。

傳遞和顯示狀態

您可以在雲端或內部部署中部署 Azure AI 語音功能。

使用容器，您可以讓服務更接近您的數據，以符合合規性、安全性或其他作業原因。

主權雲端中的語音服務部署適用於某些政府實體及其合作夥伴。例如，Azure Government 雲端可供美國政府實體及其合作夥伴使用。由 21Vianet 營運的 Microsoft Azure 雲端則適用於在中國有業務的組織。如需詳細資訊，請參閱主權雲端。

Diagram showing where Speech service can be deployed and accessed.

在應用程式中使用語音

Speech Studio 是一組 UI 型工具，可在您的應用程式中建置及整合 Azure AI 語音服務的功能。您可以使用無程式代碼方法在Speech Studio中建立專案，然後使用語音 SDK、語音 CLI 或 REST API 在應用程式中參考這些資產。

語音 CLI 是使用語音服務的命令行工具，不需要撰寫任何程式代碼。語音 SDK 中的大部分功能都可以在語音 CLI 中使用，而且語音 CLI 簡化了其中的某些進階功能和自訂功能。

語音 SDK 會公開許多可用來開發支援語音的應用程式的語音服務功能。語音 SDK 適用於許多程式設計語言以及所有平台。

在某些情況下，您無法或不應該使用語音 SDK。在這些情況下，您可以使用 REST API 來存取語音服務。例如，使用 REST API 進行批次轉譯和說話者辨識 REST API。

開始使用

我們提供許多熱門程式設計語言的快速入門。每個快速入門都是為了教導您基本的設計模式，並在不到10分鐘內執行程序代碼。如需每項功能的快速入門，請參閱下列清單：

程式碼範例

GitHub 上提供語音服務的範例程序代碼。這些範例涵蓋常見的案例，例如從檔案或串流讀取音訊、連續和單次辨識，以及使用自定義模型。使用這些連結來檢視 SDK 和 REST 範例：

負責 AI

AI 系統不僅包含技術，也包含使用它的人員、受其影響的人員，以及其部署所在的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

什麼是語音服務？

語音案例

語音功能

語音轉換文字

即時語音轉換文字

批次轉譯

將文字轉換成語音

語音翻譯

語言識別

說話者辨識

發音評量

意圖辨識

傳遞和顯示狀態

在應用程式中使用語音

開始使用

程式碼範例

負責 AI

語音轉換文字

發音評估

自定義神經語音

說話者辨識

下一步

其他資源