Share via


如何使用語言偵測

語言偵測功能可以評估文字,並能指示出文件所使用語言的語言識別碼。

語言偵測很適合用於收集未知語言任意文字的內容存放區。 您可以剖析此分析的結果,以判斷輸入文件中使用的是哪一種語言。 回應也會傳回範圍在 0 與 1 之間的分數來反映對模型的信賴度。

「語言偵測」功能適用於多種不同的語言、變體、方言,以及某些區域性/文化語言。

開發選項

若要使用語言偵測,您可以提交未經處理的非結構化文字進行分析,並在應用程式中處理 API 輸出。 分析是按原狀執行,對您資料上使用的模型不會進行額外的自訂。 有兩種方式可以使用語言偵測:

開發選項 描述
Language Studio Language Studio 是以 Web 為基礎的平臺,可讓您嘗試在沒有 Azure 帳戶的文字範例與實體連結,以及註冊時自己的資料。 如需詳細資訊,請參閱 Language Studio 網站或Language Studio 快速入門
REST API 或用戶端程式庫 (Azure SDK) 使用 REST API 或各種語言提供的用戶端程式庫,將語言偵測整合到您的應用程式中。 如需詳細資訊,請參閱 語言偵測快速入門
Docker 容器 使用可用的 Docker 容器,在內部部署環境中部署此功能。 這些 Docker 容器可讓服務更加契合您的資料,以實現合規性、安全性或其他操作性原因。

決定如何處理資料 (選擇性)

指定語言偵測模型

根據預設,語言偵測將會在您的文字上使用最新可用 AI 模型。 您也可以將 API 要求設定為使用特定的模型版本

輸入語言

當您提交要評估的文件時,語言偵測會嘗試判斷文字是否為以任何支援的語言所撰寫。

如果您有以較不常用的語言表示的內容,您可以嘗試使用「語言偵測」功能,看它是否會傳回代碼。 對於無法偵測到的語言,會產生 unknown 回應。

提交資料

提示

您可以使用 Docker 容器進行語言偵測,使您可以在內部部署情況下使用該 API。

分析會在接收要求時執行。 以同步方式使用語言偵測功能是無狀態的。 您的帳戶中不會儲存任何資料,且結果會在回應中立即傳回。

以非同步方式使用這項功能時,API 結果可從要求內嵌的時間起 24 小時內提供使用,且會在回應中指出。 在這段時間之後,結果將會被清除且無法再供擷取。

取得語言偵測結果

在取得語言偵測的結果後,您可以將結果串流至應用程式,或將輸出儲存到本機系統上的檔案。

語言偵測會針對您所提交的每份文件傳回一種主要語言,以及它的 ISO 639-1 \(英文\) 名稱、人類能夠看得懂的名稱和信賴分數。 正 1 的分數為最高的分析信賴等級。

模稜兩可的內容

在某些情況下,可能難以根據輸入來區分語言。 您可以使用 countryHint 參數來指定以 ISO 3166-1 二位字母代碼表現的國碼/區域碼。 根據預設,API 會使用 "US" 作為預設的國家/地區提示。 若要移除此行為,您可以藉由將此數值設定為空字串 countryHint = "" 以重設此參數。

例如,英文和法文的「通訊」很常見,而且若具有有限的內容,則回應會以「美國」國家/地區提示為基礎。 如果文字的來源已知是來自法國,這一點也可作為一項提示。

輸入

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

語言偵測模型現在有更多的執行內容來做出更好的判斷:

輸出

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

如果分析器無法剖析輸入,它會傳回 (Unknown)。 例如,如果您提交只包含數字的文字字串。

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

混合式語言內容

相同文件中的混合式語言內容會傳回佔據最多內容的語言,但其正面評等將會較低。 評等會反映評量的臨界強度。 在下列範例中,輸入會混合英文、西班牙文和法文。 分析器會計算每個區段中的字元來判斷出主要的語言。

輸入

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

輸出

結果輸出由主要語言組成,其分數小於 1.0,這表示信賴度較低。

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.88
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

服務和資料限制

如需每分鐘和每秒可傳送的要求大小和數目的相關資訊,請參閱服務限制一文。

另請參閱