Örnek: Metin Analizi Dili algılaExample: Detect language with Text Analytics

Azure Metin Analizi REST API dil algılama özelliği, her belge için metin girişini değerlendirir ve analizin gücünü gösteren bir puanla birlikte Dil tanımlayıcıları döndürür.The Language Detection feature of the Azure Text Analytics REST API evaluates text input for each document and returns language identifiers with a score that indicates the strength of the analysis.

Bu özellik, dilin bilinmediği rastgele metni toplayan içerik depoları için kullanışlıdır.This capability is useful for content stores that collect arbitrary text, where language is unknown. Giriş belgesinde hangi dilin kullanıldığını belirlemek için bu analizin sonuçlarını ayrıştırabilirsiniz.You can parse the results of this analysis to determine which language is used in the input document. Yanıt Ayrıca modelin güvenini yansıtan bir puan döndürür.The response also returns a score that reflects the confidence of the model. Puan değeri 0 ile 1 arasındadır.The score value is between 0 and 1.

Dil Algılama özelliği, çeşitli diller, çeşitler, diapacts ve bazı bölgesel veya kültürel dillerini algılayabilir.The Language Detection feature can detect a wide range of languages, variants, dialects, and some regional or cultural languages. Bu özellik için dillerin tam listesi yayımlanmamıştır.The exact list of languages for this feature isn't published.

Daha az sıklıkta kullanılan bir dilde ifade ettiğiniz bir içeriğiniz varsa, bir kodu döndürüp döndürdüğünü görmek için Dil Algılama özelliğini deneyebilirsiniz.If you have content expressed in a less frequently used language, you can try the Language Detection feature to see if it returns a code. Algılanamayan dillerin yanıtı unknown.The response for languages that can't be detected is unknown.

İpucu

Metin Analizi Ayrıca, dil algılama için Linux tabanlı bir Docker kapsayıcı görüntüsü sağlar, bu sayede Metin Analizi kapsayıcısını verilerinize yakın şekilde yükleyip çalıştırabilirsiniz .Text Analytics also provides a Linux-based Docker container image for language detection, so you can install and run the Text Analytics container close to your data.

HazırlıkPreparation

Bu biçimde JSON belgelerinize sahip olmanız gerekir: KIMLIK ve metin.You must have JSON documents in this format: ID and text.

Belge boyutunun belge başına 5.120 karakter altında olması gerekir.The document size must be under 5,120 characters per document. Koleksiyon başına en fazla 1.000 öğe (kimlik) kullanabilirsiniz.You can have up to 1,000 items (IDs) per collection. Koleksiyon, istek gövdesinde gönderilir.The collection is submitted in the body of the request. Aşağıdaki örnek, dil algılama için gönderebilmeniz gerekebilecek içeriğe bir örnektir:The following sample is an example of content you might submit for language detection:

    {
        "documents": [
            {
                "id": "1",
                "text": "This document is in English."
            },
            {
                "id": "2",
                "text": "Este documento está en inglés."
            },
            {
                "id": "3",
                "text": "Ce document est en anglais."
            },
            {
                "id": "4",
                "text": "本文件为英文"
            },
            {
                "id": "5",
                "text": "Этот документ на английском языке."
            }
        ]
    }

1. adım: İsteği yapısıStep 1: Structure the request

İstek tanımı hakkında daha fazla bilgi için bkz. Metin Analizi API'si çağırma.For more information on request definition, see Call the Text Analytics API. Kolaylık olması için aşağıdaki noktalar yeniden belirtilmektedir:The following points are restated for convenience:

  • POST isteği oluşturun.Create a POST request. Bu isteğin API belgelerini gözden geçirmek için DIL ALGıLAMA API'sine bakın.To review the API documentation for this request, see the Language Detection API.

  • Dil algılama için HTTP uç noktasını ayarlayın.Set the HTTP endpoint for language detection. Azure 'da bir Metin Analizi kaynağı veya örneği oluşturulmuş bir metin analizi kapsayıcısıkullanın.Use either a Text Analytics resource on Azure or an instantiated Text Analytics container. URL 'ye dahil /text/analytics/v2.1/languages etmeniz gerekir.You must include /text/analytics/v2.1/languages in the URL. Örneğin: https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v2.1/languagesFor example: https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v2.1/languages.

  • Metin Analizi işlemler için erişim anahtarı eklemek üzere bir istek üst bilgisi ayarlayın.Set a request header to include the access key for Text Analytics operations.

  • İstek gövdesinde, bu analiz için hazırladığınız JSON belgeleri koleksiyonunu sağlayın.In the request body, provide the JSON documents collection you prepared for this analysis.

İpucu

İsteği yapılandırmak ve hizmete GÖNDERMEK için Postman kullanın veya belgelerdeki API testi konsolu’nu açın.Use Postman or open the API testing console in the documentation to structure a request and POST it to the service.

2. adım: İsteği gönderStep 2: POST the request

İstek alındığında analiz gerçekleştirilir.Analysis is performed upon receipt of the request. Dakika ve saniye başına gönderebilmeniz için istek boyutu ve sayısı hakkında bilgi için genel bakış konusunun veri sınırları bölümüne bakın.For information on the size and number of requests you can send per minute and second, see the data limits section in the overview.

Hizmetin durum bilgisi olmadığını unutmayın.Recall that the service is stateless. Hesabınızda bir veri depolanmaz.No data is stored in your account. Sonuçlar hemen yanıtta döndürülür.Results are returned immediately in the response.

3. adım: Sonuçları görüntülemeStep 3: View the results

Tüm POST istekleri, kimliklerle ve algılanan özelliklerle JSON biçimli bir yanıt döndürür.All POST requests return a JSON-formatted response with the IDs and detected properties.

Hemen çıktı döndürülür.Output is returned immediately. Sonuçları JSON kabul eden bir uygulamaya veya çıktıyı yerel sistemdeki bir dosyaya kaydedebilirsiniz.You can stream the results to an application that accepts JSON or save the output to a file on the local system. Sonra çıktıyı, verileri sıralamak, aramak ve işlemek için kullanabileceğiniz bir uygulamaya içeri aktarın.Then, import the output into an application that you can use to sort, search, and manipulate the data.

Örnek istek için sonuçlar, aşağıdaki JSON gibi görünmelidir.Results for the example request should look like the following JSON. Birden çok öğe içeren bir belge olduğuna dikkat edin.Notice that it's one document with multiple items. Çıktı İngilizce dilindedir.Output is in English. Dil tanımlayıcıları bir kolay ad ve ISO 639-1 biçiminde dil kodu içerir.Language identifiers include a friendly name and a language code in ISO 639-1 format.

1,0 pozitif puanı, analizin mümkün olan en yüksek güvenilirlik düzeyini ifade eder.A positive score of 1.0 expresses the highest possible confidence level of the analysis.

    {
        "documents": [
            {
                "id": "1",
                "detectedLanguages": [
                    {
                        "name": "English",
                        "iso6391Name": "en",
                        "score": 1
                    }
                ]
            },
            {
                "id": "2",
                "detectedLanguages": [
                    {
                        "name": "Spanish",
                        "iso6391Name": "es",
                        "score": 1
                    }
                ]
            },
            {
                "id": "3",
                "detectedLanguages": [
                    {
                        "name": "French",
                        "iso6391Name": "fr",
                        "score": 1
                    }
                ]
            },
            {
                "id": "4",
                "detectedLanguages": [
                    {
                        "name": "Chinese_Simplified",
                        "iso6391Name": "zh_chs",
                        "score": 1
                    }
                ]
            },
            {
                "id": "5",
                "detectedLanguages": [
                    {
                        "name": "Russian",
                        "iso6391Name": "ru",
                        "score": 1
                    }
                ]
            }
        ],
        "errors": []
    }

Belirsiz içerikAmbiguous content

Bazı durumlarda, girişi temel alarak dilleri ayırt etmek zor olabilir.In some cases it may be hard to disambiguate languages based on the input. countryHint Parametresini 2 harfli bir ülke kodu belirtmek için kullanabilirsiniz.You can use the countryHint parameter to specify a 2-letter country code. Varsayılan olarak, API varsayılan Countryipucu olarak "US" kullanıyor, bu davranışı kaldırmak için bu değeri boş dize countryHint = "" olarak ayarlayarak bu parametreyi sıfırlayabilirsiniz.By default the API is using the "US" as the default countryHint, to remove this behavior you can reset this parameter by setting this value to empty string countryHint = "" .

Örneğin, "Imkansız" hem Ingilizce hem de Fransızca için ortaktır ve sınırlı bağlamla verildiyse, yanıt "ABD" ülke ipucunu temel alır.For example, "Impossible" is common to both English and French and if given with limited context the response will be based on the "US" country hint. Metnin başlangıcının, ipucu olarak verilen Fransa 'dan geldiği bilinirse.If the origin of the text is known to be coming from France that can be given as a hint.

GirdiInput

    {
        "documents": [
            {
                "id": "1",
                "text": "impossible"
            },
            {
                "id": "2",
                "text": "impossible",
                "countryHint": "fr"
            }
        ]
    }

Hizmetin artık daha iyi bir değerlendirme yapmak için ek bağlamı vardır:The service now has additional context to make a better judgment:

ÇıktıOutput

    {
        "documents": [
            {
                "id": "1",
                "detectedLanguages": [
                    {
                        "name": "English",
                        "iso6391Name": "en",
                        "score": 1
                    }
                ]
            },
            {
                "id": "2",
                "detectedLanguages": [
                    {
                        "name": "French",
                        "iso6391Name": "fr",
                        "score": 1
                    }
                ]
            }
        ],
        "errors": []
    }

Çözümleyici girişi ayrıştıramaz, döndürür (Unknown).If the analyzer can't parse the input, it returns (Unknown). Yalnızca Arapça rakamları içeren bir metin bloğu gönderirseniz örnek bir örnektir.An example is if you submit a text block that consists solely of Arabic numerals.

    {
        "id": "5",
        "detectedLanguages": [
            {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "score": "NaN"
            }
        ]
    }

Karışık dil içeriğiMixed-language content

Aynı belge içindeki karışık dil içeriği, içerikte en büyük gösterimle ve daha düşük pozitif bir derecelendirmeden dili döndürür.Mixed-language content within the same document returns the language with the largest representation in the content, but with a lower positive rating. Derecelendirme, değerlendirmenin marjinal kuvvetini yansıtır.The rating reflects the marginal strength of the assessment. Aşağıdaki örnekte giriş, İngilizce, İspanyolca ve Fransızca dillerinin birleşimidir.In the following example, input is a blend of English, Spanish, and French. Çözümleyici, hakim dili belirlemek için her bir kesimdeki karakterleri sayar.The analyzer counts characters in each segment to determine the predominant language.

GirdiInput

    {
      "documents": [
        {
          "id": "1",
          "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
      ]
    }

ÇıktıOutput

Elde edilen çıktı, daha zayıf bir güvenilirlik düzeyini belirten 1,0 ' den az bir puan içeren, önceden baskın dilden oluşur.The resulting output consists of the predominant language, with a score of less than 1.0, which indicates a weaker level of confidence.

    {
      "documents": [
        {
          "id": "1",
          "detectedLanguages": [
            {
              "name": "Spanish",
              "iso6391Name": "es",
              "score": 0.9375
            }
          ]
        }
      ],
      "errors": []
    }

ÖzetSummary

Bu makalede, Azure bilişsel hizmetler 'de Metin Analizi kullanarak dil algılama kavramlarını ve iş akışını öğrendiniz.In this article, you learned concepts and workflow for language detection by using Text Analytics in Azure Cognitive Services. Aşağıdaki noktaları açıklanmaktadır ve gösterilmiştir:The following points were explained and demonstrated:

  • Dil algılama , çok çeşitli diller, çeşitler, diapacts ve bazı bölgesel veya kültürel dilleri için kullanılabilir.Language detection is available for a wide range of languages, variants, dialects, and some regional or cultural languages.
  • İstek gövdesindeki JSON belgeleri bir KIMLIK ve metin içerir.JSON documents in the request body include an ID and text.
  • POST isteği, kişiselleştirilmiş bir /languages erişim anahtarı ve aboneliğiniz için geçerli olan bir uç nokta kullanarak bir uç noktaya gönderilir.The POST request is to a /languages endpoint by using a personalized access key and an endpoint that's valid for your subscription.
  • Yanıt çıktısı her belge KIMLIĞI için dil tanımlayıcılarından oluşur.Response output consists of language identifiers for each document ID. Çıktı, JSON kabul eden herhangi bir uygulamaya akışla eklenebilir.The output can be streamed to any app that accepts JSON. Örnek uygulamalar, birkaç kez ad vermek için Excel ve Power BI içerir.Example apps include Excel and Power BI, to name a few.

Ayrıca bkz.See also

Metin analizi genel bakış Sık sorulan sorular (SSS)Text Analytics overview Frequently asked questions (FAQ)
Metin Analizi ürün sayfasıText Analytics product page

Sonraki adımlarNext steps