Aracılığıyla paylaş


Konuşma dili anlama tarafından kabul edilen veri biçimleri

Verilerinizi CLU'ya yüklüyorsanız belirli bir biçimi izlemesi gerekir. Kabul edilen veri biçimleri hakkında daha fazla bilgi edinmek için bu makaleyi kullanın.

Proje dosya biçimini içeri aktarma

Projeyi CLU'ya aktarıyorsanız karşıya yüklenen dosyanın aşağıdaki biçimde olması gerekir.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Anahtar Yer tutucu Değer Örnek
{API-VERSION} Çağırdığınız API'nin sürümü . 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Bu, amacın hiçbiri amacı olarak tahmin edileceği eşik puanıdır. Değerler şunlardan 01 0.7
projectName {PROJECT-NAME} Projenizin adı. Bu değer büyük/küçük harfe duyarlıdır. EmailApp
multilingual true Veri kümenizde birden çok dilde konuşmalara sahip olmanıza olanak tanıyan boole değeridir ve modeliniz dağıtıldığında modeli desteklenen herhangi bir dilde sorgulayabilirsiniz (eğitim belgelerinize dahil olmak zorunda değildir). Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . true
sublists [] Alt listeleri içeren dizi. Her alt liste bir anahtar ve ilişkili değerleridir. []
compositionSetting {COMPOSITION-SETTING} Varlığınızdaki birden çok bileşenin nasıl yönetileceğini tanımlayan kural. Seçenekler veya separateComponentsşeklindedircombineComponents. combineComponents
synonyms [] Tüm eş anlamlıları içeren dizi Eşanlamlı
language {LANGUAGE-CODE} Projenizde kullanılan konuşmalar, eş anlamlılar ve normal ifadeler için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse, konuşmaların çoğunluğunun dil kodunu seçin. en-us
intents [] Projedeki tüm amaçlarını içeren dizi. Bunlar, konuşmalarınızdan sınıflandırılacak amaçlardır. []
entities [] Projenizdeki tüm varlıkları içeren dizi. Bunlar, konuşmalarınızdan ayıklanacak varlıklardır. Her varlığın kendileriyle tanımlanmış ek isteğe bağlı bileşenleri olabilir: list, prebuilt veya regex. []
dataset {DATASET} Eğitimden önce bölündüğünde bu konuşmanın gideceği test kümesi. Verileri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz . Bu alanın olası değerleri ve Test'tirTrain. Train
category Belirtilen metnin yayılmasıyla ilişkili varlık türü. Entity1
offset Varlığın başlangıcının kapsayıcı karakter konumu. 5
length Varlığın karakter uzunluğu. 5
listKey Eş anlamlılar listesinin tahminde geri eşleştirilmesi için normalleştirilmiş bir değer. Microsoft
values {VALUES-FOR-LIST} Ayıklama için tam olarak eşleştirilecek ve liste anahtarına eşlenecek virgülle ayrılmış dizelerin listesi. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Normal ifadenin tahminde geri eşleştirilmesi için normalleştirilmiş bir değer. ProductPattern1
regexPattern {REGEX-PATTERN} Normal bir ifade. ^pre
prebuilts {PREBUILT-COMPONENTS} Ortak türleri ayıklayan önceden oluşturulmuş bileşenler. Ekleyebileceğiniz önceden oluşturulmuş derlemelerin listesini burada bulabilirsiniz. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Varlığı döndürmek için belirli bir bileşenin mevcut olması gereksinimini belirten ayar. Burada daha fazla bilgi edinebilirsiniz. Olası değerler , regex, listveya değerleridir learnedprebuilts "learned", "prebuilt"

Konuşma dosyası biçimi

CLU, konuşmalarınızı tek tek yazmak yerine doğrudan projeye yükleme seçeneği sunar. Bu seçeneği projenizin veri etiketleme sayfasında bulabilirsiniz.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Anahtar Yer tutucu Değer Örnek
text {Utterance-Text} Konuşma metniniz Test Etme
language {LANGUAGE-CODE} Projenizde kullanılan konuşmalar için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse, konuşmaların çoğunluğunun dil kodunu seçin. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . en-us
dataset {DATASET} Eğitimden önce bölündüğünde bu konuşmanın gideceği test kümesi. Verileri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz . Bu alanın olası değerleri ve Test'tirTrain. Train
intent {intent} Atanan amaç amaç1
entity {entity} Ayıklanacak varlık entity1
category Belirtilen metnin yayılmasıyla ilişkili varlık türü. Entity1
offset Metnin başlangıcının kapsayıcı karakter konumu. 0
length Sınırlayıcı kutunun UTF16 karakterleri cinsinden uzunluğu. Eğitim yalnızca bu bölgedeki verileri dikkate alır. 500

Sonraki adımlar