Konuşma dili anlama tarafından kabul edilen veri biçimleri
Verilerinizi CLU'ya yüklüyorsanız belirli bir biçimi izlemesi gerekir. Kabul edilen veri biçimleri hakkında daha fazla bilgi edinmek için bu makaleyi kullanın.
Proje dosya biçimini içeri aktarma
Projeyi CLU'ya aktarıyorsanız karşıya yüklenen dosyanın aşağıdaki biçimde olması gerekir.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Anahtar | Yer tutucu | Değer | Örnek |
---|---|---|---|
{API-VERSION} |
Çağırdığınız API'nin sürümü . | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Bu, amacın hiçbiri amacı olarak tahmin edileceği eşik puanıdır. Değerler şunlardan 0 1 |
0.7 |
projectName |
{PROJECT-NAME} |
Projenizin adı. Bu değer büyük/küçük harfe duyarlıdır. | EmailApp |
multilingual |
true |
Veri kümenizde birden çok dilde konuşmalara sahip olmanıza olanak tanıyan boole değeridir ve modeliniz dağıtıldığında modeli desteklenen herhangi bir dilde sorgulayabilirsiniz (eğitim belgelerinize dahil olmak zorunda değildir). Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . | true |
sublists |
[] |
Alt listeleri içeren dizi. Her alt liste bir anahtar ve ilişkili değerleridir. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Varlığınızdaki birden çok bileşenin nasıl yönetileceğini tanımlayan kural. Seçenekler veya separateComponents şeklindedircombineComponents . |
combineComponents |
synonyms |
[] |
Tüm eş anlamlıları içeren dizi | Eşanlamlı |
language |
{LANGUAGE-CODE} |
Projenizde kullanılan konuşmalar, eş anlamlılar ve normal ifadeler için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse, konuşmaların çoğunluğunun dil kodunu seçin. | en-us |
intents |
[] |
Projedeki tüm amaçlarını içeren dizi. Bunlar, konuşmalarınızdan sınıflandırılacak amaçlardır. | [] |
entities |
[] |
Projenizdeki tüm varlıkları içeren dizi. Bunlar, konuşmalarınızdan ayıklanacak varlıklardır. Her varlığın kendileriyle tanımlanmış ek isteğe bağlı bileşenleri olabilir: list, prebuilt veya regex. | [] |
dataset |
{DATASET} |
Eğitimden önce bölündüğünde bu konuşmanın gideceği test kümesi. Verileri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz . Bu alanın olası değerleri ve Test 'tirTrain . |
Train |
category |
|
Belirtilen metnin yayılmasıyla ilişkili varlık türü. | Entity1 |
offset |
|
Varlığın başlangıcının kapsayıcı karakter konumu. | 5 |
length |
|
Varlığın karakter uzunluğu. | 5 |
listKey |
|
Eş anlamlılar listesinin tahminde geri eşleştirilmesi için normalleştirilmiş bir değer. | Microsoft |
values |
{VALUES-FOR-LIST} |
Ayıklama için tam olarak eşleştirilecek ve liste anahtarına eşlenecek virgülle ayrılmış dizelerin listesi. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Normal ifadenin tahminde geri eşleştirilmesi için normalleştirilmiş bir değer. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Normal bir ifade. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Ortak türleri ayıklayan önceden oluşturulmuş bileşenler. Ekleyebileceğiniz önceden oluşturulmuş derlemelerin listesini burada bulabilirsiniz. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Varlığı döndürmek için belirli bir bileşenin mevcut olması gereksinimini belirten ayar. Burada daha fazla bilgi edinebilirsiniz. Olası değerler , regex , list veya değerleridir learned prebuilts |
"learned", "prebuilt" |
Konuşma dosyası biçimi
CLU, konuşmalarınızı tek tek yazmak yerine doğrudan projeye yükleme seçeneği sunar. Bu seçeneği projenizin veri etiketleme sayfasında bulabilirsiniz.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Anahtar | Yer tutucu | Değer | Örnek |
---|---|---|---|
text |
{Utterance-Text} |
Konuşma metniniz | Test Etme |
language |
{LANGUAGE-CODE} |
Projenizde kullanılan konuşmalar için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse, konuşmaların çoğunluğunun dil kodunu seçin. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . | en-us |
dataset |
{DATASET} |
Eğitimden önce bölündüğünde bu konuşmanın gideceği test kümesi. Verileri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz . Bu alanın olası değerleri ve Test 'tirTrain . |
Train |
intent |
{intent} |
Atanan amaç | amaç1 |
entity |
{entity} |
Ayıklanacak varlık | entity1 |
category |
|
Belirtilen metnin yayılmasıyla ilişkili varlık türü. | Entity1 |
offset |
|
Metnin başlangıcının kapsayıcı karakter konumu. | 0 |
length |
|
Sınırlayıcı kutunun UTF16 karakterleri cinsinden uzunluğu. Eğitim yalnızca bu bölgedeki verileri dikkate alır. | 500 |
Sonraki adımlar
- Etiketlenmiş verilerinizi doğrudan projenize aktarabilirsiniz. Daha fazla bilgi için bkz. projeyi içeri aktarma .
- Verilerinizi etiketleme hakkında daha fazla bilgi için nasıl yapılır makalesine bakın. Verilerinizi etiketlemeyi bitirdiğinizde modelinizi eğitebilirsiniz.