Adatok címkézése
Az adatok helyes címkézése vagy címkézése fontos része az egyéni entitáskinyerési modell létrehozásának. A címkék a modell betanítása során használt szöveg adott entitásainak példáit azonosítják. Három dologra kell összpontosítania:
- Konzisztencia – Az adatok címkézése az összes fájlban ugyanúgy, betanítás céljából. A konzisztencia lehetővé teszi, hogy a modell ütköző bemenetek nélkül tanuljon.
- Pontosság – Az entitásokat következetesen címkézheti fel felesleges szavak nélkül. A pontosság biztosítja, hogy a kinyert entitás csak a megfelelő adatokat tartalmazza.
- Teljesség – Az adatok címkézése teljesen, és ne maradjon le egyetlen entitásról sem. A teljesség segít a modellnek mindig felismerni a jelen lévő entitásokat.
Adatok címkézése
A Language Studio a legegyértelműbb módszer az adatok címkézésére. A Language Studio segítségével megtekintheti a fájlt, kiválaszthatja az entitás elejét és végét, és megadhatja, hogy melyik entitás.
Minden azonosított címke egy olyan fájlba lesz mentve, amely az adatkészlettel együtt a tárfiókban található egy automatikusan létrehozott JSON-fájlban. Ezt a fájlt a modell ezután felhasználja az egyéni entitások kinyeréséhez. Ezt a fájlt a projekt létrehozásakor is meg lehet adni (ha például ugyanazt a címkét importálja egy másik projektből), de az elfogadott egyéni NER-adatformátumokban kell lennie. Példa:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Mező | Leírás |
---|---|
documents |
Címkézett dokumentumok tömbje |
location |
A projekthez csatlakoztatott tárolón belüli fájl elérési útja |
language |
A fájl nyelve |
entities |
Az aktuális dokumentum jelenlegi entitásainak tömbje |
regionOffset |
A szöveg kezdő karakterének befogadó pozíciója |
regionLength |
A betanítás során használt adatok karaktereinek hossza |
category |
A kinyerni kívánt entitás neve |
labels |
Címkézett entitások tömbje a fájlokban |
offset |
Az entitás kezdő karakterének befogadó pozíciója |
length |
Az entitás karaktereinek hossza |
dataset |
Melyik adathalmazhoz van hozzárendelve a fájl |