Adatok címkézése

4 perc

Az adatok helyes címkézése vagy címkézése fontos része az egyéni entitáskinyerési modell létrehozásának. A címkék a modell betanítása során használt szöveg adott entitásainak példáit azonosítják. Három dologra kell összpontosítania:

Konzisztencia – Az adatok címkézése az összes fájlban ugyanúgy, betanítás céljából. A konzisztencia lehetővé teszi, hogy a modell ütköző bemenetek nélkül tanuljon.
Pontosság – Az entitásokat következetesen címkézheti fel felesleges szavak nélkül. A pontosság biztosítja, hogy a kinyert entitás csak a megfelelő adatokat tartalmazza.
Teljesség – Az adatok címkézése teljesen, és ne maradjon le egyetlen entitásról sem. A teljesség segít a modellnek mindig felismerni a jelen lévő entitásokat.

Adatok címkézése

A Language Studio a legegyértelműbb módszer az adatok címkézésére. A Language Studio segítségével megtekintheti a fájlt, kiválaszthatja az entitás elejét és végét, és megadhatja, hogy melyik entitás.

Minden azonosított címke egy olyan fájlba lesz mentve, amely az adatkészlettel együtt a tárfiókban található egy automatikusan létrehozott JSON-fájlban. Ezt a fájlt a modell ezután felhasználja az egyéni entitások kinyeréséhez. Ezt a fájlt a projekt létrehozásakor is meg lehet adni (ha például ugyanazt a címkét importálja egy másik projektből), de az elfogadott egyéni NER-adatformátumokban kell lennie. Példa:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Mező	Leírás
`documents`	Címkézett dokumentumok tömbje
`location`	A projekthez csatlakoztatott tárolón belüli fájl elérési útja
`language`	A fájl nyelve
`entities`	Az aktuális dokumentum jelenlegi entitásainak tömbje
`regionOffset`	A szöveg kezdő karakterének befogadó pozíciója
`regionLength`	A betanítás során használt adatok karaktereinek hossza
`category`	A kinyerni kívánt entitás neve
`labels`	Címkézett entitások tömbje a fájlokban
`offset`	Az entitás kezdő karakterének befogadó pozíciója
`length`	Az entitás karaktereinek hossza
`dataset`	Melyik adathalmazhoz van hozzárendelve a fájl

Folytatás

Adatok címkézése

Adatok címkézése

Visszajelzés