Adatok címkézése

Befejeződött

Az adatok helyes címkézése vagy címkézése fontos része az egyéni entitáskinyerési modell létrehozásának. A címkék a modell betanítása során használt szöveg adott entitásainak példáit azonosítják. Három dologra kell összpontosítania:

  • Konzisztencia – Az adatok címkézése az összes fájlban ugyanúgy, betanítás céljából. A konzisztencia lehetővé teszi, hogy a modell ütköző bemenetek nélkül tanuljon.
  • Pontosság – Az entitásokat következetesen címkézheti fel felesleges szavak nélkül. A pontosság biztosítja, hogy a kinyert entitás csak a megfelelő adatokat tartalmazza.
  • Teljesség – Az adatok címkézése teljesen, és ne maradjon le egyetlen entitásról sem. A teljesség segít a modellnek mindig felismerni a jelen lévő entitásokat.

Screenshot of labeling an entity in Language Studio.

Adatok címkézése

A Language Studio a legegyértelműbb módszer az adatok címkézésére. A Language Studio segítségével megtekintheti a fájlt, kiválaszthatja az entitás elejét és végét, és megadhatja, hogy melyik entitás.

Minden azonosított címke egy olyan fájlba lesz mentve, amely az adatkészlettel együtt a tárfiókban található egy automatikusan létrehozott JSON-fájlban. Ezt a fájlt a modell ezután felhasználja az egyéni entitások kinyeréséhez. Ezt a fájlt a projekt létrehozásakor is meg lehet adni (ha például ugyanazt a címkét importálja egy másik projektből), de az elfogadott egyéni NER-adatformátumokban kell lennie. Példa:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Mező Leírás
documents Címkézett dokumentumok tömbje
location A projekthez csatlakoztatott tárolón belüli fájl elérési útja
language A fájl nyelve
entities Az aktuális dokumentum jelenlegi entitásainak tömbje
regionOffset A szöveg kezdő karakterének befogadó pozíciója
regionLength A betanítás során használt adatok karaktereinek hossza
category A kinyerni kívánt entitás neve
labels Címkézett entitások tömbje a fájlokban
offset Az entitás kezdő karakterének befogadó pozíciója
length Az entitás karaktereinek hossza
dataset Melyik adathalmazhoz van hozzárendelve a fájl