Megnevezett entitások felismerése

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Felismeri a megnevezett entitásokat egy szöveges oszlopban

Kategória: Text Analytics

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning nevesített entitások felismerése Studio (klasszikus) nevesített entitások felismerése modulja az dolgok, például személyek, vállalatok vagy helyek nevének azonosítására egy szövegoszlopban.

A megnevezett entitások felismerése a gépi tanulás és a természetes nyelvi feldolgozás (NLP) egyik fontos területe, mivel számos valós kérdésre, például a következő kérdésekre válaszolható meg:

  • Tartalmaz egy tweet egy személy nevét? A tweet az aktuális helyét is megszabadja?

  • Mely vállalatokról volt szó egy cikkből?

  • Meg vannak adva termékek a bejelentések vagy felülvizsgálatok során?

A nevestett entitások listájának lekért listájához meg kell adnia egy szöveges oszlopot tartalmazó adatkészletet bemenetként. A nevesített entitások felismerése modul három entitástípust azonosít: személyek (PER), helyek (LOC) és szervezetek (ORG).

A modul a szavak helyéhez is felcímkéi a sorozatokat, hogy a kifejezéseket további elemzésben használjuk.

Az alábbi táblázat például egy egyszerű bemeneti mondatot, valamint a modul által létrehozott kifejezéseket és értékeket mutatja be:

Szövegbevitel A modul kimenete
"Boston nagyszerű hely az élethez." 0,Boston,0,6,LOC

A kimenet a következőképpen értelmezhető:

  • Az első 0 azt jelenti, hogy ez a sztring a modul első bemenete.

    Mivel egyetlen cikk több entitással is rendelkezik, beleértve a cikk sorszámát a kimenetben, fontos a funkciók cikkekre való leképezéséhez.

  • Boston A a felismert entitás.

  • A 0 következő azt jelenti, Boston hogy az entitás Boston a bemeneti sztring első betűtől indul. Az indexek nulla alapúak.

  • 6 Az azt jelenti, hogy az entitás hossza Boston 6.

  • LOC Az azt jelenti, hogy Boston az entitás egy hely vagy hely. Az egyéb támogatott nevestitás-típusok a személy (PER) és a szervezet (ORG).

A nevesített entitások felismerése

  1. Adja hozzá nevesített entitások felismerése modult a kísérlethez a Studióban (klasszikus). A modult a következő kategóriában találja Text Analytics kategóriában.

  2. A Story (Történet) nevű bemeneten kösse össze az elemezni szükséges szöveget tartalmazó adatkészletet.

    A "történetnek" tartalmaznia kell azt a szöveget, amelyből elnevezett entitásokat kell kinyerni.

    A Story oszlopnak több sort kell tartalmaznia, ahol minden sor egy sztringből áll. A sztring lehet rövid, például mondat, vagy hosszú, mint egy cikk.

    Bármilyen szöveges oszlopot tartalmazó adatkészletet csatlakoztathat. Ha azonban a bemeneti adatkészlet több oszlopot tartalmaz, az Adatkészlet oszlopainak kijelölése lehetőséggel kiválaszthatja csak azt az oszlopot, amely az elemezni kívánt szöveget tartalmazza

    Megjegyzés

    A második bemenet, az Egyéni erőforrások (Zip) jelenleg nem támogatott.

    A jövőben itt adhat hozzá egyéni erőforrásfájlokat a különböző entitástípusok azonosításához.

  3. Futtassa a kísérletet.

Results (Eredmények)

A modul egy olyan adatkészletet ad ki, amely minden felismert entitáshoz tartalmaz egy sort az eltolásokkal együtt.

Mivel a bemeneti szöveg minden egyes sorának több nevestű entitása is lehet, a rendszer automatikusan létrehoz és tartalmaz egy cikkazonosító-számot a kimenetben a megnevezett entitást tartalmazó bemeneti sor azonosításához. A cikk azonosítója a bemeneti adatkészlet sorai természetes sorrendjén alapul.

Ezt a kimeneti adatkészletet átalakíthatja CSV formátumba letöltésre, vagy újra felhasználhatja adatkészletként.

Elnevezett entitások felismerése webszolgáltatásban

Ha a Machine Learning Studióból tesz közzé webszolgáltatást (klasszikus), és C#, Python vagy más nyelv használatával szeretné használni a webszolgáltatást, például az R nyelvet, először implementálja a webszolgáltatás súgóoldalán megadott szolgáltatáskódot.

Ha a webszolgáltatás több sor kimenetet biztosít, akkor a C#-, Python- vagy R-kódhoz scoremultirow megadott webszolgáltatás URL-címének a helyett az utótaggal kell lennie score.

Tegyük fel például, hogy a következő URL-címet használja a webszolgáltatáshoz: https://ussouthcentral.services.azureml.net/workspaces/<workspace id>/services/<service id>/score

A többsoros kimenet engedélyezéséhez módosítsa az URL-címet a következőre: https://ussouthcentral.services.azureml.net/workspaces/<workspace id>/services/<service id>/scoremultirow

A webszolgáltatás közzétételéhez hozzá kell adni egy további R-szkript végrehajtása modult az nevesített entitások felismerése modul után, hogy a többsoros kimenetet pontosvesszővel (kettőspontokkal) elválasztott egyetlen ;). A kimenet több sorának egyetlen sorba konszolidálásának oka az, hogy bemeneti soronként több entitást ad vissza.

Tegyük fel például, hogy van egy bemeneti mondata két elnevezett entitással. Ahelyett, hogy két sort ad vissza minden bemeneti sorhoz, egyetlen sort ad vissza több entitással, pontosvesszővel elválasztva az itt látható módon:

Bemeneti szöveg A webszolgáltatás kimenete
A Microsoft két irodával rendelkezik Bostonban. 0,Microsoft,0,9,ORG,;,0,Boston,38,6,LOC,;

A következő kódminta ezt mutatja be:

# Map 1-based optional input ports to variables  
d <- maml.mapInputPort(1) # class: data.frame  
y=length(d) ##size of cols  
x=dim(d)[1] ##size of rows  
longd=matrix("NA",nrow=1,ncol=x*(y+1))  
for (i in 1:x)  
  {   
     for (j in 1:y)  
     {  
       longd[1,j+(i-1)*(y+1)]=toString(d[i,j])   
     }  
     longd[1,j+(i-1)*(y+1)+1]=c(";")  
  }   

final_output=as.data.frame(longd)  
# Select data.frame to be sent to the output Dataset port  
maml.mapOutputPort("final_output");  

Példák

Ez a blog részletesen bemutatja a nevesított entitások felismerésének működését, hátterét és a lehetséges alkalmazásokat:

Emellett tekintse meg a következő mintakísérleteket a Azure AI Gallery a gépi tanulásban gyakran használt szövegbesorolási módszerek használatának bemutatóit:

  • Hírkategorizálási minta: Funkció-kivonatolással előre definiált kategóriákba sorolja a cikkeket.

  • Hasonló vállalatok minta: A Wikipedia-cikkek szövegének segítségével kategorizálja a vállalatokat.

  • Szövegbesorolás , 1/5. lépés: Adat-előkészítés: A szövegbesorolás ötrészes bemutatója a Twitter-üzenetek szövegét használja hangulatelemzéshez. Számos szöveg előfeldolgozási technikát is bemutatunk.

Technikai megjegyzések

Nyelvi támogatás

Jelenleg a nevesített entitások felismerése modul csak az angol nyelvű szöveget támogatja. Képes észlelni a szervezet nevét, a személyes neveket és a helyeket angol mondatban. Ha a modult más nyelveken használja, lehet, hogy nem kap hibaüzenetet, de az eredmények nem olyan jóak, mint az angol nyelvű szöveg esetében.

A jövőben további nyelvek támogatása engedélyezhető a természetes nyelvi eszközkészletben elérhető többnyelvű összetevők Office integrálásával.

Várt bemenetek

Név Típus Description
Történet Adattábla Egy bemeneti adatkészlet (DataTable), amely az elemezni kívánt szöveges oszlopot tartalmazza.
CustomResources (Egyéni erőforrások) Irányítószám (Nem kötelező) Egy ZIP formátumú fájl, amely további egyéni erőforrásokat tartalmaz.

Ez a lehetőség jelenleg nem érhető el, és csak a továbbítási kompatibilitás érdekében érhető el.

Kimenetek

Név Típus Description
Entitások Adattábla Karaktereltolások és entitások listája

Lásd még

Text Analytics
Funkciókivonatolás
Vowpal Wabbit 7-4 modell pontozása
Vowpal Wabbit 7-4 modell betanítás