N-Gram-funkciók kinyerése szövegből

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Létrehozza az N-Gram szótár funkcióit, és funkcióválasztást is tesz rájuk

Kategória: Text Analytics

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az N-Gram-funkciók kinyerása szövegből modul a Machine Learning Studio (klasszikus) használatával szövegek jellemzővé tereihez, és hogyan lehet csak a legfontosabb információkat kinyerni hosszú szöveges sztringekból.

A modul úgy működik, hogy létrehoz egy n-gram szótárt egy szabad szövegeket tartalmazó oszlopból, amelyet ön ad meg bemenetként. A modul különböző információs metrikákat alkalmaz az n-gram listára az adatdimenzió csökkentése és a legtöbb információértéket mutató n-gram azonosítása érdekében.

Ha már létrehozott egy n-gram szókészletet, frissítheti a statisztikáit, vagy új kifejezésekkel egyesíthet egy ön által választott súlyozási algoritmussal.

Mivel ez a modul támogatja az n-gramból származó featurizálást, pontozáskor is használható.

Az N-Gram kinyerő funkcióinak konfigurálása szövegből

Ezek a modulok a következő forgatókönyveket támogatják az n-gram szótárak létrehozásához, frissítéséhez és alkalmazáshoz:

  • Egy szabad szöveges oszlopot használó új modellt fejleszt, és kizárólag a bemeneti adatok alapján szeretne szöveges jellemzőket kinyerni. Lásd az utasításokat.

  • Rendelkezik egy meglévő szöveg funkciókészlettel, és új szövegbevitelek feldolgozásával szeretné frissíteni a súlyokat. Lásd az utasításokat.

  • Pontokat hoz létre egy prediktív modellből, és a pontozási folyamat részeként szövegbeviteleket kell létrehoznia és használnia egy n-gram szótárban. Lásd az utasításokat.

Referenciaként használhatja a példakísérletet .

Új n-gram szótár létrehozása szöveges oszlopból

  1. Adja hozzá az N-Gram-funkciók kinyerása szövegből modult a kísérlethez, és kösse össze a feldolgozni kívánt szöveget tartalmazó adatkészletet.

  2. A Text (Szöveg) oszlophoz válasszon egy sztring típusú oszlopot, amely tartalmazza a kinyerni kívánt szöveget.

    Alapértelmezés szerint a modul az összes sztringoszlopot kiválasztja. Mivel azonban az eredmény részletes, előfordulhat, hogy egyszerre csak egyetlen oszlopot kell feldolgoznia.

  3. A Szókincs mód beállításban válassza a Létrehozás lehetőséget annak jelzésére, hogy az n-gram funkciók új listáját hozza létre.

    Az n-gram funkciók meglévő készletének frissítésére vonatkozó információkért tekintse meg ezt a szakaszt.

  4. Az N-gének mérete mezőbe írjon be egy számot, amely a kinyerni és tárolni kívánt n-g gramm maximális méretét jelzi.

    Ha például a következőt írja be 3: , unigrams, bigrams és trigrams.

  5. A K-Skip méret mezőbe írja be az n-gramm változatának azonosításakor eltérő karakterek maximális számát. Ha a k értéke 0, akkor n-gram csak egyedi, összefüggő karaktersorozatból lehet létrehozni.

    Tegyük fel például, hogy a szótár tartalmazza az unigram "computer" (számítógép) adatokat. A 0 k érték azt jelenti, hogy a "számítógép" az egyetlen érvényes unigram. Ha a k értékét 1-re növeli, kihagyhat egy összetűnés karaktert, így több hasonló sorozatot találhat. Egy 1 értékű skip-gram egy karakterrel térne el a 0-k unigramtól. Így a kihagyott "konputer" és a "compuuter" is ugyanannak a szótárbejegyzésnek a részét képezi, mint a "computer". Ha a k értéket 2-re jükjük, az még több különböző szót is meg fog egyezni.

    A kihagyott gramm szövegelemzésben való használatával kapcsolatos további információkért tekintse meg a következő tanulmányt: Candidate Generation and Feature Engineering for Supervised Lexical Normalization (Jelölt-generáció és funkciótervezés felügyelt lexikális normalizáláshoz)

  6. A Súlyozás funkcióra csak akkor van szükség, ha egyesítésre vagy a szókészletek frissítésére van szükség. Azt határozza meg, hogy a két szókészletben és azok pontszámában milyen súlyozással kell egymáshoz lenni.

  7. A Minimális szóhossz mezőbe írja be az elemezni képes sztringek minimális szóhosszát.

    Tegyük fel például, hogy a minimális szóhossz 3-ra lett állítva (ez az alapértelmezett érték), és egy olyan bemenete volt, amely egyetlen szóval, egy másik pedig olyan rövid szöveggel, mint a "szép hely". A rendszer mindkét sort figyelmen kívül hagyja.

  8. A Maximális szóhossz mezőbe írja be az n-gram bármely szavában használható betűk maximális számát.

    Alapértelmezés szerint szóonként vagy jogkivonatonként legfeljebb 25 karakter engedélyezett. Az ennél hosszabb szavakat eltávolítjuk, feltételezve, hogy valószínűleg tetszőleges karakterek sorozatai, nem pedig tényleges lexikális elemek.

  9. A Minimális n-gram dokumentum abszolút gyakorisága mezőbe írjon be egy számot, amely azt jelzi, hogy az n-gram szótárban szerepelnie kell egy adott szó vagy jogkivonat minimális előfordulásának.

    Ha például az alapértelmezett 5 értéket használja, minden n-gram vagy skip-gram értéknek legalább öt alkalommal meg kell jelennie a corpus-ban, hogy az n-gram szótárba tartozni fog.

  10. A Maximális n-gram dokumentumarány mezőbe írjon be egy számot, amely ezt az arányt jelöli: egy adott n-gramot tartalmazó sorok száma a teljes corpus sorai számában.

    Az 1 arány például azt jelzi, hogy még ha egy adott n-gram is szerepel minden sorban, az n-gram hozzáadható az n-gram szótárhoz. Jellemzőbb, hogy az egyes sorokban lévő szavak zajnak minősülnek, és el lesznek távolítva. A tartománytól függő zajszűrés kiszűréséhez próbálja meg csökkenteni ezt az arányt.

    Fontos

    Az egyes szavak előfordulási aránya nem egységes, de dokumentumról dokumentumra változik. Ha például egy adott termékkel kapcsolatos vásárlói megjegyzéseket elemez, a termék neve nagyon gyakori lehet, és egy zajszavhoz közeli, de más kontextusban jelentős kifejezés lehet.

  11. Válassza a Szótáron túli sorok észlelése lehetőséget, ha olyan sorokat szeretne létrehozni, amelyek nem az n-gram szókészletben lévő szavakat tartalmaznak, amelyeket "a szókészleten túl" (OOV) szavaknak nevezünk.

    Minden lexikon véges; Ezért a szöveges corpus szinte garantáltan tartalmaz olyan szavakat, amelyek nem tartoznak a lexikon vagy az n-gram szótárba. Az ilyen szavak azonban különböző hatással lehetnek a nyelvi modellekre, például magasabb hibaarányt okozhatnak a szókészleten (IV) használt szavakhoz képest. A tartománytól függően ezek az OOV-szavak fontos tartaloms szavakat jelenthetnek.

    A szavakat tartalmazó sorok azonosításával kompenzálhatja ezeknek a kifejezéseknek a hatásait, vagy külön kezelheti a kifejezéseket és a kapcsolódó sorokat.

  12. Válassza a Mark begin-of-sentence (Mondat kezdete megjelölése) lehetőséget egy speciális karaktersorozat hozzáadásához, amely egy mondat kezdetét jelzi az n-gram szótárban. A szövegelemzésben gyakori a mondatot speciális karakterrel kezdjeő n-gés előtag, amely hasznos lehet a beszédhatárok elemzésében.

    Az Azure ML Studio (klasszikus) beszúrja a szimbólumot|||. Egyéni karaktert nem adhat meg.

  13. Válassza az n-gram vektorok normalizálása lehetőséget, ha normalizálni szeretné a jellemzővektorokat. Ha ezt teszi, az egyes n-gram jellemzővektorok az L2 normára vannak osztva.

    A rendszer alapértelmezés szerint normalizálást használ.

  14. Állítsa a Szűrőalapú funkcióválasztás használata lehetőséget True (Igaz ) értékre, ha további beállításokat szeretne engedélyezni a szöveges vektor méretének kezeléséhez.

    • A funkciók kiválasztása segíthet csökkenteni az n-gének dimenzióját.
    • Ha nem alkalmazza a szűrőkijelölést, a rendszer minden lehetséges n-gálát létrehoz, így növeli a lefedettséget, hogy a szótár hosszabb legyen, és esetleg sok nem ritka kifejezés is legyen.
    • Kisebb corpusban a funkciók kiválasztása jelentősen csökkentheti a létrehozott kifejezések számát.
    • További információ: Szűrőalapú funkció kiválasztása.

    Ha szolgáltatásválasztást használ, ki kell választania egy metódust a Funkciópontozási módszer legördülő listából:

    • PearsonCorrelation: Kiszámítja Pearson korrelációját a címke oszlopának értéke és a szöveges vektor alapján.
    • MutualInformation: Kölcsönös információpontszám kiszámítása a címkeoszlop értéke és a szöveges vektor alapján.
    • KendallCorrelation: Kiszámítja Kendall korrelációját a címkeoszlop értéke és a szöveges vektor alapján.
    • SpearmanCorrelation: Kiszámítja a Spearman-korrelációt a címkeoszlop értéke és a szöveges vektor alapján.
    • ChiSquared: A chi-squared metódussal számítja ki a címkeoszlop értéke és a szöveges vektor közötti korrelációt.
    • CoreScore: Kiszámítja a Címke pontszámát a címke oszlopértékére és a szöveges vektorra.
    • Szolgáltatásszám-alapú kijelölés: Új funkciókat hoz létre az értékek száma alapján. Ezzel a módszerrel nincs szükség címkeoszlopra.

    A választott módszertől függően adja meg az alábbi lehetőségek egyikét:

    • Kívánt szolgáltatások száma: Kötelező, ha nem számalapú funkcióválasztási módszert használ.

      A funkcióválasztási folyamat során minden n-g-g-hez egy jellemzőpontszám, az n-g-g pedig pontszám szerint van rangsorolva. Az itt megadott érték határozza meg, hogy a legmagasabb besorolású jellemzők közül hány kimenet. Az alacsonyabb pontszámú N-g értékeket a rendszer elveti.

    • Nem nulla elemek minimális száma: Számalapú funkciókiválasztás használata esetén kötelező.

      Írjon be egy egész számot, amely a lehetséges funkciók darabszámának táblázatosulához minimálisan szükséges példányszámot jelöli.

  15. Futtassa a kísérletet.

    Az eredmények magyarázatát és formátumát ebben a szakaszban láthatja.

Meglévő n-gram szótár frissítése vagy egyesítési szótárak

  1. Adja hozzá az N-Gram-funkciók kinyerés szövegből modult a kísérlethez, és kösse össze a feldolgozni kívánt szöveget és az adatkészlet portját .

  2. A Text (Szöveg) oszlopnál válassza ki azt a szöveges oszlopot, amely a megszagorizálni kívánt szöveget tartalmazza. Alapértelmezés szerint a modul az összes sztring típusú oszlopot kiválasztja. A legjobb eredmény érdekében egyszerre csak egy oszlopot kell feldolgozni.

  3. Adja hozzá a korábban létrehozott n-gram szótárt tartalmazó mentett adatkészletet, és csatlakoztassa az Input szókincsporthoz. Az N-Gram-funkciók kinyerését a Szövegből modul egy felfelé irányuló példányának Eredmény szókincskimenetét is csatlakoztathatja.

    A szókincs egyesítéséhez vagy frissítéséhez a bemeneti szókincs sémának pontosan meg kell egyeznie a várt formátummal. Ne távolítson el oszlopokat a-ból, és ne adjon hozzá oszlopokat a bemeneti szókészlethez.

  4. A Szókincs mód beállításnál válassza ki az alábbi frissítési lehetőségek egyikét a legördülő listából:

    • ReadOnly: A bemeneti korpuszt jelöli a bemeneti szókincs szempontjából. Ez azt jelenti, hogy az új szöveges adatkészletből (a bal oldali bemeneten) a kifejezésgyakorrati gyakoriságok számítása helyett a bemeneti szókészlet n-gram súlyozását a rendszer az aktuálisan alkalmazva alkalmazza.

      Tipp

      Ezt a lehetőséget szövegosztályozó pontozása esetén használhatja.

    • Frissítés: Új n-gram szókészletet hoz létre a bemeneti corpus szójegyzékből, és egyesíti azt a bemeneti szókészlettel. Más szóval új bejegyzéseket adhat a létrehozott szókincshez a bemeneti szókincsből, vagy frissítheti a meglévőket.

      Tipp

      Ezt a lehetőséget a szókészlet növekményes frissítéséhez használhatja a bejövő adatkötegelékekkel.

    • Egyesítés: Új n-gram szókészletet hoz létre a bemeneti korpuszból.

      Ez a lehetőség akkor hasznos, ha háttérszavat ad meg bemenetként a modulnak, és csökkenteni szeretné a leállítási szavak súlyát. Más szóval minden olyan bejegyzéshez, amely a háttérben magas gyakorisági pontszámmal rendelkezik, alacsonyabb inverz dokumentum-gyakorisági pontszámot kap a létrehozott szókészletben.

      Tipp

      Akkor használja ezt a lehetőséget, ha nem szeretne új bejegyzéseket hozzáadni a létrehozott szókincshez a bemenetből, és csak a meglévő bejegyzések pontszámait szeretné módosítani.

  5. A súlyozási függvény kiválasztása lehetőség szükséges a szókészletek egyesítésekor vagy frissítésekkor. A súlyozási függvény azt határozza meg, hogy a két szókészlet DF- és IDF-pontszámait hogyan kell egymáshoz súlyozással összeszámni:

    • Bináris súly: Bináris jelenléti értéket rendel a kinyert n-grammhoz. Más szóval az egyes n-gramok értéke 1, ha az létezik az adott dokumentumban, és 0 egyéb esetben.
    • TF Weight (TF súlyozása): Hozzárendel egy kifejezésgyakorra-pontszámot (TF) a kinyert n-grammhoz. Az egyes n-gramok értéke annak előfordulási gyakorisága az adott dokumentumban.
    • IDF súlyozása: Inverz dokumentumgyakorra-pontszámot (IDF) rendel a kinyert n-gökökhez. Az egyes n-gramok értéke a corpus méret naplója osztva az előfordulási gyakoriságtal a teljes korpuszban. Az: IDF = log of corpus_size / document_frequency
    • TF-IDF weight (TF-IDF súlyozása): Hozzárendel egy kifejezésgyakorra/fordított dokumentumgyakorra-pontszámot (TF/IDF) a kinyert n-grammhoz. Az egyes n-gramok értéke a TF-pontszám és az IDF-pontszám szorzata.
    • Graph Súlyozás: A textRank gráf rangsorolása alapján rendeli hozzá a pontszámot a kinyert n-gramhoz. A TextRank egy szövegfeldolgozási gráfalapú rangsorolási modell. Graph rangsorolási algoritmusok lényegében a globális információk alapján döntik el a fontosságot. További információkért lásd: Rada Mihalcea és Paul Tarau TextRank: Bringing Order into Text into Text Into Text (Szöveg sorrendbe hozása szövegbe)
  6. Az összes többi lehetőségért tekintse meg az előző szakaszban található tulajdonságleírásokat.

  7. Futtassa a kísérletet.

    Az eredmények magyarázatát és formátumát ebben a szakaszban láthatja.

N-grammot használó modell pontozása vagy közzététele

  1. Másolja az N-Gram-funkciók kinyerása szövegből modult a betanítás adatfolyamból a pontozási adatfolyamba.

  2. Csatlakozás eredményül kapott szókészlet kimenetét a betanítás adatfolyamból a pontozási adatfolyam bemeneti szókincséhez.

  3. A pontozási munkafolyamatban módosítsa a Extract N-Gram Features from Text (N-Gram-funkciók kinyere a szövegből) modult, és módosítsa ezeket a módosításokat, és ne módosítsa a többit:

    • A Szókészlet mód paramétert állítsa Csak olvashatóra.

    • Módosítsa a Szűrőalapú funkció kiválasztása beállítást a következőre : False.

  4. A kísérlet közzétételéhez mentse adatkészletként az Eredmény szókincsét.

    Ezután kösse össze a mentett adatkészletet a pontozási gráf N-Gram-funkciók kinyerása szövegből modullal.

Results (Eredmények)

Az Extract N-Gram Features from Text (N-Gram-funkciók kinyerása szövegből ) modul két kimenettípust hoz létre:

  • Eredményadatkészlet: Az elemzett szöveg összegzése a kinyert n-grammal együtt. A Text column ( Szövegoszlop) lehetőségnél nem kiválasztott oszlopok át vannak stb. a kimenetbe. A modul minden elemzett szövegoszlophoz a következő oszlopokat hozza létre:

    • NgramsString: Az összes egyedi n-gramot tartalmazó sztring.
    • NumUniqueNgrams: A megadott tulajdonságokkal kinyert n-gönyök száma.
    • N-gram előfordulások ritka mátrixa: A modul létrehoz egy oszlopot az összes korpuszban talált minden n-gram számára, és hozzáad egy pontszámot minden oszlophoz, amely jelzi az n-gram súlyozását az adott sorban.
  • Eredmény szókincs: A szókincs tartalmazza a tényleges n-gram szótárt, valamint az elemzés részeként előállított gyakorisági pontszámokat. Az adathalmazt mentheti más bemeneti adatokkal való újrahasználathoz, vagy egy későbbi frissítéshez. A pontszámokat frissítheti is, vagy újra felhasználhatja a szótárt modellezéshez és pontozáshoz.

Mintaeredmények

Az eredmények használatának szemléltetésére az alábbi rövid példa a Studióban (klasszikus) elérhető Amazon Book Review adatkészletet használja. Az adatkészlet úgy lett szűrve, hogy csak a 4 vagy 5 pontszámú értékeléseket, valamint a 300 karakternél nem hosszabb sztringeket mutassa.

Ebben az adatkészletben egy rövid áttekintést választottunk, amely csak 92 szót tartalmaz. Itt a szerző nevét Xxx lecserélték a névre, a könyv címét pedig a névre Yyy:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Eredményadatkészlet minta felülvizsgálati szöveghez

Ebben a példában a modul a következő oszlopokat generálta:

  • NumUniqueNgrams: Ehhez a 92 szóból vett felülvizsgálathoz az alapértelmezett beállításokat használva 11 n-gált vettünk ki a minta-felülvizsgálatból.

    Amikor az n-gram hosszát 3-ra növelték, és a skip-gram érték 1-re lett állítva, 15 n-grammot találtunk.

    Amikor a funkció kiválasztása az alapértelmezettre lett alkalmazva, a rendszer nem ad ki n-gált.

  • NgramsString:Az alapértelmezett beállításokkal ezek az n-göndök a következő értékeket érték el: ["his", "best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel"]

    Ha az n-gram hossza 3, a skip-gram értéke pedig 1, Ezek az n-grammok a következő értékeket érték el: ["his", "best","one","highly","recommend","this","novel","his_best highly_recommend","highly_recommend","recommend_this","this_novel","best_one","one_best","highly_this","highly_recommend_this"]

  • N-gram előfordulások ritka mátrixa

    Ebben a felülvizsgálatban az eredmények a következő oszlopokat tartalmazta:

    ReviewText (Szöveg áttekintése). [kezeli] ReviewText (Szöveg áttekintése). [and_highly] ReviewText (Szöveg áttekintése). [magas] ReviewText (Szöveg áttekintése). [highly_recommend]
    0 0 0.301511 0.301511

    Tipp

    Ha problémája van egy adott oszlop megtekintésével, csatolja a Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) modult a kimenethez, majd használja a search függvényt az oszlopok név alapján való szűréséhez.

Eredményszókincs minta felülvizsgálati szöveghez

A szókincs tartalmazza a tényleges n-gram szótárt, valamint az elemzés részeként előállított gyakorisági pontszámokat. Az adathalmazt mentheti más bemeneti adatokkal való újrahasználathoz, vagy egy későbbi frissítéshez. A DF ésaz IDF pontszámok a többi beállítástól függetlenül jönnek létre. A szókészletek kombinálásakor ezek a tárolt értékek a választott súlyozási függvény bemeneteként vannak használva.

  • Id: Az egyes egyedi n-gram azonosítókhoz generált azonosító.
  • Ngram: Az n-gram. A szóközöket vagy más szóelválasztókat az aláhúzás karakter váltja fel.
  • DF: Az eredeti corpus n-gram gyakorisági pontszáma.
  • IDF: Az eredeti corpus n-gram-hez fordított dokumentum gyakorisági pontszáma.

Az adatkészlet manuálisan is frissíthető; azonban legyen óvatos, mivel hibákat okozhat. Például:

  • Hiba történik, ha a modul ismétlődő sorokat talál ugyanazokkal a kulcsokkal a bemeneti szókészletben. Győződjön meg arról, hogy a szókészlet egyik sorában sem egyezik a szó.
  • A szókészletek bemeneti sémának pontosan egyeznie kell, beleértve az oszlopneveket és az oszloptípusokat.
  • Az Azonosító oszlopnak és a DF pontszám oszlopának egész szám típusúnak kell lennie.
  • Az IDF-oszlopnak LEBEGŐPONTOS (lebegőpontos) típusúnak kell lennie.

Technikai megjegyzések

Javasoljuk, hogy kísérletezzen különböző értéktartományokkal n-gram hossz, a kihagyott grammok száma és a jellemzőválasztás használata esetén a szöveg corpus dimenzióját és az optimális jellemzőarányt határozza meg.

Az n-gramokkal és a kihagyott grammokkal kapcsolatos további információkért tekintse meg az alábbi forrásanyagokat:

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatok
Bemeneti szókincs Adattábla Bemeneti szókincs

Modulparaméterek

Név Típus Tartomány Választható Alapértelmezett Description
Nem nulla elemek minimális száma Egész szám >=1 Csak akkor érvényes, ha a következő metódust használja:

Számalapú
1 Adja meg a kimenethez használni kívánt szolgáltatások számát (CountBased metódushoz)
Szöveges oszlop Oszlop kiválasztása Kötelező StringFeature (Sztringfeature) A szöveges oszlop neve vagy egyalapú indexe
Szókincs mód Szókincs mód Létrehozás

ReadOnly

Frissítés

Egyesítés
Kötelező Létrehozás Adja meg, hogyan kell létrehozni az n-gram szókincset a corpusból
N-Gram mérete Egész szám >=1 Kötelező 1 Adja meg a létrehozni kívánt n-gramm maximális méretét
K-Skip size Egész szám >=0 Kötelező 0 A k-kihagyás méretének jelzése
Súlyozási függvény Súlyozási függvény Bináris súlyozás

TF Weight

IDF-súlyozás

TF-IDF súlyozása

Graph Súlyozás
Kötelező Bináris súlyozás Az egyes n-gram értékekre alkalmazandó súlyozási függvény kiválasztása
Minimális szóhossz Egész szám >=1 Kötelező 3 Adja meg az n-grammba foglalni kívánt szavak minimális hosszát
Szó maximális hossza Egész szám >=2 Kötelező 25 Adja meg az n-grammban szerepeltetni kívánt szavak maximális hosszát
Minimális n-gram dokumentum abszolút gyakorisága Float >=1,0 Kötelező 5.0 Minimális n-gram dokumentum abszolút gyakorisága
N-gram dokumentum maximális aránya Float >=0,0001 Kötelező 1.0 N-gram dokumentum maximális aránya
A szótáron nem használt sorok észlelése Logikai Kötelező true Az n-gram szókészletben nem lévő szavakat tartalmazó sorok felismerése (OOV)
Megjelölés mondat kezdeteként Logikai Kötelező hamis Annak jelzése, hogy hozzá kell-e adni egy mondatkezdőjelet az n-grammhoz
N-gram jellemzővektorok normalizálása Logikai Kötelező Az n-gram jellemzővektorok normalizálása. Ha igaz, akkor az n-gram jellemzővektort az L2-norma osztva használja.
Szűrőalapú funkcióválasztás használata True False Type Igaz

Hamis
Kötelező Igaz Szűrőalapú funkcióválasztás használata a dimenziócsökkentéshez
Funkciópontozási módszer Pontozási módszer Pearson-korreláció

Kölcsönös információk

Kendall Correlation

Spearman-korreláció

Chi Squared

Score (Pontszám)

Számalapú
Csak akkor érvényes, ha a Szűrőalapú funkció használata beállítás Igaz Score (Pontszám) Válassza ki a pontozáshoz használt metódust
Céloszlop Oszlop kiválasztása A következő módszerek egyikének használata esetén érvényes:

Pearson-korreláció

Kölcsönös információk

Kendall Correlation

Spearman-korreláció

Chi Squared

Score (Pontszám)
A céloszlop megadása
A kívánt funkciók száma Egész szám >=1 A következő módszerek egyikének használata esetén érvényes:

Pearson-korreláció

Kölcsönös információk

Kendall Correlation

Spearman-korreláció

Chi Squared

Score (Pontszám)
1 Adja meg az eredményekben kimenetként megadni kívánt funkciók számát

Kimenetek

Név Típus Description
Eredményadatkészlet Adattábla Kinyert funkciók
Eredmény szókincse Adattábla Eredmény szókincse

Lásd még

Text Analytics
A modulok A-Z Machine Learning listája