Fürtszolgáltatás siklása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Paraméteres átvizsgálás végrehajtása a fürtözési modell optimális beállításainak meghatározásához

Kategória: Machine Learning / Betanítás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Fürtözés modulja egy modell betanítására paraméteres siklikus siklikus módszerrel. A paraméteres keresés a modellhez legmegfelelőbb hiperparaméterek megkeresésében használható, adott adatkészlet alapján.

A Fürtözéses fürtszolgáltatás modul kifejezetten modellek fürtözéséhez lett kialakítva. Egy fürtözési modellt biztosít bemenetként egy adatkészlettel együtt. A modul egy ön által megadott paraméterkészleten iterál, és különböző paraméterekkel teszteli a modelleket, amíg meg nem találja a legjobb fürtkészletet el nem érő modellt. Automatikusan kiszámítja a legjobb konfigurációt, majd ezzel a konfigurációval beképz egy modellt.

Emellett visszaadja a tesztelt modelleket leíró metrikákat, valamint a legjobb modellen alapuló fürt-hozzárendeléseket.

A siklott fürtszolgáltatás konfigurálása

  1. Adja hozzá a fürtözési modult a kísérlethez a Studióban (klasszikus). Ezt a modult a Betanítás Machine Learning találja.

  2. Adja hozzá a K-means fürtözés modult és a betanítás adathalmazát a kísérlethez, és kösse össze mindkettőt a Fürtözéses fürtszolgáltatás modullal .

  3. Konfigurálja a K-means fürtszolgáltatás modult úgy, hogy paraméteres siklözést használjon az alábbiak szerint:

    1. Állítsa az Oktató létrehozása módotParamétertartományra.

    2. Minden paraméterhez használja a Tartományszerkesztőt (vagy írjon be manuálisan több értéket) az értékek tartományának iterálhatóként való beállításhoz.

    3. Siklikus keresés inicializálása: Adja meg, hogyan keresse meg a K-means algoritmus a kezdeti fürtök centroidját. Több algoritmus is rendelkezésre áll a centroidok véletlenszerű inicializálása és tesztelése érdekében.

      Ha a betanítás adatkészlete címkeoszlopot tartalmaz, még részleges értékek esetén is, ezeket az értékeket használhatja a centroidok számára. A Címke mód hozzárendelése lehetőséggel jelezheti a címkeértékek használatának módját.

      Tipp

      A címkeoszlopot előre meg kell jelölni. Ha hibaüzenetet kap, próbálja meg a Metaadatok szerkesztése használatával azonosítani a címkéket tartalmazó oszlopot.

    4. A vetületek száma: Adja meg, hogy hány különböző kezdő kezdőtörtet kell kipróbálni a paraméteres átvizsgálás során.

    5. Válassza ki a fürtök hasonlóságának mérésekor használt metrikát. További információkért lásd a K-means fürtszolgáltatás témakört .

    6. Iterációk: Adja meg a K-means algoritmus által végrehajtani kívánt iterációk teljes számát. Ezek az iterációk a fürtök centrálisai kiválasztásának optimalizálására használhatók.

    7. Ha címkeoszlopot használ a sikkenés inicializálására, a Címke mód hozzárendelése lehetőséggel adhatja meg, hogyan kell kezelni a címkeoszlop értékeit.

      • Hiányzó értékek kitöltése: Ha a címkeoszlop hiányzó értékeket tartalmaz, ezzel a beállítással kategóriákat lehet beutni azon fürt alapján, amelyhez az adatpont hozzá van rendelve.

      • Felülírás középről a középre: Címkeértékeket hoz létre a fürthöz rendelt összes adatponthoz a fürt közepéhez legközelebbi pont címkéje alapján.

      • Címkeoszlop figyelmen kívül hagyása: Válassza ezt a lehetőséget, ha a fenti műveletek valamelyikét nem szeretné végrehajtani.

  4. A Fürtözéses fürtszolgáltatás modulban használja a Metrika a fürtözés eredményének mérésére beállítását a betanított fürtözési modell illeszkedésének becsléséhez használt matematikai módszer megadásához:

    • Egyszerűsített Silhouette: Ez a metrika az egyes fürtökben található adatpontok szorosságát rögzíti. A számítás az egyes sorok és a fürtök hasonlósága, valamint a következő legközelebbi fürthöz való hasonlóság kombinációjaként van kiszámítva. Ha a fürt csak 1 sorral rendelkezik, akkor a legközelebbi centroidtól való legközelebbi távolság lesz kiszámítva, hogy ne legyen 0 eredményként. Az "egyszerűsített" kifejezés arra utal, hogy a fürtök centroidja és távolsága egyszerű hasonlóság-mértékként van használva. Általánosságban elmondható, hogy jobb egy magasabb pontszám. Az adathalmaz átlagos értéke azt jelzi, hogy mennyire jól vannak csoportosítva az adatok. Ha túl sok vagy túl kevés fürt van, néhány fürtnek alacsonyabb a silhouette-értéke, mint a többinek. További információt ebben a Wikipedia-cikkben talál.

    • Davies-Bouldin: Ez a metrika a legkisebb pontdiagrammal (Clusters) azonosítja a legkisebb csoportokat. Mivel a metrika az egyes fürtökön belüli pontarányként van definiálva a fürtök elkülönítésével, az alacsonyabb érték azt jelenti, hogy a fürtözés jobb. A legjobb fürtözési modell minimalizálja ezt a metrikát. A metrika Davies-Bouldin átlaga a középponti távolságig fürtönként van kiszámítva. Az átlagok összege az egyes fürtpárok esetén el van osztva a középértékek távolsága között. A rendszer az összes többi fürt maximális értékét választja ki az egyes fürtökhöz, és átlagot ad az összes fürtre. További információt ebben a Wikipedia-cikkben talál.

    • Döngés: Ez a metrika a legkisebb kompakt fürtkészlet azonosítására törekszik. A metrika magasabb értéke általában jobb fürtözést jelez. A Dén metrika kiszámításához a minimális középpont és középpont közötti távolság el van osztva az egyes adatpontnak a fürtközponttól való maximális távolságára. További információt ebben a Wikipedia-cikkben talál.

    • Átlageltérés: Ez a metrika az egyes adatponttól a fürtközpontjukig mért átlagos távolság alapján van kiszámítva. Az érték a centroidok számának növekedésével csökken; ezért nem hasznos a centroidok számának megkeresésében. Ez a metrika akkor ajánlott, ha a legjobb centroid inicializálási magot választja.

  5. Paraméteres módszer megadása: Válasszon egy beállítást, amely meghatározza a betanításkor használt értékek kombinációit és a választás módját:

    • Teljes rács: A rendszer az adott tartomány összes értékét kipróbálja és kiértékeli. Ez a lehetőség általában nagyobb számítási kapacitással is drágább.

    • Véletlenszerű mintavétel: Ezzel a beállítással korlátozhatja a futtatásokat. A fürtözési modell létrehozása és kiértékelése a megengedett paraméterértéktartományból véletlenszerűen kiválasztott értékek kombinációjával történik.

  6. Véletlenszerűen futtatott futtatás maximális száma: Válassza ezt a beállítást, ha a Véletlenszerű siklott lehetőséget választja. Írjon be egy értéket az iterációk maximális számának korlátozására véletlenszerűen kiválasztott paraméterek készletének tesztelése során.

    Figyelmeztetés

    A K-közép klaszterezés modul iterációs paramétereinek más a rendeltetése, és ez a beállítás nem befolyásolja: korlátozza a fürtök javítására tett adatok áthaladását az egyes adatpont és a fürt középpontja közötti átlagos távolság minimalizálásával. Ezzel szemben a Fürtözéses fürtszolgáltatás paraméter által meghatározott iterációk a különböző véletlenszerű centroid-inicializálások kipróbálása érdekében vannak hajtva végre. Ez a minimizálási probléma ismerten NP-nehéz; ezért ha több véletlenszerű magot próbálunk ki, az jobb eredményhez vezethet.

    Ha véletlenszerű siklázást választ, a Véletlenszerű kezdőérték lehetőséggel adhatja meg a kezdő kezdőértékeket, amelyeken hozzákezdhet a centroidok létrehozásához. A fürtözési modell paraméteres lekérdezésének egyik előnye, hogy könnyedén tesztelhet több magértéket, hogy mérsékelje a fürtözési modellek kezdeti magértékre való ismert érzékenységét.

  7. Kattintson az Oszlopkészlet elemre, és válassza ki a fürtök létrehozásakor használnia kell az oszlopokat. Alapértelmezés szerint a rendszer az összes jellemzőoszlopot használja a fürtözési modell létrehozása és tesztelése során.

    Ha szerepel az adatkészletben, feliratoszlopot is tartalmazhat. Ha egy címke jelen van, használhatja a választáshoz, a címke funkcióként való használatához, vagy a címke figyelmen kívül hagyását. Ezeket a beállításokat a Kmeans-fürtözés modul kezeléséhez állítsa be a fenti 3. lépésben leírtak szerint.

  8. Jelölje be a Hozzáfűzés vagy a Jelölés törlése jelölőnégyzetet a Csak eredmény: Ezzel a beállítással szabályozhatja, hogy mely oszlopokat ad vissza a rendszer az eredményekben.

    Alapértelmezés szerint a modul a betanítás adatkészletének eredeti oszlopait adja vissza az eredményekkel együtt. Ha nem választja ki ezt a beállítást. csak a fürt-hozzárendelések kiosztása lesz visszaadva.

  9. Adja hozzá az Adatok hozzárendelése fürtökhöz modult a kísérlethez.

  10. Csatlakozás a Legjobb betanított modell címkével jelölt kimenetet az Adatok hozzárendelése fürtökhöz betanított modell bemenetéhez.

  11. Adja hozzá a kiértékelni kívánt adathalmazt, és csatlakoztassa az Adatok hozzárendelése fürtökhöz modul Adathalmaz-portjához.

  12. Adja hozzá a Modell kiértékelése modult , és csatlakoztassa az Adatok hozzárendelése fürtökhöz modulhoz. Igény szerint összekapcsolhat egy kiértékelési adatkészletet is.

  13. Futtassa a kísérletet.

Results (Eredmények)

A Fürtözéses fürtszolgáltatás modul három különböző eredményt ad:

  • A legjobban betanított modell. Egy betanított modell, amely pontozáshoz és értékeléshez használható. Kattintson a jobb gombbal, és válassza a Mentés betanított modellként lehetőséget az optimalizált fürtözési modell rögzítéséhez és pontozáshoz való használathoz.

  • Eredményadatkészlet. Fürt-hozzárendelések készlete az optimalizált modell alapján.

    Oszlop neve Leírás
    Hozzárendelések Ez az érték azt a fürtöt jelöli, amelyhez az egyes adatpontokat hozzárendelték. A betanított modellben a fürtök 0-alapú indexekkel vannak megcímkézve.
    DistancesToClusterCenter no.1

    DistancesToClusterCenter no.n
    Ez az érték azt jelzi, hogy milyen közel van az adatpont az egyes fürtök közepéhez.

    A rendszer létrehoz egy oszlopot az optimalizált modellben létrehozott összes fürthöz.

    A fürtök számát a Centroidok száma beállítással korlátozhatja.

    Alapértelmezés szerint visszaadhatja a betanítás adathalmaz oszlopait az eredményekkel együtt, így könnyebben áttekintheti és értelmezheti a fürt-hozzárendeléseket.

  • Keresési eredmények. Egy adathalmaz, amely a következő kiértékelési metrikákat tartalmazza a fürtökhöz:

    Oszlop neve Leírás
    Fürtmetrika Az adott futtatás átlagos fürtminőségét jelző érték. A futtatásokat a legjobb pontszám szerint kell rendezetten elrendelni.
    A centroidok száma A siklott adott iterációban létrehozott fürtök száma
    Futtatás indexe Az egyes iterációk azonosítója

    Tipp

    A fürtmetrikákhoz visszaadott értékeket eltérő módon kell értelmezni attól függően, hogy melyik metrikát választotta a siklözés beállításakor. Az alapértelmezett, egyszerűsített silhouette metrika esetén jobb egy magasabb pontszám. Davies-Bouldinnél jobb az alacsonyabb pontszám.

Példák

A K-means fürtözéssel való paraméteres átvizsgálás példáiért tekintse meg a következő Azure AI Gallery:

Technikai megjegyzések

Ez a szakasz tippeket és megvalósítási részleteket tartalmaz.

Fürtözési modellek optimalizálása

A fürtözési modellek minőségét és pontosságát erősen befolyásolhatja a kezdeti paraméterek megválasztása, például a centroidok száma és a fürt inicializálására használt kezdőérték. A kezdeti paraméterekre való érzékenység csökkentése érdekében a Fürtözéses fürtszolgáltatás modul segít megtalálni a paraméterek legjobb kombinációját. Meg kell adnia egy sor tesztelni kívánt paramétert, a modul pedig automatikusan több modellt hoz létre és tesztel, végül kiválasztja az optimális számú fürtöt.

Paraméteres lekérdezés létrehozásához konfigurálnia kell a K-means fürtszolgáltatás modult is, hogy paraméteres súrolást használjon. Megadhatja, hogy a siklott érték a paraméterek összes lehetséges kombinációján iteráljon, vagy a paraméterek véletlenszerű kombinációját használja. Több standard metrika közül is választhat a centroidok pontosságának méréséhez az iteratív modell-építési és -tesztelési folyamat során. A megadott számú iteráció befejezése után a modul kiválasztja a legjobb számú fürtöt a kiválasztott metrika alapján, és jelentéseket ad ki, amelyek segítségével felmérheti az eredményeket.

Használati tippek

  • Bizonyos esetekben előfordulhat, hogy már tudja, hány fürtöt fog találni. Előfordulhat például, hogy az adatok osztálycímkéket tartalmaznak, amelyek segíthetnek a centroidok kiválasztásában. Ebben az esetben konfigurálhatja a K-means fürtözés modult úgy, hogy a címke oszlop használatával végigvezételje a kezdeti centroidok kiválasztását.

  • Ha ismeri a várt fürtök némelyikét, de nem tudja, hogy hány fürt az optimális, állítsa a centroidok számát egy olyan számra, amely nagyobb, mint az ismert címkeértékek száma. A Fürtözéses fürtszolgáltatás modul fürtöt hoz létre az ismert adatpontokhoz, majd meghatározza a további fürtök optimális számát a fennmaradó adatpontokhoz.

Hiányzó értékek kezelése a címkeoszlopban

A címkeoszlopban hiányzó értékek többféleképpen is kezelhetők. Tegyük fel például, hogy van egy képosztályozási feladata, és csak néhány kép van megcímkézve.

A címke oszlop segítségével meghatározhatja a centroidok kiválasztását, de megadhatja, hogy a hiányzó címkéket a fürt-hozzárendelések használatával kell kitölteni. Más szóval a meglévő címkeértékek nem változnak, de a hiányzó címkék ki vannak töltve.

Másik lehetőségként a fürthöz rendelt összes adatponthoz felülírhatja a meglévő címkéket is, egyetlen címkével, amely a legjobban jelöli a fürtöt. Ha meg kell értenie, hogy ez a lehetőség mennyire hasznos, képzelje el, hogy képadatokat használ nagyon részletes címkékkel, például különböző kutyafajtákkal. Ezzel a lehetőséggel az összes részletes címkét lecserélheti egyetlen kategóriacímkére(dog).

Kezdőértékek a naplóban

Úgy tűnik, hogy a Fürtözési modell betanítása modul által létrehozott naplófájl jelzi, hogy a rendszer ugyanazt a magot használja a K-means fürtözési algoritmus összes iterációja során, a Random Seed tulajdonságban megadott magtól függetlenül.

Valójában az implementáció a felhasználó által megadott kezdő adatok alapján hoz létre véletlenszerű számok sorozatát, amelyek minden futtatásnál eltérnek. Így az összes véletlenszerűen generált szám létrehozásához csak egy mag szükséges.

A napló szándéka jelzi, hogy a modul melyik kezdőmagot használja, ha a felhasználó nem ad meg magot a Tulajdonságok panelen .

Várt bemenetek

Név Típus Description
Nem korlátozott modell ICluster interfész Nem korlátozott fürtözési modell
Adathalmaz Adattábla Bemeneti adatforrás

Modulparaméterek

Név Típus Értékek Választható Alapértelmezett Description
Metrika a fürtözés eredményének méréséhez Fürtmetrika Egyszerűsített Silhouette, Davies-Bouldin, Düln, Average Deviation Kötelező Egyszerűsített Silhouette A regressziós modellek értékeléséhez használt metrika kiválasztása
Paraméteres lekérdezési mód megadása Siklott módszerek Teljes rács vagy véletlenszerű sikkenés Kötelező Véletlenszerű sikkenés Teljes rács átfutása a paraméterterületen, vagy siklás korlátozott számú mintafutatokkal
Oszlopkészlet ColumnSelection (Oszlopválasztás) Kötelező Oszlopválasztási minta
A véletlenszerűen futtatott futtatások maximális száma Egész szám [1;10000] Csak akkor érhető el, ha a SweepingMode véletlenszerűre van állítva 5 A futtatás maximálisan végrehajtható számának beállítása véletlenszerű siklák használata esetén
Véletlenszerű mag Egész szám Csak akkor érhető el, ha a SweepingMode beállítása Random sweep 0 Adjon meg egy értéket a véletlenszám-generátor véletlenszerű mintavételhez való kezdőértékként való bevetése érdekében
Ellenőrizze a Hozzáfűzés jelölőnégyzetet, vagy törölje a jelölést a Csak eredmény jelölőnégyzetből Logikai Kötelező Igaz Ezzel a beállítással jelezheti, hogy a kimeneti adatkészletnek tartalmaznia kell a hozzárendelések oszlopot hozzáfűző bemeneti adatkészletet. Törölje a kijelölést, ha azt jelzi, hogy csak a hozzárendelések oszlop kimenete legyen.

Kimenetek

Név Típus Description
Legjobb betanított modell ICluster interfész Betanított fürtözési modell
Eredményadatkészlet Adattábla Bemeneti adatkészlet csak hozzárendelések vagy hozzárendelések oszlopának adatoszlopa által hozzáfűzve
Keresési eredmények Adattábla Az eredményül kapott metrikanapló a fürtökre vonatkozó siklák futtatásaihoz

Kivételek

Kivétel Description
0003-as hiba Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

K-közép csoportosítás
Adatok hozzárendelése fürtökhöz
Machine Learning / Betanítás
Machine Learning / Modell inicializálása /Fürtözés