Partíció és minta

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Több partíciót hoz létre egy adatkészletből mintavételezés alapján

Kategória: Adatátalakítás / Minta és felosztás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk bemutatja, hogyan használhatja a Partition and Sample (Partíció és minta) modult a Machine Learning Studio (klasszikus) alkalmazásában, hogyan végezhet mintavételezést egy adatkészleten, vagy hogyan hozhat létre partíciókat az adatkészletből.

A mintavételezés fontos eszköz a gépi tanulásban, mivel lehetővé teszi az adatkészletek méretének csökkentését, ugyanakkor az értékek azonos arányának fenntartását. Ez a modul számos kapcsolódó feladatot támogat, amelyek fontosak a gépi tanulásban:

  • Az adatok több, azonos méretű alszakaszra osztása.

    A partíciókat keresztellenőrzésre vagy esetek véletlenszerű csoportokhoz való hozzárendelésre használhatja.

  • Az adatok csoportokra való elkülönítése, majd az adatok egy adott csoportból való kezelése.

    Miután véletlenszerűen hozzárendelt eseteket különböző csoportokhoz, előfordulhat, hogy módosítania kell a csak egy csoporthoz társított szolgáltatásokat.

  • Mintavételi.

    Kinyerheti az adatok egy százalékát, véletlenszerű mintavételezést alkalmazhat, vagy kiválaszthat egy oszlopot az adatkészlet kiegyensúlyozása és a rétegzett mintavételezés az értékek alapján történő végrehajtásához.

  • Kisebb adatkészlet létrehozása teszteléshez.

    Ha sok adata van, előfordulhat, hogy csak az első n sort szeretné használni a kísérlet beállítása során, majd a modell létrehozása során a teljes adathalmaz használatára szeretne váltani. Mintavételezéssel kisebb adatkészletet is létrehozhat a fejlesztéshez.

Partíció és minta konfigurálása

Ez a modul több módszert is támogat az adatok partíciókra osztására vagy mintavételezésre. Először válassza ki a metódust, majd adja meg a metódushoz szükséges további beállításokat.

  • A sorok legmagasabb számának lekért száma

ELSŐ N sor beása egy adatkészletből

Ezzel a móddal csak az első n sort lehet lekérte . Ez a lehetőség akkor hasznos, ha kis számú soron szeretne tesztelni egy kísérletet, és nincs szüksége az adatok kiegyensúlyozása vagy mintavétele semmilyen módon való mintavételre.

  1. Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a (klasszikus) Studióban található kísérlethez, és kösse össze az adatkészletet.

  2. Partíciós vagy minta mód: Állítsa ezt a beállítást Head (Fej) beállításra.

  3. A kiválasztni kívánt sorok száma: Adja meg a visszaadott sorok számát.

    A megadott sorok számának nem negatív egész számnak kell lennie. Ha a kiválasztott sorok száma nagyobb, mint az adathalmaz sorai száma, a rendszer a teljes adatkészletet visszaadja.

  4. Futtassa a kísérletet.

A modul egyetlen adatkészletet ad ki, amely csak a megadott számú sort tartalmazza. A sorokat a rendszer mindig az adatkészlet tetejéről olvassa be.

Mintaadatok létrehozása

Ez a lehetőség támogatja az egyszerű véletlenszerű mintavételezést vagy a rétegzett véletlenszerű mintavételezést. Ez akkor hasznos, ha kisebb reprezentatív mintaadatkészletet szeretne létrehozni teszteléshez.

  1. Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a (klasszikus) Studióban található kísérlethez, és kösse össze az adatkészletet.

  2. Partíciós vagy minta mód: Állítsa Mintavételezésre.

  3. Mintavételezési sebesség: Írjon be egy 0 és 1 közötti értéket. Ez az érték határozza meg, hogy a forrásadatkészletből hány sornak kell szerepelnie a kimeneti adatkészletben.

    Ha például az eredeti adatkészletnek csak a felét szeretné, írja be a parancsot annak jelzésére, 0.5 hogy a mintavételezési aránynak 50%-nak kell lennie.

    A bemeneti adatkészlet sorait a rendszer a megadott aránynak megfelelően megkeveri és szelektíven a kimeneti adatkészletbe adja.

  4. Véletlenszerű kezdőérték mintavételezéshez: Igény szerint begépelhető egy egész szám, amely kezdőértékként használható.

    Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy oszlanak meg. Az alapértelmezett érték 0, ami azt jelenti, hogy a kezdő kezdőérték a rendszeróra alapján jön létre. Ez a kísérlet minden futtatásakor némileg eltérő eredményekhez vezethet.

  5. Rétegzett felosztás mintavételezéshez: Válassza ezt a lehetőséget, ha fontos, hogy az adathalmaz sorait egyenletesen ossza el egy kulcsoszloppal a mintavételezés előtt.

    A Mintavételezési rétegzési kulcs oszlopa mezőben válassza ki az adatkészlet osztása során használni kívánt egyetlen rétegoszlopot. Az adathalmaz sorai ezután a következőképpen oszlanak meg:

    1. Minden bemeneti sor a megadott rétegzett oszlop értékei alapján van csoportosítva (rétegzetten).

    2. A sorok az egyes csoportokon belül vannak elkeverve.

    3. A rendszer minden csoportot külön ad hozzá a kimeneti adatkészlethez, hogy megfeleljen a megadott aránynak.

    A rétegzett mintavételezéssel kapcsolatos további információkért tekintse meg a Műszaki megjegyzések szakaszt .

  6. Futtassa a kísérletet.

    Ezzel a beállítással a modul egyetlen adatkészletet ad ki, amely az adatok reprezentatív mintavételezését tartalmazza.

    Az adatkészlet fennmaradó, fel nem szabadott része nem kimenet. Azonban létrehozhatja az adathalmazok illesztését az Apply SQL Transformation (Átalakítás alkalmazása) modullal annak meghatározásához, hogy mely sorok nem voltak használatban.

Adatok felosztása partíciókra

Akkor használja ezt a lehetőséget, ha az adatkészletet az adatok részkészleteire szeretné osztani. Ez a lehetőség akkor is hasznos, ha egyéni számú összecsukott keresztellenőrzést szeretne létrehozni, vagy több csoportra szeretné felosztani a sorokat.

  1. Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a (klasszikus) Studióban található kísérlethez, és kösse össze az adatkészletet.

  2. A Partíció vagy minta mód beállításnál válassza a Hozzárendelés a deduktáláshoz lehetőséget.

  3. Csere használata a particionálásban: Válassza ezt a lehetőséget, ha azt szeretné, hogy a mintavételezés sorának visszahelyezése a sorok készletében legyen újra felhasználható. Ennek eredményeképpen ugyanaz a sor több összecsukáshoz is hozzárendelhető.

    Ha nem használja a cserét (ez az alapértelmezett beállítás), a mintavételezés sorának újbóli felhasználásához a rendszer nem kerül vissza a sorkészletbe. Ennek eredményeképpen minden sor csak egy összecsukható.

  4. Véletlenszerű felosztás: Válassza ezt a lehetőséget, ha a sorokat véletlenszerűen szeretné összecsukni.

    Ha nem választja ki ezt a lehetőséget, a rendszer a sorokat a round-robin metódus használatával deduktálja.

  5. Véletlenszerű kezdőérték: Igény szerint begépelhető egy egész szám, amely kezdőértékként lesz használva. Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy oszlanak meg. Ellenkező esetben a 0 alapértelmezett érték azt jelenti, hogy a rendszer véletlenszerű kezdő kezdőértéket használ.

  6. Adja meg a particionáló metódust: Az alábbi beállításokkal jelezze, hogyan szeretné az adatokat az egyes partíciókra felosztni:

    • Egyenlő particionálás: Ezzel a beállítással egyenlő számú sort helyezzen el az egyes partíciókban. A kimeneti partíciók számának megadásához írjon be egy egész számot a Specify number of folds to splitlyly into text (Összecsukhatóak számának megadása) szövegmezőbe.

    • Particionálás testreszabott arányokkal: Ezzel a beállítással vesszővel elválasztott listaként adhatja meg az egyes partíciók méretét.

      Ha például három partíciót szeretne létrehozni, amelyekben az első partíció az adatok 50%-át tartalmazza, a fennmaradó két partíció pedig az adatok 25%-át tartalmazza, kattintson az arányok listája vesszővel elválasztott szövegmezőre, és írja be a következő számokat:.5, .25, .25

      Az összes partícióméret összegének pontosan 1-nek kell lennie.

      • Ha 1-esnél kisebb számokat ad meg, a rendszer létrehoz egy további partíciót, amely a többi sort fogja tartalmazni. Ha például begépeli a .2 és a .3 értéket, egy harmadik partíció jön létre, amely az összes sor fennmaradó 50 százalékát tartalmazza.

      • Ha 1-esnél több számot ad meg, a kísérlet futtatásakor hiba történik.

  7. Rétegzett felosztás: Válassza ezt a lehetőséget, ha azt szeretné, hogy a sorok rétegezve lesznek felosztáskor, majd válassza ki a rétegzett oszlopot.

    A rétegzett mintavételezéssel kapcsolatos további információkért tekintse meg a Műszaki megjegyzések szakaszt .

  8. Futtassa a kísérletet.

    Ezzel a beállítással a modul több adatkészletet ad vissza a megadott szabályok szerint particionálva.

Előre meghatározott partíció adatainak használata

Ez a lehetőség akkor használható, ha egy adatkészletet több partícióra osztott, és most minden partíciót be szeretne tölteni további elemzés vagy feldolgozás céljából.

  1. Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a kísérlethez a Studióban (klasszikus).

  2. Csatlakozás a Partition (Partíció) és a Sample (Minta) egy korábbi példányának kimenetére. Ennek a példánynak az Assign to Folds (Hozzárendelés a deduktáláshoz) lehetőséggel kellett létrehoznia néhány partíciót.

  3. Particionálás vagy minta mód: Válassza a Pick Fold (Összecsukás) lehetőséget.

  4. Adja meg, hogy melyikből kell mintát venni: Válasszon ki egy használni kívánt partíciót az index beírásával. A partícióindexek 1-alapúak. Ha például az adatkészletet három részre osztotta, a partíciók indexei 1, 2 és 3.

    Ha érvénytelen indexértéket ad meg, tervezési idő hiba jelenik meg: "0018-as hiba: Az adatkészlet érvénytelen adatokat tartalmaz."

    Amellett, hogy az adatkészletet összeadások szerint csoportosítja, az adatkészletet két csoportra is fel lehet választani: egy célátadásra és minden másra. Ehhez írja be az egyetlen összecsukott adat indexét, majd válassza a Kiválasztott összecsukás lehetőséget, hogy a megadott összecsukáson túl mindent leküldjön.

  5. Ha több partícióval dolgozik, az egyes partíciók kezeléséhez a Partition ( Partíció) és a Sample (Minta) modul további példányait kell hozzáadnia.

    Tegyük fel például, hogy korábban ötre particionálta a pácienseket az életkor használatával. Az egyes összecsukásokkal való munkához a Partition (Particionálás) és a Sample (Minta) modul öt példányára van szükség, és mindegyikben ki kell választania egy másikat.

    Tipp

    Ezt a módszert a Partíció felosztása és a Minta mintakísérlet mutatja be.

  6. Futtassa a kísérletet.

    Ezzel a beállítással a modul egyetlen adatkészletet ad vissza, amely csak az adott adatátmenethez rendelt sorokat tartalmazza.

Megjegyzés

Az összecsukott megjelöléseket nem lehet közvetlenül megtekinteni; csak a metaadatokban vannak jelen.

Példák

A modul használatára vonatkozó példákért lásd a Azure AI Gallery:

  • Bináris besorolás keresztellenőrzése: A rendszer 20%-os mintavételezési arányt alkalmaz egy kisebb, véletlenszerűen mintavételt tartalmazó adatkészlet létrehozásához. Az eredeti nép néprajzi adatkészlet több mint 30 000 sort tartalmazott; A mintavételt tartalmazó adatkészlet körülbelül 6500-as.

  • Regresszió keresztellenőrzése: Az adatok véletlenszerűen, egyenletesen vannak öt egyedhez rendelve, rétegzés nélkül, és az eredményeket keresztellenőrzésre használják.

  • Felosztásos partíció és minta: A particionálás és a mintavételezés több módját mutatja be. Először az Assign to Folds (Hozzárendelés delegákhoz) lehetőséggel rendelhet sorokat az adatkészlethez három egyenletesen méretezett csoport egyikéhez. Ezután a Partíció és a Minta három további példánya lesz hozzáadva a Pick Fold mód használatával, hogy műveleteket alkalmaz a rendszer az adatok részcsoportjaira

    • Az első összecsukás (1 index) sorai véletlenszerűen vannak felosztva.
    • A második összecsukott (2-es index) sorok oktatási szerint vannak felosztva.
    • A harmadik egyedben (3-as index) a sorok kor szerint vannak felosztva.

Technikai megjegyzések

  • A rétegzési oszlopnak kategorikusnak kell lennie, és diszkrét értékeket kell tartalmazni. Ha az oszlop még nem kategorikus, és hibaüzenetet kap, a Metaadatok szerkesztése lehetőség használatával módosíthatja az oszlop tulajdonságait.

  • A megadott rétegoszlop nem tartalmazhat folyamatos adatokat, azaz az egyes cellákban lebegőpontos értékeket tartalmazó numerikus adatokat. Ellenkező esetben a modul nem tudja feldolgozni az adatokat, és hibát ad vissza.

    Ennek az az oka, hogy minden, a rétegzéshez használt oszlopnak véges számú lehetséges értékkel kell lennie. Ha a megadott rétegoszlop lebegőpontos értékeket tartalmaz, és az oszlop nem kategorikus típusú, akkor végtelen számú értéket is tartalmaz.

  • Ha a rétegoszlop logikai értékeket tartalmaz, és azt szeretné, hogy kategorikusként legyen értelmezve, a Metaadatok szerkesztése modullal kell módosítania a metaadatcímkét.

  • Ha a rétegoszlop túl sok egyedi értéket tartalmazó sztringet vagy numerikus adatokat tartalmaz, az oszlop nem jó választás a rétegzett mintavételezéshez.

További információ a rétegzett mintavételezésről

A rétegzett mintavételezés biztosítja, hogy az adatok részcsoportja reprezentatív mintavételezéssel adatokat tartalmaz a kiválasztott rétegoszlopból. Ez a technika például akkor hasznos, ha biztosítani szeretné, hogy a betanítási adatok a tesztadatok korértékeivel azonos eloszlást tartalmazzanak, vagy fordítva. De az is előfordulhat, hogy egy egészségügyi tanulmányban a nemek oszlopát szeretné felsni, hogy a férfiak és a nők egyenlően oszlnak el az adatok particionálása során. A rétegzés biztosítja a kiválasztott értékek arányának megőrzését.

Az értékeket úgy adhatja meg, hogy az adatokat elkülöníti egymástól úgy, hogy egyetlen oszlopot választ ki, amely a rétegoszlopként szolgál majd.

Ez a modul megköveteli, hogy a rétegoszlop egy kategorikus oszlop. Ha egész számértékeket tartalmazó oszlopot szeretne használni a réteghez, ajánlott ehhez az oszlophoz kategorikus típust rendelni. Ezt az adatok sémája alapján is meg lehet tenni, mielőtt hozzáadja őket a Machine Learning Studióhoz (klasszikus), vagy frissítheti az oszlop metaadatait a Metaadatok szerkesztése használatával.

A folyamatos adatokat tartalmazó oszlopok (azaz az egyes cellákban lebegőpontos értékeket tartalmazó numerikus adatok) nem használhatók rétegoszlopként. Ha hibaüzenetet kap, az adatokat gyűjtőkbe csoportosíthatja az értékeket különálló tartományokba, majd a Metaadatok szerkesztése lehetőség használatával biztosíthatja, hogy az oszlop kategorikusként legyen kezelve.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Felosztani szükséges adatkészlet

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Particionálási vagy minta mód Lista Mintavételezési módszerek Mintavételezés Válassza ki a partíciós vagy mintavételezési módot
Csere használata a particionálásban Bármelyik Logikai Hamis Jelezze, hogy az összecsukásnak szét kell-e kapcsolva (alapértelmezett – csere nélkül) vagy átfedésben kell lennie (igaz – csere használata)
Véletlenszerű felosztás Bármelyik Logikai Igaz Annak jelzése, hogy a felosztás véletlenszerű-e
Véletlenszerű kezdőmag Bármelyik Egész szám 0 Kezdő érték megadása a véletlenszám-generátorhoz
A particionálási módszer megadása Lista Particionálási módszerek Egyenletes particionálás Válassza a Partition Evenly (Egyenlő particionálás) lehetőséget az egyenlő méretű delegáláshoz, vagy a Partition with customized proportions to partition into folds of customized size (Particionálás egyenlő méretű delegálással) lehetőséget, vagy a Partition with customized proportions to partition into folds of customized size (Particionálás egyenlő méretű delegálással) lehetőséget.
Adja meg az egyenletesen felosztani kívánt összecsukott összecsukásokat >=1 Egész szám 5 Válassza ki, hogy hány partícióra osztható
Rétegzett felosztás Lista Igaz/hamis típus Hamis Annak jelzése, hogy a felosztás rétegzett-e
Rétegzési kulcs oszlopa Bármelyik ColumnSelection (Oszlopválasztás) A rétegzési kulcsot tartalmazza
Arányok listája vesszővel elválasztva Bármelyik Sztring Arányok listája vesszővel elválasztva
Rétegzett felosztás testreszabott deduktáláshoz Bármelyik Igaz/hamis típus Hamis Annak jelzése, hogy a felosztás testreszabott deduktálás-hozzárendelések szerint van-e rétegzve
Rétegzési kulcs oszlopa a testreszabott deduktálás-hozzárendeléshez Bármelyik ColumnSelection (Oszlopválasztás) A személyre szabott deduktálás-hozzárendelések rétegzési kulcsát tartalmazza
Adja meg, hogy melyikből kell mintát venni >=1 Egész szám 1 A mintavételhez kiválasztott detektálás indexét tartalmazza
A kiválasztott összecsukás kiegészítése Bármelyik Logikai Hamis Válassza ki a megadott összecsukás kiegészítését
Mintavételezési sebesség Bármelyik Float 0,01 Mintavételezési arány kiválasztása
Véletlenszerű mag mintavételezéshez Bármelyik Egész szám 0 Kezdő érték megadása a véletlenszerű számgenerátorhoz mintavételezéshez
Rétegzett felosztás mintavételezéshez Bármelyik Igaz/Hamis Hamis Annak jelzése, hogy a felosztás mintavételezésre van-e rétegzve
Rétegzési kulcs oszlopa mintavételezéshez Bármelyik ColumnSelection (Oszlopválasztás) Rétegzési kulcsot tartalmaz a mintavételezéshez
A kiválasztni kívánt sorok száma >=0 Egész szám 10 Válassza ki azon rekordok maximális számát, amelyek áthaladhatnak a következő modulba

Kimenetek

Név Típus Description
oDataset Adattábla A felosztásból eredő adatkészlet

Lásd még

Minta és felosztás
Adatok felosztása
Metaadatok szerkesztése
Adatok csoportosítása intervallumokba