Adatátalakítás – Minta és felosztás

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk a Machine Learning Studio (klasszikus) moduljait ismerteti, amelyek particionálhatóak vagy mintaadatok.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Az adatkészletek felosztása és mintavételezése egyaránt fontos feladat a gépi tanulásban. Gyakori gyakorlat például, hogy az adatokat betanító és tesztelési készletekre osztjuk, hogy segítsünk kiértékelni egy modellt egy holdout-adatkészlet alapján. A mintavételezés a betanítás big data egyre fontosabb, hogy az osztályok megfelelő eloszlása legyen a betanítás adataiban. A mintavételezés azt is biztosítja, hogy a szükségesnél több adatot ne feldolgozásakor.

A Machine Learning Studio (klasszikus) moduljaival testre szabhatja a felosztási vagy mintaadatkészletek módját:

  • A betanítás adatainak szűrése az adatok egy attribútuma alapján.
  • Végezzen rétegzett mintavételezést, hogy az osztályváltozót egyenlően ossza el n számú csoport között.
  • Ossza fel a forrásadatokat egy betanítási és tesztelési adatkészletre egyéni arány használatával.
  • Reguláris kifejezések alkalmazása az adatokra az érvénytelen értékek kiszűréséhez.

A megfelelő művelet kiválasztása: Felosztás vagy mintavételezés

Machine Learning Studio (klasszikus) két modult biztosít, amelyek feladatokat tartalmaznak. A modulok hasonlónak hangzanak, de különböző felhasználási módokon használhatók, és kiegészítő funkciókat biztosítanak. Valószínű, hogy mindkét modult használni fogja egy kísérletben, hogy a megfelelő mennyiségű és megfelelő adategyenletet tudja kihozni.

Ezután összehasonlítjuk a Split Data (Adatok felosztása) modult és a Partition (Partíció) és a Sample (Minta) modult azzal, hogy megosztjuk, hogy az egyes modulok mely feladatokhoz használatosak.

Az Adatok felosztása modul használati adatai

  • Ossza fel az adatokat két csoportra. Használja az Adatok felosztása modult . A modul pontosan két felosztást állít elő az adatokból. Megadhatja az adatok felosztásának feltételét és az egyes részkészletekbe bevetni kívánt adatok arányait. Az Adatok felosztása mindig menti az adatoknak azt a részkészletét, amely nem felel meg a feltételeknek.
  • A címkeértékeket egyenlően osztja ki az adatkészletek számára. A megadott oszlop alapján való rétegzés beállítását mindkét modul támogatja. Ha azonban két adatkészletet szeretne létrehozni, és leginkább a címkeoszlop érdekli, az Adatok felosztása modul egy gyors megoldás.

Példa az Adatok felosztása modulra

Tegyük fel, hogy egy nagy méretű adatkészletet importált egy CSV-fájlból. Az adatkészlet az ügyfelek demográfiai adatait tartalmazza. Különböző modelleket szeretne létrehozni a különböző országokban lévő ügyfelek számára, ezért úgy dönt, hogy az oszlop értékével osztja szét az Country-Region adatokat. A feladat végrehajtásához a következő lépéseket kell végrehajtania:

  1. Adja hozzá az Adatok felosztása modult, majd adjon meg egy kifejezést a mezőben Country-Region . Az adatok fennmaradó része elérhető a másodlagos kimeneten.
  2. Adja hozzá az Adatok felosztása modul egy másik példányát .
  3. Ismételje meg az 1. és a 2. lépést. Minden iterációhoz adjon meg egy másik országot a kifejezésben.

Az Adatok felosztása modul szöveges adatokhoz és numerikus adatokhoz is támogatja a reguláris kifejezéseket és a relatív kifejezéseket is.

Az Adatok felosztása modul kifinomult funkciókat is biztosít, amelyek segítségével speciális adatkészleteket oszthat el. A funkció használatával javaslati modelleket hozhat létre, és előrejelzéseket hozhat létre.

A Partíció és minta modul felhasználása

  • Mintavételezés. Mindig használja a Partition (Partíció) és a Sample (Minta) modult . A modul több testre szabható mintavételezési módszert biztosít, beleértve a rétegzett mintavételezés számos beállítását.
  • Esetek hozzárendelése több csoporthoz. A Particionálás ésminta modulban használja a Hozzárendelés a deduktáláshoz vagy a Deduktálás lehetőség választását .
  • Az adatoknak csak egy részkészletét adja vissza. Használja a Partíció és minta modult . A modul megadja a megadott részkészletet az elsődleges kimeneten. A fennmaradó adatok egy másodlagos kimeneten érhetők el.
  • Egy adatkészletnek csak az első 2000 sorát kell lekérte. Használja a Partíció és minta modult . Válassza a Head (Fej) lehetőséget. Ez különösen akkor hasznos, ha új kísérletet tesztel, és egy munkafolyamat rövid kísérletét szeretné futtatni.

Példa a Partíció és minta modulra

A Partíció és minta modul az adatok több partícióját is létrehozhatja, nem csak kettőt. Ugyanakkor különböző mintavételezési műveleteket is végrehajthat.

Tegyük fel például, hogy csak az adatok 10%-át kell lehozni, ugyanakkor gondoskodnia kell arról, hogy a célattribútum eloszlása ugyanaz, mint a forrásadatokban. A feladat végrehajtásához a következő lépéseket kell végrehajtania:

  1. Adja hozzá a Partition (Partíció) és a Sample (Minta) modult.
  2. Válassza a Mintavételezési módot, majd adja meg a 10%-ot.
  3. Válassza ki a rétegzett mintavételezési lehetőséget, majd válassza ki a célattribútumot tartalmazó oszlopot.

Ha nem kell minden adatot megtartania, használja a Partition (Partíció) és a Sample (Minta) modult . A fennmaradó adatok továbbra is jelen vannak a munkaterületen, de a kísérlet részeként nem kell tovább feldolgozni őket.

  • A mintában található ritka esetek számának növelése vagy a célértékek esetének újraegyensúlyozása: Használja az SMOTE modult .
  • A dimenziócsökkentést az adatterületet legjobban képviselő jellemzők kombinációjának megkeresével végezheti el: Használja a Fő összetevő elemzése modult .
  • Kompakt funkciókat hozhat létre a funkciók és a darabszámok elemzése alapján: A Tanulás a Counts (Darabszámok) modullal.
  • Nézet vagy leképezés létrehozása csak a megadott oszlopok használatával; oszlopok eltávolítása vagy elrejtése egy adatkészletből: Használja az Adatkészlet oszlopainak kijelölése és az Átalakítás SQL modulokat.
  • Összetettebb adatszűrők, csoportosítások vagy átalakítások alkalmazása: Használja az R-szkript végrehajtása és az Átalakítás SQL modulokat.

Modulok listája

Ez a kategória a következő modulokat tartalmazza:

  • Partíció és minta: Mintavételezés alapján több partíciót hoz létre egy adatkészletből.
  • Adatok felosztása: Egy adatkészlet sorait két különálló készletre particionálja.

Lásd még