Adatok felosztása

Egy adatkészlet sorainak felosztása két különálló készletbe

Kategória: adatátalakítás/minta és felosztás

Megjegyzés

Akövetkezőkre vonatkozik: Machine learning Studio (klasszikus)

Ez a tartalom csak a Studióra vonatkozik (klasszikus). Hasonló drag and drop-modulok lettek hozzáadva a Azure Machine Learning Designerhez. Ebben a cikkben további információt talál a két verzió összehasonlításávalkapcsolatban.

Modul áttekintése

Ez a témakör azt ismerteti, hogyan lehet az adathalmazt két különálló készletre osztani a Azure Machine Learning Studio (klasszikus) Adatfelosztási moduljának használatával.

Ez a modul különösen akkor hasznos, ha a képzési és tesztelési csoportokban külön kell elkülönítenie az adategységeket. Testre szabhatja az adatmegosztás módját is. Egyes lehetőségek támogatják az adatvéletlenszerűség használatát; mások egy adott adattípus vagy modell típusára vannak igazítva.

A felosztott adathalmazok konfigurálása

Tipp

A felosztási mód kiválasztása előtt olvassa el az összes lehetőséget, hogy meghatározza a szükséges felosztás típusát. Ha megváltoztatja a felosztási módot, az összes többi beállítás alaphelyzetbe állítható.

  1. Adja hozzá az Adatfelosztási modult a kísérlethez a Studióban. Ez a modul az adatátalakítás alatt, a minta és a felosztás kategóriában található.

  2. Felosztási mód: válasszon az alábbi módok közül, attól függően, hogy milyen típusú adattípussal rendelkezik, és hogyan szeretné osztani. Az egyes felosztási módok különböző beállításokkal rendelkeznek. Részletes útmutatást és példákat a következő témakörökben talál.

    • Sorok felosztása: akkor használja ezt a beállítást, ha csak két részre szeretné osztani az adatterületet. Megadhatja, hogy az egyes felosztásokban hány adatmennyiség legyen elhelyezve, de alapértelmezés szerint az adatmennyiség 50-50.

      Az egyes csoportokban lévő sorok kijelölését, valamint rétegzett mintavételezést is használhat. Rétegzett mintavételezés esetén ki kell választania egy olyan adatoszlopot, amelynek az értékeit egyenlően kell kiosztani a két eredmény-adatkészletek között.

    • Ajánló felosztása: mindig válassza ezt a lehetőséget, ha az adatelőkészítést egy ajánló rendszerbe kívánja használni. Segít az adatkészleteknek a képzési és tesztelési csoportokba való felosztásában, miközben biztosítja, hogy a fontos értékek, például a felhasználói elemek párok vagy a minősítések egyenlő arányban legyenek elosztva a csoportok között.

    • Reguláris kifejezés felosztása: akkor válassza ezt a lehetőséget, ha az adatkészletet egy érték egyetlen oszlopának tesztelésével szeretné osztani.

      Ha például a hangulat elemzését végezheti el, akkor érdemes megkeresni egy adott terméknév jelenlétét egy szövegmezőben, majd az adatkészletet a célként megadott terméknév és a nélküli sorokra osztani.

    • Relatív kifejezés felosztása: akkor használja ezt a beállítást, ha egy feltételt egy Number oszlopra kíván alkalmazni. A szám lehet dátum/idő mező, az Age vagy a dollár összegét tartalmazó oszlop, vagy akár egy százalék is. Előfordulhat például, hogy az adatkészletet az elemek díjszabása alapján szeretné felosztani, a személyeket korcsoport szerint csoportosítani, vagy az adatokat egy naptári dátum alapján elkülönítve.

Követelmények

  • A felosztott adatokat egyszerre legfeljebb két adatkészlet lehet létrehozni, és ezeknek a készleteknek kizárólagosnak kell lenniük.

    Ezért ha több feltételt és kimenetet tartalmazó összetett felosztással rendelkezik, lehet, hogy több felosztott adatmodult kell összekapcsolnia.

    Alternatív megoldásként használhat egy CASE utasítást és az SQL-transzformációs modult is.

  • Ez a modul nem törli az adatokat, és nem távolítja el az adatkészletből. csak a modul első és második kimenete között megadott adatokat osztja el.

  • Egy ajánlórendszer adatfelosztása további követelményekkel jár. Általánosságban elmondható, hogy az adatkészlet csak a felhasználó-elem párokból vagy a felhasználó-elem-minősítési tripla elemekből állhat. Ezért a felosztott adatmodul nem dolgozhat olyan adatkészleteken, amelyek több mint három oszlopból állnak, így elkerülhető a szolgáltatás típusú adatmennyiséggel való összetévesztés. Ha az adatkészlet túl sok oszlopot tartalmaz, előfordulhat, hogy a következő hibaüzenet jelenik meg:

    Hiba 0022: a bemeneti adatkészlet kiválasztott oszlopainak száma nem egyenlő x

    Megkerülő megoldásként az adatkészletben lévő oszlopok kiválasztása lehetőséggel eltávolíthat néhány oszlopot, majd később hozzáadhatja az oszlopokat az Oszlopok hozzáadásaparanccsal. Azt is megteheti, hogy ha az adatkészlet számos olyan funkciót tartalmaz, amelyeket használni szeretne a modellben, ossza el az adatkészletet egy másik lehetőséggel, és tanítsa be a modellt a betanítási modell használatával a Matchbox-ajánlóhelyett.

Példák

Az Adatfelosztási modul használatára vonatkozó példákért tekintse meg a Azure AI Gallery:

  • Több ellenőrzés a bináris besoroláshoz: felnőtt adatkészlet: a rendszer 20%-os mintavételi sebességet alkalmaz egy kisebb, véletlenszerűen kiválasztott adatkészlet létrehozásához. (Az eredeti népszámlálási adatkészlet több mint 30 000 sort tartalmaz; a betanítási adatkészlet körülbelül 6500). A rendszer megtisztítja az adatkészletet a hiányzó értékekhez, majd öt különböző modellt továbbít a betanításhoz és a több érvényesítéshez.

Technikai megjegyzések

Az alábbi követelmények vonatkoznak a felosztott adatösszes használatára:

  • A bemeneti adatkészletnek legalább két sort kell tartalmaznia, vagy hiba keletkezik.
  • Ha a kívánt számú sort adja meg, a megadott számnak pozitív egész számnak kell lennie, és a számnak kisebbnek kell lennie, mint az adatkészlet sorainak teljes száma.
  • Ha százalékként ad meg egy számot, vagy ha a "%" karaktert tartalmazó karakterláncot használ, a rendszer az értéket százalékként értelmezi. Az összes százalékos értéknek a tartományon (0, 100) belül kell lennie, nem tartalmazza a 0 és a 100 értéket.
  • Ha olyan számot vagy százalékértéket ad meg, amely egy lebegőpontos számnál kisebb, és nem használja a százalék szimbólumot (%), a számot arányos értékként értelmezi a rendszer.
  • Ha egy rétegzett felosztási lehetőséget használ, a kimeneti adatkészletek tovább oszthatók alcsoportokba egy rétegbeli oszlop kiválasztásával.

Várt bemenetek

Név Típus Leírás
Adathalmaz Adattábla Felosztani kívánt adatkészlet

Modul paramétereinek

Név Típus Tartomány Választható Leírás Alapértelmezett
Felosztási mód Felosztási mód Sorok felosztása, ajánlat felosztása, reguláris kifejezés vagy relatív kifejezés Kötelező Sorok felosztása Válassza ki az adatkészlet felosztásának módszerét

Kimenetek

Név Típus Leírás
Eredmények DataSet1 elemet Adattábla Kijelölt sorokat tartalmazó adatkészlet
Eredmények dataset2 Adattábla Az összes többi sort tartalmazó adatkészlet

Lásd még

Minta és felosztás
Partíció és minta
A-Z modulok listája