Adatok felosztása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Egy adatkészlet sorait két különálló készletre particionálta

Kategória: Adatátalakítás / Minta és felosztás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a témakör azt ismerteti, hogyan használható az Adatok felosztása modul a Machine Learning Studióban egy adathalmaz két különálló készletre való felosztására.

Ez a modul különösen akkor hasznos, ha az adatokat betanító és tesztelési készletekre kell szétválasztani. Az adatok oszlott módját is testre szabhatja. Egyes lehetőségek támogatják az adatok véletlenszerűsítését; mások egy adott adattípushoz vagy modelltípushoz vannak szabva.

Adatok felosztásának konfigurálása

Tipp

A felosztási mód kiválasztása előtt olvassa el az összes lehetőséget a szükséges felosztási típus meghatározásához. Ha módosítja a felosztási módot, az összes többi beállítás alaphelyzetbe állítható.

  1. Adja hozzá a Split Data (Adatok felosztása ) modult a kísérlethez a Studióban. Ezt a modult az Adatátalakítás alatt, a Minta és a Felosztás kategóriában találja .

  2. Felosztási mód: Válassza ki a következő módok egyikét a rendelkezésre álló adatok típusától és felosztási módjától függően. Minden felosztási mód különböző beállításokkal rendelkezik. A részletes utasításokért és példákért kattintson az alábbi témakörökre.

    • Sorok felosztása: Akkor használja ezt a lehetőséget, ha csak két részre szeretné osztani az adatokat. Megadhatja az egyes felosztási arányban elosztani kívánt adatok százalékos arányát, de alapértelmezés szerint az adatok 50–50 arányban vannak elosztva.

      Az egyes csoportok sorait véletlenszerűen is ki lehet válogatni, és rétegzett mintavételezést használhat. A rétegzett mintavételezésben egyetlen adatoszlopot kell kiválasztania, amelynek az értékeit egyenlően szeretné feloszlatni a két eredményadatkészlet között.

    • Ajánló felosztása: Mindig válassza ezt a lehetőséget, ha az adatokat ajánló rendszerben való használatra készíti elő. Segít betanító és tesztelési csoportokra osztani az adatkészleteket, miközben biztosítja, hogy a fontos értékek, például a felhasználó-elem párok vagy az értékelések egyenlően oszlanak meg a csoportok között.

    • Reguláriskifejezés-felosztás: Akkor válassza ezt a lehetőséget, ha egy érték egyetlen oszlopának tesztelésével el szeretné osztani az adatkészletet.

      Ha például hangulatelemzést keres, ellenőrizheti egy adott terméknév jelenlétét egy szövegmezőben, majd feloszthatja az adathalmazt sorokra a cél terméknévvel, és azok nélkül.

    • Relatívkifejezés-felosztás: Ezt a beállítást akkor használja, ha egy feltételt szeretne alkalmazni egy számoszlopra. A szám lehet egy dátum-/időmező, egy életkort vagy dollárban megadott összegeket tartalmazó oszlop, vagy akár százalék. Előfordulhat például, hogy az adathalmazt az elemek költségétől függően szeretné elosztani, kortartományok szerint csoportosítani a személyeket, vagy naptári dátum szerint elosztani az adatokat.

Követelmények

  • Az Adatok felosztása egyszerre legfeljebb két adatkészletet hozhat létre, és ezeknek a készleteknek kizárólagosnak kell lennie.

    Ezért ha egy összetett felosztási folyamat több feltételt és kimenetet tartalmaz, előfordulhat, hogy több Adatfelosztó modult is össze kell láncolnunk .

    Másik lehetőségként használhatja a CASE utasítást és az Apply SQL Transformation (Átalakítás alkalmazása) modult.

  • Ez a modul nem töröl adatokat, és nem távolítja el azokat az adatkészletből; Csak elosztja az adatokat a modul első és második kimenete között megadottak szerint.

  • Az adatokat egy ajánló rendszer adatainak felosztása további követelményekkel is jár. Az adatkészlet általában csak felhasználó-elem párból vagy felhasználóelem-minősítési tripla értékből állhat. Ezért az Adatok felosztása modul nem működik háromnál több oszlopot tartalmazó adatkészletekkel, hogy elkerülje a funkciótípus-adatokkal való félreértéseket. Ha az adatkészlet túl sok oszlopot tartalmaz, a következő hibaüzenet jelenhet meg:

    0022-es hiba: A bemeneti adatkészlet kiválasztott oszlopainak száma nem egyenlő x-szel

    Áthidaló megoldásként használhatja az Adatkészlet oszlopainak kijelölése lehetőséget néhány oszlop eltávolításához, majd később hozzáadhatja az oszlopokat az Oszlopok hozzáadása használatával. Ha az adatkészlet számos olyan jellemzővel rendelkezik, amelyek a modellben használni kívántak, ossza el az adatkészletet egy másik lehetőséggel, és a Modell betanítása használatával, és ne a Matchbox Ajánló betanítása használatával betanítsa a modellt.

Példák

Példák az Adatok felosztása modul használatára: Azure AI Gallery:

  • Bináris besorolás keresztellenőrzése: Felnőtt adatkészlet: A rendszer 20%-os mintavételezési arányt alkalmaz egy kisebb véletlenszerűen mintavétellel vett adatkészlet létrehozásához. (Az eredeti néprajzi adatkészlet több mint 30 000 sorral rendelkezik, a betanítás adathalmazának száma körülbelül 6500). A rendszer megtisztítja az adatkészletet a hiányzó értékektől, majd továbbküldi öt különböző modellnek a betanítás és keresztellenőrzés céljából.

Technikai megjegyzések

A következő követelmények vonatkoznak az adatok felosztásának összes alkalmazására:

  • A bemeneti adatkészletnek legalább két sort kell tartalmaznie, különben hiba történik.
  • Ha a kívánt számú sort adja meg, akkor a megadott számnak pozitív egész számnak kell lennie, és a számnak kisebbnek kell lennie, mint az adathalmaz sorainak teljes száma.
  • Ha százalékos értékként ad meg számot, vagy ha a "%" karaktert tartalmazó sztringet használ, a rendszer százalékos értékként értelmezi az értéket. Minden százalékos értéknek a tartományon belül kell lennie (0, 100), a 0 és a 100 értékeket nem beleértve.
  • Ha olyan számot vagy százalékot ad meg, amely egynél kisebb lebegőpontos szám, és nem használja a százalékjelet (%), a rendszer arányos értékként értelmezi a számot.
  • Ha a lehetőséget egy rétegzett felosztáshoz használja, a kimeneti adatkészletek tovább oszthatók alcsoportokra egy rétegoszlop kiválasztásával.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Felosztani szükséges adatkészlet

Modulparaméterek

Név Típus Tartomány Választható Description Alapértelmezett
Felosztási mód Felosztási mód Sorok felosztása, ajánló felosztása, reguláris kifejezés vagy relatív kifejezés Kötelező Sorok felosztása Az adatkészlet felosztási módszerének kiválasztása

Kimenetek

Név Típus Description
Eredményadatkészlet1 Adattábla A kijelölt sorokat tartalmazó adatkészlet
Eredményadatkészlet2 Adattábla Az összes többi sort tartalmazó adatkészlet

Lásd még

Minta és felosztás
Partíció és minta
A–Z modullista