Adatok előkészítése a továbbfejlesztett gépi tanuláshoz

Cikk
03/05/2024

Az adatok előfeldolgozása és tisztítása olyan fontos feladatok, amelyeket az adatkészletek modellbetanításhoz való használata előtt kell elvégezni. A nyers adatok gyakran zajosak és megbízhatatlanok, és hiányoznak az értékek. Az ilyen adatok modellezéshez való használata félrevezető eredményeket eredményezhet. Ezek a feladatok a Team Adattudomány Process (TDSP) részét képezik, és általában a szükséges előfeldolgozás felderítéséhez és megtervezéséhez használt adathalmaz kezdeti feltárását követik. További információ: Mi a csapat Adattudomány folyamat?.

Az előfeldolgozási és tisztítási feladatok, például az adatfeltárási feladat, számos környezetben elvégezhetők, például az SQL vagy a Hive vagy az Azure Machine Tanulás Studio (klasszikus). Különböző eszközöket és nyelveket is használhat, például R-t vagy Pythont. Az adatok tárolási helye és formátuma hatással van ezekre a döntésekre. Mivel a TDSP iteratív jellegű, ezek a feladatok a folyamat munkafolyamatának különböző lépésein is elvégezhetők.

Ez a cikk különböző adatfeldolgozási fogalmakat és feladatokat mutat be, amelyek az adatok Azure Machine Tanulás Studióba való betöltése előtt vagy után (klasszikus) végezhetők el.

Az Azure Machine Tanulás Studióban (klasszikus) végzett adatfeltárást és előfeldolgozást bemutató példáért tekintse meg az Adatok előfeldolgozása című videót.

Miért érdemes előfeldolgozást és adattisztítást?

A valós adatok különböző forrásokból és folyamatokból származnak, és olyan szabálytalanságokat vagy sérült adatokat tartalmazhatnak, amelyek veszélyeztetik az adathalmaz minőségét. A felmerülő tipikus adatminőségi problémák a következők:

Hiányos adatok: Nincsenek attribútumok vagy hiányzó értékeket tartalmaznak
Zajos adatok: Hibás rekordokat vagy kiugró értékeket tartalmaz
Inkonzisztens adatok: Ütköző rekordokat vagy eltéréseket tartalmaz

A minőségi adatok a minőségi prediktív modellek előfeltételei. A szemétbe kerülés, a szemét kigyűjtése és az adatminőség javítása, és ezáltal a modell teljesítményének elkerülése érdekében elengedhetetlen, hogy az adatállapot-képernyőt az adatokkal kapcsolatos problémák korai észleléséhez végezze el. Meg kell határoznia a megfelelő adatfeldolgozási és tisztítási lépéseket.

Milyen tipikus adatállapot-képernyőket használnak?

Az adatok általános minőségét a következő ellenőrzéssel ellenőrizheti:

A rekordok száma.
Az attribútumok (vagy szolgáltatások) száma.
Az attribútum adattípusai, például névleges, sorszámos vagy folyamatos.
A hiányzó értékek száma.
Jól formázott adatokhoz.
- Ha az adatok TSV vagy CSV formátumúak, ellenőrizze, hogy az oszlopelválasztók és a vonalelválasztók megfelelően választják-e el az oszlopokat és a sorokat.
- Ha az adatok HTML- vagy XML-formátumúak, ellenőrizze, hogy az adatok megfelelően formázottak-e a megfelelő szabványok alapján.
- Elemzésre is szükség lehet a strukturált információk félig strukturált vagy strukturálatlan adatokból való kinyeréséhez.
Inkonzisztens adatrekordok. Ellenőrizze, hogy engedélyezett-e az értéktartomány. Ha például az adatok tanulói pontátlagokat (GPA-kat) tartalmaznak, ellenőrizze, hogy a GPA-k a kijelölt tartományban vannak-e, például 0 és 4 között.

Ha problémákat tapasztal az adatokkal kapcsolatban, hajtsa végre a feldolgozási lépéseket, például törölje a hiányzó értékeket, az adat normalizálását, a diszkrétítést, a szövegfeldolgozást, hogy eltávolítsa vagy lecserélje a beágyazott karaktereket, amelyek hatással lehetnek az adatok igazítására, a vegyes adattípusokra a közös mezőkben és másokban.

Az Azure Machine Tanulás jól formázott táblázatos adatokat használ fel. Ha az adatok már táblázatos formában találhatók, az adatok előfeldolgozását közvetlenül az Azure Machine Tanulás Studióval (klasszikus) végezheti el. Ha az adatok nem táblázatos formában találhatók, például XML formátumban, előfordulhat, hogy az adatokat elemeznie kell, hogy táblázatos formává alakítsa az adatokat.

Mik az adatok előfeldolgozásának főbb feladatai?

Adattisztítás: Töltse ki a hiányzó értékeket, észlelje és távolítsa el a zajos adatokat és kiugró értékeket.
Adatátalakítás: Az adatok normalizálása a dimenziók és a zaj csökkentése érdekében.
Adatcsökkentés: Adatrekordok vagy attribútumok mintája a könnyebb adatkezelés érdekében.
Adatelkülönítés: A folyamatos attribútumok kategorikus attribútumokká alakítása bizonyos gépi tanulási módszerekkel való egyszerű használat érdekében.
Szövegtisztítás: Távolítsa el a beágyazott karaktereket, amelyek adatmegfelelőséghez vezethetnek. Ezek lehetnek például tabulátorral elválasztott adatfájlba ágyazott fülek, vagy olyan új sorok, amelyek rekordokat szegnek meg.

Az alábbi szakaszok az adatfeldolgozás néhány lépését ismertetik.

Hogyan kezelhetők a hiányzó értékek?

A hiányzó értékek kezeléséhez először azonosítsa a hiányzó értékek okát. Jellemzően hiányzó értékkezelési módszerek a következők:

Törlés: Távolítsa el a hiányzó értékeket tartalmazó rekordokat.
Dummy helyettesítés: Cserélje le a hiányzó értékeket egy próbaértékre, például kategorikus értékek esetében ismeretlenre , numerikus értékek esetén pedig 0-ra .
Középérték helyettesítése: Ha a hiányzó adatok numerikusak, cserélje le a hiányzó értékeket a középértékre.
Gyakori helyettesítés: Ha a hiányzó adatok kategorikusak, cserélje le a hiányzó értékeket a leggyakoribb elemre.
Regressziós helyettesítés: A hiányzó értékek regressziós értékekre való lecseréléséhez használjon regressziós módszert.

Hogyan normalizálhatja az adatokat?

Az adat normalizálása a numerikus értékeket egy megadott tartományra skálázhatja át. A népszerű adat normalizálási módszerek a következők:

Minimális normalizálás: Lineárisan alakítsa át az adatokat egy olyan tartományba, például 0-ról 1-re, ahol a minimális érték 0-ra van skálázva, a maximális érték pedig 1-re van skálázva.
Z-pontszám normalizálása: Adatok skálázása középérték és szórás alapján. Ossza el az adatok és a szórás középértékének különbségét.
Decimális skálázás: Az adatok skálázása az attribútumérték tizedespontjának áthelyezésével.

Hogyan lehet megkülönböztetni az adatokat?

Az adatok megkülönböztethetők a folyamatos értékek névleges attribútumokká vagy intervallumokká alakításával. A következő módszereket használhatja:

Egyenlő szélességű binning: Ossza el egy attribútum összes lehetséges értékének tartományát azonos méretű N csoportokra, és rendelje hozzá a raktárhelybe eső értékeket a bin számmal.
Egyenlő magasságú tároló: Az attribútumok összes lehetséges értékének tartományát oszd N csoportokra, amelyek mindegyike azonos számú példányt tartalmaz. Ezután rendelje hozzá a raktárhelybe eső értékeket a raktárhelyszámmal.

Hogyan csökkenthetők az adatok?

Az adatok méretének csökkentésére többféle módszer is létezik a könnyebb adatkezelés érdekében. Az adatmérettől és a tartománytól függően a következő módszereket alkalmazhatja:

Rekordmintavétel: Mintavételezés az adatrekordokból, és csak a reprezentatív részhalmaz kiválasztása az adatokból.
Attribútum-mintavételezés: Az adatok legfontosabb attribútumainak csak egy részhalmazát válassza ki.
Összesítés: Ossza az adatokat csoportokra, és tárolja az egyes csoportok számát. Egy étteremlánc napi bevételi száma például az elmúlt 20 évben havi bevételre összesíthető az adatok méretének csökkentése érdekében.

Szöveges adatok tisztítása

A táblázatos adatok szövegmezői tartalmazhatnak olyan karaktereket, amelyek befolyásolják az oszlopok igazítását vagy a rekordhatárokat. A tabulátorral tagolt fájlok beágyazott lapjai például oszlopelválasztást okoznak, és a beágyazott új sorkarakterek rekordvonalakat törnek meg. Szöveg írása vagy olvasása közben megfelelően kezelje a szövegkódolást az információvesztés megakadályozása érdekében, véletlenül olvashatatlan karaktereket (például null értékeket) vagy negatívan befolyásolja a szöveg elemzését. Előfordulhat, hogy gondosan elemeznie és szerkesztenie kell az adatokat. A szövegmezőket megtisztíthatja a megfelelő igazítás érdekében, és strukturált adatokat nyerhet ki strukturálatlan vagy félig strukturált adatokból.

Az adatfeltárás korai betekintést nyújt az adatokba. Ebben a lépésben számos adatproblémát feltárhat, és megfelelő módszereket alkalmazhat a problémák megoldására. Fontos kérdéseket feltenni, például azt, hogy mi a probléma forrása, és hogyan vezették be a problémát. Ez a folyamat segít eldönteni azokat az adatfeldolgozási lépéseket is, amelyeket meg kell tenni a megoldásukhoz. Az adatfeldolgozási erőfeszítések rangsorolásához azonosíthatja a végső használati eseteket és személyeket.

Hivatkozások

Adatbányászat: Fogalmak és technikák, Harmadik kiadás, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber és Jian Pei

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Mark Tabladillo | Vezető felhőmegoldás-tervező

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

Adatok előkészítése a továbbfejlesztett gépi tanuláshoz

Miért érdemes előfeldolgozást és adattisztítást?

Milyen tipikus adatállapot-képernyőket használnak?

Mik az adatok előfeldolgozásának főbb feladatai?

Hogyan kezelhetők a hiányzó értékek?

Hogyan normalizálhatja az adatokat?

Hogyan lehet megkülönböztetni az adatokat?

Hogyan csökkenthetők az adatok?

Szöveges adatok tisztítása

Hivatkozások

Közreműködők

Következő lépések

Visszajelzés

Visszajelzés

További források

Adatok előkészítése a továbbfejlesztett gépi tanuláshoz

Miért érdemes előfeldolgozást és adattisztítást?

Milyen tipikus adatállapot-képernyőket használnak?

Mik az adatok előfeldolgozásának főbb feladatai?

Hogyan kezelhetők a hiányzó értékek?

Hogyan normalizálhatja az adatokat?

Hogyan lehet megkülönböztetni az adatokat?

Hogyan csökkenthetők az adatok?

Szöveges adatok tisztítása

Hivatkozások

Közreműködők

Következő lépések

Kapcsolódó erőforrások

Visszajelzés

Visszajelzés

További források