Příprava dat pro vylepšené strojové učení

Předběžné zpracování a čištění dat jsou důležité úlohy, které je potřeba provést před tím, než je možné datovou sadu použít k trénování modelu. Nezpracovaná data jsou často hlučná a nespolehlivý a můžou chybět hodnoty. Použití těchto dat pro modelování může vést k zavádějícím výsledkům. Tyto úlohy jsou součástí TDSP (Team Datová Věda Process) a obvykle se řídí počátečním zkoumáním datové sady, která se používá ke zjišťování a plánování požadovaného předběžného zpracování. Další informace najdete v části Co je týmový Datová Věda proces?.

Předběžné zpracování a čištění úloh, jako je úloha zkoumání dat, je možné provádět v široké škále prostředí, jako je SQL nebo Hive nebo studio Azure Machine Learning (klasické). Můžete také použít různé nástroje a jazyky, jako je R nebo Python. Kde jsou vaše data uložená a jak jejich formát ovlivňuje tato rozhodnutí. Vzhledem k tomu, že TDSP je iterativní v podstatě, mohou tyto úlohy probíhat v různých krocích pracovního postupu procesu.

Tento článek představuje různé koncepty a úlohy zpracování dat, které je možné provést před nebo po ingestování dat do studio Azure Machine Learning (klasické).

Příklad zkoumání a předběžného zpracování dat provedených uvnitř studio Azure Machine Learning (classic) najdete ve videu a předběžném zpracování dat.

Proč předzpracovat a vyčistit data?

Data z reálného světa se shromažďují z různých zdrojů a procesů a mohou obsahovat nesrovnalosti nebo poškozená data ohrožená kvalitou datové sady. Typické problémy s kvalitou dat, ke kterým dochází, jsou:

  • Neúplná data: Chybí atributy nebo obsahují chybějící hodnoty.
  • Hlučná data: Obsahuje chybné záznamy nebo odlehlé hodnoty
  • Nekonzistentní data: Obsahuje konfliktní záznamy nebo nesrovnalosti.

Údaje o kvalitě jsou předpokladem pro prediktivní modely kvality. Aby se zabránilo uvolňování paměti, uvolnění paměti a zlepšení kvality dat, a proto je nezbytné provést obrazovku stavu dat, aby bylo možné včas odhalit problémy s daty. Musíte se rozhodnout o odpovídajících krocích zpracování a čištění dat.

Jaké jsou typické obrazovky se stavem dat, které se používají?

Obecnou kvalitu dat můžete zkontrolovat kontrolou:

  • Počet záznamů.
  • Počet atributů (nebo funkcí).
  • Datové typy atributů, jako jsou nominální, pořadové nebo souvislé.
  • Počet chybějících hodnot.
  • Pro dobře vytvořená data.
    • Pokud jsou data ve formátu TSV nebo CSV, zkontrolujte, jestli oddělovače sloupců a oddělovače řádků správně oddělují sloupce a čáry.
    • Pokud jsou data ve formátu HTML nebo XML, zkontrolujte, jestli jsou data správně vytvořená na základě příslušných standardů.
    • Analýza může být také nezbytná k extrakci strukturovaných informací z částečně strukturovaných nebo nestrukturovaných dat.
  • Nekonzistentní datové záznamy. Zkontrolujte povolený rozsah hodnot. Pokud například data obsahují průměry bodů známek studenta (GPA), zkontrolujte, jestli jsou gpa v určeném rozsahu, například 0 až 4.

Když zjistíte problémy s daty, proveďte kroky zpracování, například čištění chybějících hodnot, normalizace dat, diskretizace, zpracování textu pro odebrání nebo nahrazení vložených znaků, které můžou mít vliv na zarovnání dat, smíšené datové typy v běžných polích a další.

Azure Machine Učení využívá dobře formátovaná tabulková data. Pokud jsou data již v tabulkové podobě, můžete provést předběžné zpracování dat přímo pomocí studio Azure Machine Learning (classic). Pokud data nejsou v tabulkové podobě, například pokud jsou ve formátu XML, budete možná muset data analyzovat a převést je na tabulkový formulář.

Jaké jsou některé hlavní úlohy při předběžném zpracování dat?

  • Čištění dat: Vyplňte chybějící hodnoty, detekujte a odeberte hlučná data a odlehlé hodnoty.
  • Transformace dat: Normalizuje data, aby se snížily rozměry a šum.
  • Redukce dat: Ukázkové datové záznamy nebo atributy pro snadnější zpracování dat.
  • Diskretizace dat: Převod průběžných atributů na kategorické atributy pro snadné použití s určitými metodami strojového učení.
  • Čištění textu: Odeberte vložené znaky, které by mohly způsobit nesprávné zarovnání dat. Můžou se například vkládat karty do datového souboru odděleného tabulátorem nebo vložené nové řádky, které přeruší záznamy.

Následující části podrobně uvádějí některé z těchto kroků zpracování dat.

Jak řešit chybějící hodnoty?

Pokud chcete pracovat s chybějícími hodnotami, nejprve identifikujte důvod chybějících hodnot. Typické metody zpracování hodnot:

  • Odstranění: Odeberte záznamy s chybějícími hodnotami.
  • Fiktivní nahrazení: Chybějící hodnoty nahraďte fiktivní hodnotou, například neznámou pro hodnoty kategorií nebo 0 pro číselné hodnoty.
  • Nahrazení střední hodnoty: Pokud jsou chybějící data číselná, nahraďte chybějící hodnoty střední hodnotou.
  • Časté nahrazení: Pokud jsou chybějící data zařazená do kategorií, nahraďte chybějící hodnoty nejčastější položkou.
  • Regresní náhrada: Pomocí regresní metody nahraďte chybějící hodnoty regresními hodnotami.

Jak normalizovat data?

Normalizace dat znovu škáluje číselné hodnoty do zadaného rozsahu. Mezi oblíbené metody normalizace dat patří:

  • Normalizace min-max: Lineární transformace dat do rozsahu, například 0 až 1, kde se minimální hodnota škáluje na 0 a maximální hodnota se škáluje na 1.
  • Normalizace skóre Z: Škálujte data na základě střední a směrodatné odchylky. Rozdělí rozdíl mezi daty a průměrem směrodatnou odchylkou.
  • Měřítko desetinných míst: Škálování dat přesunutím desetinné čárky hodnoty atributu

Jak diskretizovat data?

Data mohou být diskretizována převodem souvislých hodnot na nominální atributy nebo intervaly. Můžete použít následující metody:

  • Binning se stejnou šířkou: Rozdělte rozsah všech možných hodnot atributu do N skupin stejné velikosti a přiřaďte hodnoty, které spadají do intervalu s číslem přihrádky.
  • Binning se stejnou výškou: Rozdělte rozsah všech možných hodnot atributu do N skupin, z nichž každý obsahuje stejný počet instancí. Potom přiřaďte hodnoty, které spadají do intervalu s číslem přihrádky.

Jak omezit data?

Existují různé metody, jak zmenšit velikost dat pro snadnější zpracování dat. V závislosti na velikosti dat a doméně můžete použít následující metody:

  • Vzorkování záznamů: Vzorkování datových záznamů a výběr pouze reprezentativní podmnožina z dat.
  • Vzorkování atributů: Vyberte pouze podmnožinu nejdůležitějších atributů z dat.
  • Agregace: Rozdělte data do skupin a uložte čísla pro každou skupinu. Například denní výnosy řetězce restaurací za posledních 20 let se dají agregovat na měsíční výnosy, aby se snížila velikost dat.

Jak vyčistit textová data?

Textová pole v tabulkových datech můžou obsahovat znaky, které ovlivňují zarovnání sloupce nebo hranice záznamů. Vložené karty v souboru odděleném tabulátorem například způsobují nesprávné zarovnání sloupce a vložené nové řádkové znaky přerušují řádky záznamu. Při psaní nebo čtení textu správně zpracujte kódování textu, abyste zabránili ztrátě informací, neúmyslně zavedli nečitelné znaky (například null) nebo negativně ovlivnili analýzu textu. Možná budete muset pečlivě analyzovat a upravovat data. Textová pole můžete vyčistit, abyste zajistili správné zarovnání a extrahování strukturovaných dat z nestrukturovaných nebo částečně strukturovaných dat.

Zkoumání dat poskytuje včasné zobrazení dat. V tomto kroku můžete odhalit mnoho problémů s daty a použít odpovídající metody pro řešení těchto problémů. Je důležité klást otázky, například jaký je zdroj problému a jak byl problém zaveden. Tento proces vám také pomůže při rozhodování o krocích zpracování dat, které je potřeba provést k jejich vyřešení. Pokud chcete určit prioritu úsilí o zpracování dat, můžete identifikovat konečné případy použití a osoby.

Reference

Dolování dat: Koncepty a techniky, Third Edition, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber a Jian Pei

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit nepublikované profily LinkedIn, přihlaste se na LinkedIn.

Další kroky