Výběr funkcí na základě filtrů

Tento článek popisuje, jak používat komponentu Výběr funkcí na základě filtru v návrháři služby Azure Machine Learning. Tato komponenta vám pomůže identifikovat sloupce ve vstupní datové sadě, které mají největší prediktivní výkon.

Obecně platí, že výběr funkce odkazuje na proces použití statistických testů na vstupy vzhledem k zadanému výstupu. Cílem je určit, které sloupce jsou pro výstup prediktivnější. Komponenta Výběr funkce na základě filtru poskytuje několik algoritmů výběru funkcí, ze které si můžete vybrat. Komponenta zahrnuje korelační metody, jako jsou Pearsonova korelace a hodnoty chí-kvadvad.

Při použití komponenty Výběr funkce na základě filtru zadáte datovou sadu a identifikujete sloupec, který obsahuje popisek nebo závislou proměnnou. Potom určíte jednu metodu, která se má použít při měření důležitosti funkce.

Komponenta vypíše datovou sadu, která obsahuje nejlepší sloupce funkcí seřazené podle prediktivního výkonu. Výstupem jsou také názvy funkcí a jejich skóre z vybrané metriky.

Co je výběr funkce na základě filtru

Tato komponenta pro výběr funkce se nazývá "na základě filtru", protože k vyhledání irelevantních atributů používáte vybranou metriku. Potom z modelu vyfiltrujete redundantní sloupce. Zvolíte jednu statistickou míru, která vyhovuje vašim datům, a komponenta vypočítá skóre pro každý sloupec funkce. Sloupce jsou vráceny seřazené podle jejich skóre funkcí.

Výběrem správných funkcí můžete potenciálně zlepšit přesnost a efektivitu klasifikace.

K sestavení prediktivního modelu se obvykle používají jenom sloupce s nejlepším skóre. Sloupce se špatným skóre výběru funkcí je možné ponechat v datové sadě a při vytváření modelu je ignorovat.

Jak vybrat metriku výběru funkce

Komponenta Filter-Based Feature Selection (Výběr funkce) poskytuje různé metriky pro posouzení informační hodnoty v jednotlivých sloupcích. Tato část obsahuje obecný popis jednotlivých metrik a jejich použití. Další požadavky na používání jednotlivých metrik najdete v technických poznámkách a v pokynech ke konfiguraci jednotlivých komponent.

  • Pearsonova korelace

    Pearsonova korelační statistika neboli Pearsonův korelační koeficient se ve statistických modelech označuje také jako r hodnota. Pro jakékoli dvě proměnné vrátí hodnotu, která označuje sílu korelace.

    Pearsonův korelační koeficient se vypočítá tak, že vezme kovarianci dvou proměnných a vydělí součinem jejich směrodatných odchylek. Změny měřítka v obou proměnných neovlivňují koeficient.

  • Čchi čtvercové

    Dvoucestný test chí-kvadrat je statistická metoda, která měří, jak blízko jsou očekávané hodnoty ke skutečným výsledkům. Metoda předpokládá, že proměnné jsou náhodné a čerpají se z odpovídajícího vzorku nezávislých proměnných. Výsledná statistika chí-kvadr označuje, jak daleko jsou výsledky od očekávaného (náhodného) výsledku.

Tip

Pokud potřebujete jinou možnost pro vlastní metodu výběru funkce, použijte komponentu Execute R Script .

Postup konfigurace Filter-Based výběru funkcí

Zvolíte standardní statistickou metriku. Komponenta vypočítá korelaci mezi dvojicí sloupců: sloupcem popisku a sloupcem funkce.

  1. Přidejte do kanálu komponentu Filter-Based Feature Selection (Výběr funkce). Najdete ho v kategorii Výběr funkce v návrháři.

  2. Připojte vstupní datovou sadu, která obsahuje aspoň dva sloupce, které jsou potenciálními funkcemi.

    Chcete-li zajistit, aby byl analyzován sloupec a vygenerováno skóre funkce, použijte komponentu Upravit metadata k nastavení atributu IsFeature .

    Důležité

    Ujistěte se, že sloupce, které zadáte jako vstup, jsou potenciálními funkcemi. Například sloupec, který obsahuje jednu hodnotu, nemá žádnou informační hodnotu.

    Pokud víte, že některé sloupce by mohly vytvářet špatné funkce, můžete je z výběru sloupce odebrat. Můžete také použít komponentu Upravit metadata a označit je jako kategorické.

  3. V části Metoda bodování funkcí zvolte jednu z následujících zavedených statistických metod, které se mají použít při výpočtu skóre.

    Metoda Požadavky
    Pearsonova korelace Popisek může být textový nebo číselný. Funkce musí být číselné.
    Čchi čtvercové Popisky a funkce můžou být textové nebo číselné. Tato metoda slouží k výpočtu důležitosti funkce pro dva sloupce kategorií.

    Tip

    Pokud změníte vybranou metriku, všechny ostatní výběry se resetují. Proto nejprve nezapomeňte nastavit tuto možnost.

  4. Výběrem možnosti Obsluhovat pouze sloupce funkcí vygenerujte skóre pouze pro sloupce, které byly dříve označené jako funkce.

    Pokud zrušíte zaškrtnutí této možnosti, komponenta vytvoří skóre pro libovolný sloupec, který jinak splňuje kritéria, a to až do počtu sloupců zadaných v části Počet požadovaných funkcí.

  5. V části Cílový sloupec vyberte Spustit selektor sloupců a zvolte sloupec popisku podle názvu nebo podle jeho indexu. (Indexy jsou založené na jednom.)
    Sloupec popisku se vyžaduje pro všechny metody, které zahrnují statistickou korelaci. Pokud zvolíte žádný sloupec popisku nebo více sloupců popisků, vrátí komponenta chybu v době návrhu.

  6. Do pole Počet požadovaných funkcí zadejte počet sloupců funkcí, které chcete vrátit jako výsledek:

    • Minimální počet funkcí, které můžete zadat, je jedna, ale doporučujeme tuto hodnotu zvýšit.

    • Pokud je zadaný počet požadovaných funkcí větší než počet sloupců v datové sadě, vrátí se všechny funkce. Vrátí se i funkce s nulovým skóre.

    • Pokud zadáte méně sloupců výsledků, než kolik je sloupců funkcí, budou funkce seřazeny podle sestupné skóre. Vrátí se pouze hlavní funkce.

  7. Odešlete kanál.

Důležité

Pokud se chystáte použít výběr funkce na základě filtru v odvozování, musíte použít možnost Vybrat transformaci sloupců k uložení vybraného výsledku funkce a použít transformaci k použití vybrané funkce na bodovací datovou sadu.

Pokud chcete zajistit, aby výběry sloupců byly pro proces vyhodnocování stejné, podívejte se na následující snímek obrazovky.

Ukázkový kanál

Výsledky

Po dokončení zpracování:

  • Pokud chcete zobrazit úplný seznam sloupců analyzovaných funkcí a jejich skóre, klikněte pravým tlačítkem na komponentu a vyberte Vizualizovat.

  • Pokud chcete zobrazit datovou sadu na základě kritérií výběru funkce, klikněte pravým tlačítkem na komponentu a vyberte Vizualizovat.

Pokud datová sada obsahuje méně sloupců, než jste očekávali, zkontrolujte nastavení komponenty. Zkontrolujte také datové typy sloupců zadaných jako vstup. Pokud například nastavíte Počet požadovaných funkcí na hodnotu 1, bude výstupní datová sada obsahovat jenom dva sloupce: sloupec popisku a sloupec s nejhodnocenější funkcí.

Technické poznámky

Podrobnosti o implementaci

Pokud použijete Pearsonovou korelaci pro číselnou funkci a popisek kategorií, skóre funkce se vypočítá takto:

  1. Pro každou úroveň ve sloupci kategorií vypočítáte podmíněný průměr číselného sloupce.

  2. Porovnejte sloupec podmíněných průměrů s číselným sloupcem.

Požadavky

  • Skóre výběru funkce není možné vygenerovat pro žádný sloupec, který je označený jako sloupec Popisek nebo Skóre .

  • Pokud se pokusíte použít metodu bodování se sloupcem datového typu, který metoda nepodporuje, komponenta vyvolá chybu. Nebo se ke sloupci přiřadí nulové skóre.

  • Pokud sloupec obsahuje logické hodnoty (true/false), zpracují se jako True = 1 a False = 0.

  • Sloupec nemůže být funkcí, pokud je označený jako popisek nebo skóre.

Způsob zpracování chybějících hodnot

  • Jako cílový sloupec (sloupec popisku) nemůžete zadat žádný sloupec, který obsahuje všechny chybějící hodnoty.

  • Pokud sloupec obsahuje chybějící hodnoty, komponenta je při výpočtu skóre sloupce ignoruje.

  • Pokud sloupec označený jako sloupec funkce obsahuje všechny chybějící hodnoty, komponenta přiřadí nulové skóre.

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.