Rychlá kvantilová regrese rozhodovacích stromů

Tento článek popisuje modul v návrháři služby Azure Machine Učení.

Pomocí této komponenty můžete v kanálu vytvořit rychlý regresní model quantile doménové struktury. Rychlá regrese quantile doménové struktury je užitečná, pokud chcete lépe porozumět rozdělení predikované hodnoty, a ne získat jedinou průměrnou predikční hodnotu. Tato metoda má mnoho aplikací, mezi které patří:

  • Predikce cen

  • Odhad výkonu studentů nebo použití růstových grafů pro posouzení vývoje dětí

  • Zjišťování prediktivních relací v případech, kdy mezi proměnnými existuje pouze slabý vztah

Tento regresní algoritmus je metoda učení pod dohledem, což znamená, že vyžaduje označenou datovou sadu, která obsahuje sloupec popisku. Protože se jedná o regresní algoritmus, musí sloupec popisku obsahovat pouze číselné hodnoty.

Další informace o regresi quantile

Existuje mnoho různých typů regrese. Regrese jednoduše znamená přizpůsobení modelu cíli vyjádřenému jako číselný vektor. Statistikové však vyvíjejí stále pokročilejší metody pro regresi.

Nejjednodušší definice quantile je hodnota, která rozdělí sadu dat do skupin stejné velikosti, a proto hodnoty quantile označují hranice mezi skupinami. Statisticky řečeno, quantily jsou hodnoty převzaté v pravidelných intervalech z inverzní funkce kumulativní distribuční funkce (CDF) náhodné proměnné.

Zatímco modely lineární regrese se snaží předpovědět hodnotu číselné proměnné pomocí jednoho odhadu , průměr, někdy potřebujete předpovědět rozsah nebo celé rozdělení cílové proměnné. Pro tento účel byly vyvinuty techniky, jako je Bayesian regrese a regrese quantile.

Regrese quantile vám pomůže pochopit rozdělení predikované hodnoty. Modely quantile regrese založené na stromech, například modely použité v této komponentě, mají další výhodu, kterou lze použít k predikci neparametrických distribucí.

Konfigurace regrese Quantile Fast Forest

  1. Přidejte do kanálu v návrháři komponentu Regrese Quantile Quantile Fast Forest. Tuto komponentu najdete v části Machine Učení Algorithms (Algoritmy strojového Učení) v kategorii Regrese.

  2. V pravém podokně komponenty Fast Forest Quantile Regrese určete, jak má být model trénován, nastavením možnosti Vytvořit režim trenéra.

    • Jeden parametr: Pokud víte, jak chcete model nakonfigurovat, zadejte jako argumenty konkrétní sadu hodnot. Při trénování modelu použijte trénování modelu.

    • Rozsah parametrů: Pokud si nejste jisti nejlepšími parametry, proveďte úklid parametrů pomocí komponenty Tune Model Hyperparameters . Trenér iteruje více zadaných hodnot, aby našel optimální konfiguraci.

  3. Početstromůch Pokud vytváříte více stromů, obvykle to vede k vyšší přesnosti, ale za cenu delšího trénování.

  4. Počet listů, zadejte maximální počet listů nebo terminálových uzlů, které lze vytvořit v libovolném stromu.

  5. Minimální počet trénovacích instancí potřebných k vytvoření listu, zadejte minimální počet příkladů potřebných k vytvoření libovolného koncového uzlu (list) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může vytvoření nového pravidla způsobit i jeden případ. Pokud zvýšíte hodnotu na 5, trénovací data by musela obsahovat alespoň 5 případů, které splňují stejné podmínky.

  6. Sbalovací zlomek zadejte číslo v rozmezí od 0 do 1, které představuje zlomek vzorků, které se mají použít při vytváření každé skupiny kvantových hodnot. Vzorky se vyberou náhodně s nahrazením.

  7. Rozdělení zlomku, zadejte číslo mezi 0 a 1, které představuje zlomek funkcí, které se mají použít v každém rozdělení stromu. Použité funkce se vždy náhodně vyberou.

  8. Kvantily, které se mají odhadnout, zadejte středník oddělený seznam kvantilí, pro které má model trénovat a vytvářet předpovědi.

    Pokud například chcete vytvořit model, který odhaduje kvartily, zadejte 0.25; 0.5; 0.75.

  9. Volitelně můžete zadat hodnotu pro počáteční náhodné číslo , aby se vysadil generátor náhodných čísel používaný modelem. Výchozí hodnota je 0, což znamená, že je vybrána náhodná počáteční hodnota.

    Pokud potřebujete reprodukovat výsledky napříč po sobě jdoucími běhy na stejných datech, měli byste zadat hodnotu.

  10. Připojení trénovací datovou sadu a trénovaný model na jednu z trénovacích komponent:

    • Pokud nastavíte režim Vytvořit trenéra na jeden parametr, použijte komponentu Train Model .

    • Pokud nastavíte režim Vytvořit trenéra na rozsah parametrů, použijte komponentu Tune Model Hyperparameters .

    Upozorňující

    • Pokud předáte rozsah parametrů trénování modelu, použije pouze první hodnotu v seznamu rozsahu parametrů.

    • Pokud komponentě Tune Model Hyperparameters předáte jednu sadu hodnot parametrů, při očekávání rozsahu nastavení pro každý parametr ignoruje hodnoty a použije výchozí hodnoty pro žáka.

    • Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se v rámci úklidu zadaná jedna hodnota, i když se v rozsahu hodnot změní jiné parametry.

  11. Odešlete kanál.

Výsledky

Po dokončení trénování:

  • Pokud chcete uložit snímek vytrénovaného modelu, vyberte trénovací komponentu a pak v pravém panelu přepněte na kartu Výstupy a protokoly . Klikněte na ikonu Zaregistrovat datovou sadu. Uložený model můžete najít jako součást ve stromu komponent.

Metriky vyhodnocení

K vyhodnocení natrénovaného modelu můžete použít komponentu Vyhodnotit model. V případě regrese Rychlé doménové struktury jsou metriky následující.

  • Quantile Loss: Toto je míra chyby pro konkrétní quantile ve vašem modelu.
  • Průměrná ztráta quantile: Toto je jednoduše průměr hodnot ztráty Quantile napříč všemi quantily, které se v modelu považují. Poskytuje celkovou míru výkonu modelu napříč všemi quantily.

Další kroky

Podívejte se na sadu komponent dostupných pro Učení Azure Machine.