transformace dat – Učení s počty

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

tento článek popisuje moduly v Machine Learning studiu (classic), které podporují featurization na základě počtu.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Učení s počty je účinný způsob, jak vytvořit kompaktní sadu funkcí datové sady, které jsou založeny na počtu hodnot. Moduly v této kategorii můžete použít k sestavení sady počtů a funkcí. Později můžete počty a funkce aktualizovat, abyste mohli využívat nová data, nebo sloučit dvě sady dat o počtu.

O featurization založených na počtu

Základní myšlenkou featurization na základě počtu je, že při výpočtu počtů můžete rychle a snadno získat přehled o tom, jaké sloupce obsahují nejdůležitější informace. Modul spočítá počet zobrazených hodnot a pak tyto informace poskytne jako funkci pro vstup do modelu.

Imagine, že ověřujete transakci platební karty. Zásadní část informací je místo, odkud tato transakce pochází. Jedním z nejběžnějších kódování původu transakce je poštovní směrovací číslo. Pro účet však může být k dispozici až 40 000 poštovních kódů, PSČ a zeměpisných kódů. Má váš model kapacitu k učení 40 000 dalších parametrů? Pokud mu přidělíte kapacitu, máte k dispozici dostatek školicích dat, abyste zabránili jejímu přebudování?

Pokud máte dobrá data a máte spoustu ukázek, může být tato jemně odstupňovaná místní členitost. Pokud však máte pouze jeden vzorek podvodné transakce od malé místní hodnoty, znamená to, že všechny transakce z tohoto místa jsou chybné nebo že nemáte dostatečná data?

Jedním z řešení je zjistit počet. Místo představení 40 000 dalších funkcí můžete sledovat počty a poměry podvodů pro jednotlivé poštovní kódy. Pomocí těchto počtů jako funkcí získáte informace o síle legitimace pro každou hodnotu. Navíc pomocí kódování odpovídajících statistik počtů může naučit použít statistiku, kdy se rozhodnete změnit jejich přístup a místo toho použít k získání informací další funkce.

Učení na základě počtu je přitažlivější z mnoha důvodů. S učením na základě počtu máte méně funkcí, které vyžadují méně parametrů. Méně parametrů zajišťuje rychlejší učení, rychlejší předpověď, menší předpovědi a méně potenciál na overfit.

Jak se vytvářejí funkce založené na počtu

Základní příklad může vést k demonstraci toho, jak se vytvářejí a používají funkce založené na počtu. Předpokládejme například, že máte následující tabulku s popisky a vstupy. Každý případ (nebo řádek nebo ukázka) obsahuje sadu hodnot ve sloupcích. V tomto příkladu jsou hodnoty a a B.

Sloupec popisku	Vstupní hodnota
0	A
0	A
1	A
0	B
1	B
1	B
1	B

Jedná se o kroky, které můžete provést při vytváření funkcí založených na počtu:

Pro konkrétní sadu hodnot Najděte všechny ostatní případy v této datové sadě, které mají stejnou hodnotu. V tomto případě existují tři instance a a čtyři instance B.
Počítat členství ve třídě každé hodnoty jako součást sama o sobě. V takovém případě se zobrazí malá matice: Existují dva případy, kdy A = 0; jeden případ, kde A = 1; jeden případ, kdy B = 0; a tři případy, kdy B = 1.
Na základě této matrice získáte celou řadu funkcí založených na počtu. Patří sem výpočet poměru protokolu lichá a počty pro každou cílovou třídu. Tabulka v další části zobrazuje data.

Ukázková tabulka funkcí založených na počtu

Popisek	0_0_Class000_Count	0_0_Class001_Count	0_0_Class000_LogOdds
0	2	1	0,510826
0	2	1	0,510826
1	2	1	0,510826
0	1	3	-0,8473
1	1	3	-0,8473
1	1	3	-0,8473
1	1	3	-0,8473

Příklady

v rámci použití Machine Learning k sestavování modelů předpovědi pro interaktivníúčely nabízí tým Microsoft Machine Learning podrobný návod, jak používat počty ve službě Machine Learning. Článek porovnává účinnost modelování na základě počtu s jinými metodami.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Jak se počítá hodnota pro ztrátu protokolu

Hodnota pro ztrátu protokolu není lichá jednoduchého protokolu. V tomto případě se k vyhlazení výpočtu lichá protokolu použije předchozí distribuce.

Předpokládejme, že máte datovou sadu, která se používá pro binární klasifikaci. V této datové sadě je předchozí frekvence pro třídu 0 p_0 a předchozí frekvence pro třídu 1 p_1 = 1 – p_0 . Pro konkrétní funkci školicího příkladu je počet pro třídu 0 x_0 a počet pro třídu 1 je x_1 .

V rámci těchto předpokladů se protokol lichá vypočte jako LogOdds = Log(x0 + c * p0) – Log (x1 + c\p1) , kde c je předchozí koeficient, který může nastavit uživatel. Funkce log používá přirozený základ.

Jinými slovy, pro každou třídu i :

Log_odds[i] = Log( (count[i] + prior_coefficient * prior_frequency[i]) / (sum_of_counts - count[i]) + prior_coefficient \* (1 - prior_frequency[i]))

Pokud je předchozí koeficient pozitivní, protokol lichá může být jiný než Log(count[i] / (sum_of_counts – count[i])) .

Proč není pro některé položky vypočítán protokol lichá

Ve výchozím nastavení se všechny položky s počtem, který je menší než 10, shromažďují v rámci jednoho intervalu s názvem "uvolňování paměti". Tuto hodnotu můžete změnit pomocí možnosti prahová hodnota pro zásobník paměti v modulu parametry tabulky pro úpravu počtu .

Seznam modulů

kategorie Učení s počty zahrnuje následující moduly:

Výpočetní transformace sestavení: vytvoří z datové sady objekt Count a funkce založené na počtu a pak uloží tabulku a funkce jako transformaci.
Tabulka Count exportu: exportuje tabulku Count z transformace počítání. Tento modul podporuje zpětnou kompatibilitu s experimenty, které vytvářejí funkce založené na počtu pomocí tabulky Count Build (nepoužívané) a Count Featurizer (zastaralé).
Tabulka Count importu: Importuje existující tabulku Count. Tento modul podporuje zpětnou kompatibilitu s experimenty, které vytvářejí funkce založené na počtu pomocí tabulky Count Build (nepoužívané) a Count Featurizer (zastaralé). Modul podporuje převod tabulek Count pro počítání transformací.
Transformace počtu sloučení: sloučí dvě sady funkcí založených na počtu.
Upravit počet parametrů tabulky: upraví funkce založené na počtu, které jsou odvozeny z existující tabulky Count.