Převod na hodnoty indikátoru

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Převede kategorické hodnoty ve sloupcích na hodnoty indikátorů.

Kategorie: Transformace a manipulace s daty

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak používat modul Převést na hodnoty indikátorů v Machine Learning Studiu (classic). Účelem tohoto modulu je převést sloupce, které obsahují hodnoty kategorií, na řadu sloupců binárních indikátorů, které lze snadněji použít jako funkce v modelu strojového učení.

Konfigurace převodu na hodnoty indikátoru

  1. Přidejte modul Převést na hodnoty indikátorů Machine Learning experimentu a připojte ho k datové sadě obsahující sloupce, které chcete převést. Tento modul najdete v části Transformace dat v kategorii Manipulace .

  2. Pomocí selektoru sloupců zvolte jeden nebo více sloupců kategorií.

    Pokud chcete zajistit, aby vybrané sloupce byly kategorické, pomocí možnosti Upravit metadata před převodem na hodnoty indikátorů v experimentu označte cílový sloupec jako kategorický.

  3. Pokud chcete zobrazit pouze nové logické sloupce, vyberte možnost Přepsat sloupce kategorií.

    Ve výchozím nastavení je tato možnost vypnutá, takže můžete zobrazit sloupec kategorií, který je zdrojem, spolu se souvisejícími sloupci indikátoru.

    Tip

    Pokud zvolíte možnost přepsání, zdrojový sloupec se ve skutečnosti odstraní ani neupraví. Místo toho se vygenerují a zobrazí nové sloupce ve výstupní datové sadě a zdrojový sloupec zůstane dostupný v pracovním prostoru. Pokud potřebujete zobrazit původní data, můžete k přidání zdrojového sloupce zpět kdykoli použít modul Přidat sloupce.

  4. Spusťte experiment.

Výsledky

Předpokládejme například, že máte sloupec se skóre, který označuje, jestli má server vysokou, střední nebo nízkou pravděpodobnost selhání.

ID serveru Skóre selhání
10301 Nízká
10302 Střední
10303 Vysoká

Při použití funkce Převést na hodnoty indikátoru se jeden sloupec popisků převede na několik sloupců obsahujících logické hodnoty:

ID serveru Skóre selhání – nízké Skóre selhání – střední Skóre selhání – vysoké
10301 1 0 0
10302 0 1 0
10303 0 0 1

Převod funguje takhle:

  • Ve sloupci Skóre selhání popisující riziko existují pouze tři možné hodnoty (Vysoká, Střední a Nízká) a žádné chybějící hodnoty. Proto se vytvoří přesně tři nové sloupce.

  • Nové sloupce indikátorů jsou pojmenované na základě záhlaví sloupců a hodnot zdrojového sloupce. Používá se tento vzor: <zdrojová hodnota sloupce> – <data>.

  • Ve všech ostatních sloupcích indikátorů by měl být 1 v přesně jednom sloupci indikátoru a 0. Je to proto, že každý server může mít pouze jedno hodnocení rizika.

Teď můžete tyto tři sloupce indikátorů použít jako funkce a analyzovat jejich korelaci s jinými vlastnostmi, které jsou spojené s jinou úrovní rizika.

Příklady

Příklady použití tohoto modulu najdete v Azure AI Gallery:

  • Detekce rakoviny onemocnění: Pacienti jsou na základě identifikačních čísel pacientů seskupeni do skupin a pak se hodnoty indikátorů používají k označení skupiny, do které pacient patří. Později se indikátory skupin používají při bodování modelů.

  • Přímý marketing: Pravděpodobnosti se porovnávaují s konstantou pomocí operace Apply Math Operation a hodnoty Ano/Ne, které označují, jestli bylo skóre vyšší nebo nižší než konstanta, se převedou na nové sloupce indikátorů.

  • Detekce neoprávněných vniknutí do sítě: Data protokolů se načítá z úložiště Azure. Proměnná třídy (která například popisuje, jestli je útokem rootkit nebo přetečení vyrovnávací paměti) se převede na sloupec kategorií a potom se rozbalí na více hodnot indikátorů.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Tipy k používání

  • Na sloupce indikátorů lze převést pouze sloupce označené jako kategorické. Pokud se zobrazí tato chyba, je pravděpodobné, že jeden ze sloupců, který jste vybrali, není zařazený do kategorií:

    Chyba 0056: Sloupec s názvem sloupce <name> není v povolené kategorii.

    Ve výchozím nastavení se většina řetězcových sloupců zpracovává jako řetězcové funkce, takže je musíte explicitně označit jako kategorické pomocí funkce Upravit metadata.

  • Pokud nevyberte alespoň jeden sloupec kategorií, zobrazí se chyba.

  • Počet sloupců, které můžete převést na sloupce indikátorů, není žádný limit. Vzhledem k tomu, že každý sloupec hodnot může přinést více sloupců indikátoru, můžete chtít převést a zkontrolovat jen několik sloupců najednou.

  • Pokud sloupec obsahuje chybějící hodnoty, vytvoří se samostatný sloupec indikátoru pro chybějící kategorii s tímto názvem: <zdrojový sloupec> – Chybí.

  • Pokud sloupec, který převedete na hodnoty indikátoru, obsahuje čísla, musí být označený jako kategorický jako jakýkoli jiný sloupec funkce. Až to budete mít, budou se čísla považovat za diskrétní hodnoty. Pokud máte například číselný sloupec s hodnotami MPG v rozsahu 25 až 30, vytvoří se pro každou diskrétní hodnotu nový sloupec indikátoru:

    Značka Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30
    Alfao 0 0 0 0 0 1

    Pokud se chcete vyhnout obrovskému počtu sloupců indikátorů, doporučujeme nejprve zkontrolovat počet hodnot ve sloupci a data vhodně roztáhnět nebo kvantovat.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Datová sada se sloupci kategorií

Parametry modulu

Name Rozsah Typ Výchozí Description
Sloupce kategorií, které se mají převést Všechny Výběr sloupce Vyberte sloupce kategorií, které se mají převést na matice indikátorů.
Přepsání kategorických sloupců Všechny Logická hodnota false (nepravda) Pokud je true, přepište vybrané sloupce kategorií. Jinak k datové sadě připojte výsledné matice indikátoru.

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada se sloupci kategorií převedených na matice indikátorů

Viz také

Manipulace
Transformace dat
Seznam modulů A až Z