Upravit komponentu metadat

Tento článek popisuje komponentu, která je součástí návrháře služby Azure Machine Learning.

Pomocí komponenty Upravit metadata můžete změnit metadata, která jsou přidružená ke sloupcům v datové sadě. Hodnota a datový typ datové sady se změní po použití komponenty Upravit metadata.

Typické změny metadat můžou zahrnovat:

  • Booleovské nebo číselné sloupce se považují za kategorické hodnoty.

  • Určuje, který sloupec obsahuje popisek třídy nebo hodnoty, které chcete zařadit do kategorií nebo předpovědět.

  • Označení sloupců jako prvků

  • Změna hodnot data a času na číselné hodnoty nebo naopak

  • Přejmenování sloupců

Funkci Upravit metadata použijte, kdykoli potřebujete upravit definici sloupce, obvykle tak, aby splňovala požadavky na podřízenou komponentu. Některé komponenty například pracují pouze s konkrétními datovými typy nebo vyžadují příznaky sloupců, například IsFeature nebo IsCategorical.

Po provedení požadované operace můžete metadata obnovit do původního stavu.

Konfigurace upravit metadata

  1. V návrháři Služby Azure Machine Learning přidejte do kanálu komponentu Upravit metadata a připojte datovou sadu, kterou chcete aktualizovat. Tuto komponentu najdete v kategorii Transformace dat .

  2. Na pravém panelu komponenty klikněte na Upravit sloupec a vyberte sloupec nebo sadu sloupců, se kterými chcete pracovat. Sloupce můžete zvolit jednotlivě podle názvu nebo indexu nebo můžete zvolit skupinu sloupců podle typu.

  3. Pokud potřebujete vybraným sloupcům přiřadit jiný datový typ, vyberte možnost Datový typ . Možná budete muset změnit datový typ pro určité operace. Pokud například zdrojová datová sada obsahuje čísla, která se zpracovávají jako text, musíte je před použitím matematických operací změnit na číselný datový typ.

    • Podporované datové typy jsou String, Integer, Double, Boolean a DateTime.

    • Pokud vyberete více sloupců, musíte změny metadat použít u všech vybraných sloupců. Řekněme například, že zvolíte dva nebo tři číselné sloupce. Všechny je můžete změnit na datový typ řetězec a přejmenovat je v jedné operaci. Nemůžete ale změnit jeden sloupec na datový typ řetězec a druhý sloupec z plovoucího na celé číslo.

    • Pokud nezadáte nový datový typ, metadata sloupce se nezmění.

    • Typ a hodnoty sloupce se změní po provedení operace Upravit metadata. Původní datový typ můžete kdykoli obnovit pomocí možnosti Upravit metadata a resetovat datový typ sloupce.

    Poznámka

    Formát DateTime se řídí integrovaným formátem datetime v Pythonu.
    Pokud změníte libovolný typ čísla na typ DateTime , nechte pole Formát data a času prázdné. V současné době není možné zadat cílový formát dat.

  4. Vyberte možnost Kategorické a určete , že se hodnoty ve vybraných sloupcích mají považovat za kategorie.

    Můžete mít například sloupec, který obsahuje čísla 0, 1 a 2, ale víte, že čísla ve skutečnosti znamenají "Kuřačka", "Nekuřačka" a "Neznámá". V takovém případě tím, že sloupec označíte příznakem jako kategorický, zajistíte, že se hodnoty použijí jenom k seskupení dat, a ne k číselnému výpočtu.

  5. Možnost Pole použijte, pokud chcete změnit způsob, jakým Azure Machine Learning používá data v modelu.

    • Funkce: Tato možnost slouží k označení sloupce jako funkce v komponentách, které pracují pouze se sloupci funkce. Ve výchozím nastavení se všechny sloupce považují za funkce.

    • Popisek: Tuto možnost použijte k označení popisku, který se označuje také jako předvídatelný atribut nebo cílová proměnná. Mnoho komponent vyžaduje, aby v datové sadě byl právě jeden sloupec popisku.

      V mnoha případech může Azure Machine Learning odvodit, že sloupec obsahuje popisek třídy. Nastavením těchto metadat můžete zajistit správnou identifikaci sloupce. Nastavení této možnosti nezmění hodnoty dat. Mění pouze způsob, jakým některé algoritmy strojového učení zpracovávají data.

    Tip

    Máte data, která se do těchto kategorií nevejdou? Vaše datová sada může například obsahovat hodnoty, jako jsou jedinečné identifikátory, které nejsou užitečné jako proměnné. Někdy můžou taková ID způsobit problémy při použití v modelu.

    Azure Machine Learning naštěstí uchovává všechna vaše data, abyste tyto sloupce nemuseli z datové sady odstraňovat. Pokud potřebujete provádět operace s určitou speciální sadou sloupců, stačí všechny ostatní sloupce dočasně odebrat pomocí komponenty Vybrat sloupce v datové sadě . Později můžete sloupce sloučit zpět do datové sady pomocí komponenty Přidat sloupce .

  6. Pomocí následujících možností můžete vymazat předchozí výběry a obnovit metadata na výchozí hodnoty.

    • Vymazat funkci: Tuto možnost použijte k odebrání příznaku funkce.

      Všechny sloupce jsou zpočátku považovány za funkce. U komponent, které provádějí matematické operace, může být nutné použít tuto možnost, abyste zabránili tomu, aby se číselné sloupce považovaly za proměnné.

    • Vymazat popisek: Pomocí této možnosti odeberete metadata popisku ze zadaného sloupce.

    • Vymazat skóre: Tuto možnost použijte, pokud chcete ze zadaného sloupce odebrat metadata skóre .

      V současné době není možné explicitně označit sloupec jako skóre ve službě Azure Machine Learning. Některé operace ale způsobí, že se sloupec interně označí příznakem skóre. Vlastní komponenta R může také výstupem hodnot skóre.

  7. Do pole Nové názvy sloupců zadejte nový název vybraného sloupce nebo sloupců.

    • Názvy sloupců mohou používat pouze znaky, které jsou podporovány kódováním UTF-8. Prázdné řetězce, hodnoty null nebo názvy, které se skládají výhradně z mezer, nejsou povoleny.

    • Pokud chcete přejmenovat více sloupců, zadejte názvy jako seznam oddělený čárkami v pořadí podle indexů sloupců.

    • Všechny vybrané sloupce je nutné přejmenovat. Nemůžete vynechat ani přeskočit sloupce.

  8. Odešlete kanál.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.