Výběr sloupců v datové sadě

Vybere sloupce, které se mají zahrnout nebo vyloučit z datové sady v operaci.

Kategorie: transformace nebo manipulace s daty

Poznámka

Platí pro: Machine Learning Studio (Classic)

Tento obsah se týká pouze studia (Classic). Podobné moduly přetažení byly přidány do návrháře Azure Machine Learning. Další informace najdete v tomto článku porovnávající tyto dvě verze.

Přehled modulu

Tento článek popisuje, jak použít modul Vybrat sloupce v datové sadě v Azure Machine Learning Studio (Classic) k výběru podmnožiny sloupců pro použití v rámci navazujících operací. Modul neodebere fyzické sloupce ze zdrojové datové sady. místo toho vytvoří podmnožinu sloupců, podobně jako zobrazení nebo projekcedatabáze.

Tento modul je zvláště užitečný, pokud potřebujete omezit sloupce dostupné pro operaci pro příjem dat, nebo pokud chcete zmenšit velikost datové sady odebráním nepotřebných sloupců.

Sloupce v datové sadě jsou výstupy ve stejném pořadí jako v původních datech, a to i v případě, že je zadáte v jiném pořadí.

Jak používat výběr sloupců v datové sadě

Tento modul nemá žádné parametry. K výběru sloupců, které se mají zahrnout nebo vyloučit, použijte selektor sloupců.

Zvolit sloupce podle názvu

V modulu je více možností pro výběr sloupců podle názvu:

  • Filtrovat a Hledat

    Klikněte na možnost podle názvu .

    Pokud jste připojili datovou sadu, která je již naplněna, zobrazí se seznam dostupných sloupců. Pokud se nezobrazí žádné sloupce, může být nutné spustit moduly pro odesílání dat, aby se zobrazil seznam sloupců.

    Chcete-li filtrovat seznam, zadejte do vyhledávacího pole. Pokud například zadáte písmeno w do vyhledávacího pole, seznam se vyfiltruje tak, aby zobrazoval názvy sloupců, které obsahují písmeno w .

    Vyberte sloupce a kliknutím na tlačítko se šipkou doprava přesuňte vybrané sloupce do seznamu v pravém podokně.

    • Chcete-li vybrat souvislý rozsah názvů sloupců, stiskněte klávesy SHIFT + kliknutí.
    • Chcete-li přidat jednotlivé sloupce do výběru, stiskněte klávesy CTRL + kliknutí.

    Kliknutím na tlačítko zaškrtnutí se uložte a zavřete.

  • Použití názvů v kombinaci s jinými pravidly

    Klikněte na možnost s pravidly .

    Vyberte pravidlo, jako je například zobrazení sloupců určitého datového typu.

    Pak klikněte na jednotlivé sloupce daného typu podle názvu a přidejte je do seznamu výběru.

  • Zadejte nebo vložte čárkami oddělený seznam názvů sloupců.

    Pokud je vaše datová sada hodně rozsáhlá, může být jednodušší použít indexy nebo vygenerované seznamy názvů místo výběru sloupců jednotlivě. Za předpokladu, že jste si seznam připravili předem:

    1. Klikněte na možnost s pravidly .
    2. Vyberte žádné sloupce, vyberte Zahrnouta pak klikněte do textového pole s červeným vykřičníkem.
    3. Vložte nebo zadejte čárkami oddělený seznam dříve ověřených názvů sloupců. Modul nemůžete uložit, pokud má nějaký sloupec neplatný název, proto nezapomeňte zkontrolovat názvy předem.

    Tuto metodu můžete také použít k určení seznamu sloupců pomocí jejich hodnot indexu. Tipy, jak pracovat s indexy sloupců, najdete v části s Příklady .

Zvolit podle typu

Použijete-li možnost with Rules , můžete pro výběr sloupců použít více podmínek. Například může být nutné získat pouze sloupce funkce číselného datového typu.

Možnost začít s určuje výchozí bod a je velmi důležitá pro porozumění výsledkům.

  • Pokud vyberete možnost všechny sloupce , do seznamu se přidají všechny sloupce. Pak je nutné pomocí možnosti vyloučit Odebrat sloupce, které splňují určité podmínky.

    Můžete například začít se všemi sloupci a pak odebrat sloupce podle názvu nebo podle typu.

  • Pokud vyberete možnost žádné sloupce , seznam sloupců začne být prázdný. Pak zadáte podmínky pro Přidání sloupců do seznamu.

    Pokud použijete více pravidel, každá podmínka je aditivní. Řekněme například, že začnete bez sloupců a pak přidáte pravidlo, které získá všechny číselné sloupce. V datové sadě cen automobilu je výsledkem 16 sloupců. Pak klikněte na + znaménko a přidejte novou podmínku a vyberte Zahrnout všechny funkce. Výsledná datová sada zahrnuje všechny číselné sloupce a všechny sloupce funkcí včetně některých sloupců funkcí řetězce.

Vybrat podle indexu sloupce

Index sloupce odkazuje na pořadí sloupce v rámci původního objektu DataSet.

  • Sloupce se číslují sekvenčně od 1.
  • Chcete-li získat rozsah sloupců, použijte spojovník.
  • Specifikace Open-konec, například 1- nebo, nejsou -3 povoleny.
  • Duplicitní hodnoty indexu (nebo názvy sloupců) nejsou povoleny a mohou mít za následek chybu.

Například za předpokladu, že vaše datová sada má alespoň osm sloupců, můžete vložit do kteréhokoli z následujících příkladů, které vrátí více nesouvislých sloupců:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

poslední příklad nevede k chybě; Vrátí ale jednu instanci sloupce 4 .

Další tipy pro práci s indexy sloupců naleznete v části Příklady .

Změnit pořadí sloupců

Možnost povolující duplicity a zachovat pořadí sloupců v výběru začíná prázdným seznamem a přidává sloupce, které určíte podle názvu nebo indexu. Na rozdíl od jiných možností, které vždy vracejí sloupce v jejich "přirozeném pořadí", tato možnost vypíše sloupce v pořadí, ve kterém je napíšete nebo je vypíšete.

Například v datové sadě se sloupci Sloupec1, col2, Col3 a Col4 můžete změnit pořadí sloupců a nechat sloupec 2 zadáním jednoho z následujících seznamů:

  • Col4, Col3, Col1
  • 4,3,1

Příklady

Příklady použití vybraných sloupců v datové saděnajdete v těchto ukázkových experimentech v galerii modelů:

Běžné scénáře pro výběr sloupců

V následujících příkladech jsou popsány některé typické způsoby, kterými uživatelé použijí Vybrat sloupce v datové sadě ve službě Machine Learning, a nabízí několik tipů, jak vybrat sloupce:

  • Chci odebrat textové sloupce z datové sady, aby bylo možné použít matematickou operaci na všechny číselné sloupce.

    Mnoho operací vyžaduje, aby datová sada obsahovala jenom číselné sloupce. Můžete dočasně odebrat sloupce, které by způsobily chybu, vyloučením textu a vyloučením kategorií sloupců (čísla, která představuje diskrétní kategorie).

    1. Klikněte na tlačítko Spustit selektor sloupců.

    2. Pro možnost začít svyberte všechny sloupce.

    3. Vyberte možnost vyloučit , vyberte typ sloupcea pak vyberte řetězec.

    4. Kliknutím na znaménko plus (+) přidejte novou podmínku.

    5. Vyberte možnost vyloučit , vyberte typ sloupcea pak vyberte kategorií.

  • Potřebuji použít výběr funkcí jenom na sloupce funkcí kategorií.

    Pokud potřebujete oddělit sloupce podobného typu, můžete použít několik podmínek. Například funkce mohou být buď kategorií nebo numeric, ale některé moduly výběru funkcí nepovolují pole, která nejsou číselná, takže nejdřív musíte získat funkce a pak přidat podmínku, abyste získali jenom číselné funkce.

    1. Klikněte na tlačítko Spustit selektor sloupců.

    2. Pro možnost začít svyberte žádné sloupce.

    3. Vyberte možnost Zahrnout a vyberte možnost všechny funkce.

    4. Kliknutím na znaménko plus (+) přidejte novou podmínku.

    5. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte kategorií.

  • Potřebuji použít jinou operaci normalizace pro různé číselné sloupce.

    Než začnete používat matematické operace, možná budete muset oddělit celá čísla z čísel s plovoucí desetinnou čárkou a tak dále. K tomu použijte datové typy a použijte několik podmínek.

    1. Klikněte na tlačítko Spustit selektor sloupců.

    2. Pro možnost začít svyberte žádné sloupce.

    3. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte Číselná.

    4. Kliknutím na znaménko plus (+) přidejte novou podmínku.

    5. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte číselný typ, který je nekompatibilní s operací pro příjem dat.

  • Existuje příliš mnoho sloupců pro výběr pomocí selektoru.

    Po importu datové sady se často zjistí, že má mnoho sloupců, které pro modelování nepotřebujete. Ale chcete je zachovat pro výstup později nebo pro identifikaci případů. To můžete provést rozdělením datové sady do dvou částí (metadata a sloupců používaných pro modelování) a později podle potřeby znovu kombinovat sloupce pomocí Přidat sloupce.

    1. Klikněte na tlačítko Spustit selektor sloupců.

    2. Pro možnost začít svyberte žádné sloupce.

    3. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte možnost funkce.

    4. Kliknutím na znaménko plus (+) přidejte novou podmínku.

    5. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte možnost popisek.

    6. Opakujte tyto kroky, ale začněte se všemi sloupci a pak vylučte sloupce funkce a popisek, abyste vytvořili datovou sadu jenom pro metadata.

  • Nevím hodnoty indexu potřebných sloupců.

    Pokud je v datové sadě jen několik sloupců, můžete použít možnost vizualizovat k zobrazení prvních 100 řádků a pak zjistit, který sloupec je index 1, 2 a tak dále.

    • Indexy v Azure Machine Learning začínají na 1, takže první sloupec je vždy 1.

    • Pokud chcete získat index posledního sloupce, podívejte se na dva seznamy sloupců v selektoru sloupců: dostupné sloupce a vybrané sloupce. Šedý pruh pod seznamem sloupců zobrazuje počet sloupců v jednotlivých seznamech. Proto pokud jsou k dispozici 24 sloupců a jsou vybrány dva sloupce, má celkem 26 sloupců a index posledního sloupce je 26.

    Další možností pro extrakci schématu vaší datové sady je použít modul spuštění skriptu jazyka R k získání názvů sloupců s čísly indexu.

    1. Připojte datovou sadu k modulu spuštění skriptu jazyka R .

    2. V modulu zadejte pro výstup názvů sloupců skript podobný následujícímu. Řádek začínající na myindex vygeneruje sekvenci, která představuje indexy v daném pořadí.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Výsledky pro datovou sadu ceny automobilu

    myindex mycolnames
    1 symboling
    2 normalizované ztráty
    3 značka

Technické poznámky

Pokud jste obeznámeni s relačními databázemi, tento modul vytváří projekci dat; Proto původní název, sloupce projektu. V rámci databázových podmínek je projekcí funkce, jako je například příkaz Transact-SQL nebo LINQ, který přebírá data v tabulkovém formátu jako vstup a vytváří související výstup.

V relačních algebraický je projekcí unární operace, která je zapsána jako sada názvů atributů. Výsledek projekce je sada těchto atributů s jinými atributy zahozeny.

Očekávané vstupy

Název Typ Popis
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Popis
Výběr sloupců Libovolný ColumnSelection Vyberte sloupce, které chcete zachovat v předpokládané datové sadě.

Výstupy

Název Typ Popis
Datová sada výsledků Tabulka dat Výstupní datová sada

Výjimky

Výjimka Popis
Chyba 0001 K výjimce dojde v případě, že se nepovedlo najít jeden nebo více zadaných sloupců datové sady.
Chyba 0003 K výjimce dojde, pokud jedna nebo více vstupních datových sad je null nebo prázdné.

Seznam chyb, které jsou specifické pro moduly studia (Classic), najdete v článku kódy chyb Machine Learning.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Úkon