Välj kolumner i datauppsättningskomponenten

Artikel
06/01/2023

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att välja en delmängd av kolumner som ska användas i underordnade åtgärder. Komponenten tar inte fysiskt bort kolumnerna från källdatauppsättningen. I stället skapas en delmängd av kolumnerna, ungefär som en databasvy eller projektion.

Den här komponenten är användbar när du behöver begränsa de kolumner som är tillgängliga för en nedströmsåtgärd, eller om du vill minska storleken på datauppsättningen genom att ta bort onödiga kolumner.

Kolumnerna i datauppsättningen matas ut i samma ordning som i ursprungliga data, även om du anger dem i en annan ordning.

Använd så här

Den här komponenten har inga parametrar. Du använder kolumnväljaren för att välja vilka kolumner som ska inkluderas eller exkluderas.

Välj kolumner efter namn

Det finns flera alternativ i komponenten för att välja kolumner efter namn:

Filtrera och söka

Klicka på alternativet BY NAME (BY NAME ).

Om du har anslutit en datauppsättning som redan har fyllts i bör en lista över tillgängliga kolumner visas. Om inga kolumner visas kan du behöva köra överordnade komponenter för att visa kolumnlistan.

Om du vill filtrera listan skriver du i sökrutan. Om du till exempel skriver bokstaven w i sökrutan filtreras listan för att visa kolumnnamnen som innehåller bokstaven w.

Markera kolumner och klicka på högerpilen för att flytta de markerade kolumnerna till listan i den högra rutan.
- Om du vill välja ett kontinuerligt intervall med kolumnnamn trycker du på Skift + Klicka.
- Om du vill lägga till enskilda kolumner i markeringen trycker du på Ctrl + Klicka.
Klicka på bockmarkeringen för att spara och stänga.
Använda namn i kombination med andra regler

Klicka på alternativet MED REGLER .

Välj en regel, till exempel att visa kolumner av en specifik datatyp.

Klicka sedan på enskilda kolumner av den typen efter namn för att lägga till dem i urvalslistan.
Skriv eller klistra in en kommaavgränsad lista med kolumnnamn

Om datauppsättningen är bred kan det vara enklare att använda index eller genererade listor med namn i stället för att välja kolumner individuellt. Förutsatt att du har förberett listan i förväg:
1. Klicka på alternativet MED REGLER .
2. Välj Inga kolumner, välj Inkludera och klicka sedan i textrutan med det röda utropstecknet.
3. Klistra in eller skriv en kommaavgränsad lista med tidigare verifierade kolumnnamn. Du kan inte spara komponenten om någon kolumn har ett ogiltigt namn, så se till att kontrollera namnen i förväg.
Du kan också använda den här metoden för att ange en lista med kolumner med deras indexvärden.

Välj efter typ

Om du använder alternativet MED REGLER kan du tillämpa flera villkor på kolumnvalen. Du kan till exempel bara behöva hämta funktionskolumner av en numerisk datatyp.

Alternativet BÖRJA MED avgör din startpunkt och är viktigt för att förstå resultatet.

Om du väljer alternativet ALLA KOLUMNER läggs alla kolumner till i listan. Sedan måste du använda alternativet Exkludera för att ta bort kolumner som uppfyller vissa villkor.

Du kan till exempel börja med alla kolumner och sedan ta bort kolumner efter namn eller efter typ.
Om du väljer alternativet INGA KOLUMNER börjar listan med kolumner vara tom. Sedan anger du villkor för att lägga till kolumner i listan.

Om du tillämpar flera regler är varje villkor additivt. Anta till exempel att du börjar utan kolumner och sedan lägger till en regel för att hämta alla numeriska kolumner. I datauppsättningen Automobile price (Bilpris) resulterar det i 16 kolumner. Klicka sedan på + tecknet för att lägga till ett nytt villkor och välj Inkludera alla funktioner. Den resulterande datauppsättningen innehåller alla numeriska kolumner, plus alla funktionskolumner, inklusive vissa strängfunktionskolumner.

Välj efter kolumnindex

Kolumnindexet refererar till kolumnens ordning i den ursprungliga datauppsättningen.

Kolumner numreras sekventiellt med början vid 1.
Om du vill hämta ett intervall med kolumner använder du ett bindestreck.
Specifikationer med öppen slut, till exempel 1- eller -3 är inte tillåtna.
Duplicerade indexvärden (eller kolumnnamn) tillåts inte och kan resultera i ett fel.

Om datauppsättningen till exempel har minst åtta kolumner kan du klistra in något av följande exempel för att returnera flera kolumner som inte är sammanhängande:

8,1-4,6
1,3-8
1,3-6,4

Det slutliga exemplet resulterar inte i ett fel. Den returnerar dock en enda instans av kolumnen 4.

Ändra kolumnordning

Alternativet Tillåt dubbletter och bevara kolumnordning i markeringen börjar med en tom lista och lägger till kolumner som du anger efter namn eller index. Till skillnad från andra alternativ, som alltid returnerar kolumner i sin "naturliga ordning", matar det här alternativet ut kolumnerna i den ordning som du namnger eller listar dem.

I en datauppsättning med kolumnerna Col1, Col2, Col3 och Col4 kan du till exempel ändra ordningen på kolumnerna och utelämna kolumn 2 genom att ange någon av följande listor:

Col4, Col3, Col1
4,3,1

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.