Wybieranie kolumn w zestawie danych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Wybiera kolumny, które mają być dołączane do zestawu danych lub wykluczane z zestawu danych w operacji

Kategoria: Przekształcanie/manipulowanie danymi

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych) w programie Machine Learning Studio (wersja klasyczna) w celu wybrania podzestawu kolumn do użycia w operacjach nadrzędnych. Moduł nie usuwa fizycznie kolumn ze źródłowego zestawu danych; Zamiast tego tworzy podzbiór kolumn, podobnie jak widok bazy danych lubprojekcja.

Ten moduł jest szczególnie przydatny, gdy trzeba ograniczyć kolumny dostępne dla operacji podrzędnej lub jeśli chcesz zmniejszyć rozmiar zestawu danych przez usunięcie niepotrzebnych kolumn.

Kolumny w zestawie danych są wyprowadzane w takiej samej kolejności, jak w oryginalnych danych, nawet jeśli określisz je w innej kolejności.

Jak używać opcji Wybierz kolumny w zestawie danych

Ten moduł nie ma parametrów. Za pomocą selektora kolumn wybiera się kolumny, które mają być dołączane lub wykluczane.

Wybieranie kolumn według nazwy

W module dostępnych jest wiele opcji wybierania kolumn według nazwy:

  • Filtrowanie i wyszukiwanie

    Kliknij opcję WEDŁUG NAZWY .

    Jeśli połączono już wypełniony zestaw danych, powinna zostać wyświetlona lista dostępnych kolumn. Jeśli żadna kolumna nie zostanie wyświetlona, może być konieczne uruchomienie nadrzędnych modułów w celu wyświetlenia listy kolumn.

    Aby filtrować listę, wpisz w polu wyszukiwania. Jeśli na przykład wpiszemy literę w w polu wyszukiwania, lista zostanie przefiltrowana w celu pokazania nazw kolumn zawierających literę w.

    Wybierz kolumny i kliknij przycisk strzałki w prawo, aby przenieść wybrane kolumny do listy w okienku po prawej stronie.

    • Aby wybrać ciągły zakres nazw kolumn, naciśnij klawisze Shift + Kliknięcie.
    • Aby dodać poszczególne kolumny do zaznaczenia, naciśnij klawisze Ctrl + kliknięcie.

    Kliknij przycisk znacznika wyboru, aby zapisać i zamknąć.

  • Używanie nazw w połączeniu z innymi regułami

    Kliknij opcję WITH RULES (REGUŁY WITH ).

    Wybierz regułę, na przykład pokazując kolumny określonego typu danych.

    Następnie kliknij poszczególne kolumny tego typu według nazwy, aby dodać je do listy wyboru.

  • Wpisywanie lub wklejanie rozdzielanych przecinkami listy nazw kolumn

    Jeśli zestaw danych jest bardzo szeroki, użycie indeksów lub wygenerowanych list nazw może być łatwiejsze niż zaznaczanie kolumn pojedynczo. Przy założeniu, że lista jest przygotowana z wyprzedzeniem:

    1. Kliknij opcję WITH RULES (REGUŁY WITH ).
    2. Wybierz pozycję Brak kolumn, wybierz pozycję Uwzględnij, a następnie kliknij wewnątrz pola tekstowego z czerwonym wykrzyknikiem.
    3. Wklej lub wpisz rozdzielaną przecinkami listę wcześniej zweryfikowanych nazw kolumn. Nie można zapisać modułu, jeśli dowolna kolumna ma nieprawidłową nazwę, dlatego należy wcześniej sprawdzić nazwy.

    Ta metoda umożliwia również określenie listy kolumn przy użyciu ich wartości indeksu. Zobacz sekcję Przykłady , aby uzyskać porady dotyczące sposobu pracy z indeksami kolumn.

Wybierz według typu

Jeśli używasz opcji WITH RULES (REGUŁY WITH ), możesz zastosować wiele warunków do wyborów kolumn. Na przykład może być konieczne uzyskiwanie tylko kolumn cech typu danych liczbowych.

Opcja ROZPOCZNIJ OD określa punkt początkowy i jest bardzo ważna dla zrozumienia wyników.

  • Jeśli wybierzesz opcję WSZYSTKIE KOLUMNY , wszystkie kolumny zostaną dodane do listy. Następnie należy użyć opcji Wyklucz , aby usunąć kolumny spełniające określone warunki.

    Na przykład możesz zacząć od wszystkich kolumn, a następnie usunąć kolumny według nazwy lub typu.

  • Jeśli wybierzesz opcję BRAK KOLUMN , lista kolumn zacznie być pusta. Następnie określ warunki, aby dodać kolumny do listy.

    Jeśli stosujesz wiele reguł, każdy warunek jest addytywne. Załóżmy na przykład, że zaczynasz od żadnych kolumn, a następnie dodajesz regułę w celu uzyskania wszystkich kolumn liczbowych. W zestawie danych Automobile price (Cena samochodów) wynik wynosi 16 kolumn. Następnie kliknij znak , aby + dodać nowy warunek, i wybierz pozycję Uwzględnij wszystkie funkcje. Wynikowy zestaw danych zawiera wszystkie kolumny liczbowe oraz wszystkie kolumny funkcji, w tym niektóre kolumny funkcji ciągu.

Wybieranie według indeksu kolumn

Indeks kolumn odwołuje się do kolejności kolumny w oryginalnym zestawie danych.

  • Kolumny są numerowane sekwencyjnie, począwszy od 1.
  • Aby uzyskać zakres kolumn, użyj łącznika.
  • Otwarte specyfikacje, takie jak 1- lub -3 są niedozwolone.
  • Zduplikowane wartości indeksu (lub nazwy kolumn) są niedozwolone i mogą powodować błąd.

Na przykład przy założeniu, że zestaw danych zawiera co najmniej osiem kolumn, możesz wkleić dowolny z następujących przykładów, aby zwrócić wiele kolumn niesąązanych:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

Ostatni przykład nie powoduje błędu; Zwraca jednak pojedyncze wystąpienie kolumny 4.

Aby uzyskać dodatkowe porady dotyczące pracy z indeksami kolumn, zobacz sekcję Przykłady .

Zmienianie kolejności kolumn

Opcja Zezwalaj na duplikaty i zachowaj kolejność kolumn w zaznaczeniu rozpoczyna się od pustej listy i dodaje kolumny określone przez nazwę lub indeks. W przeciwieństwie do innych opcji, które zawsze zwracają kolumny w ich "naturalnej kolejności", ta opcja zwraca kolumny w kolejności, w jakiej są nadaj im nazwę lub listę.

Na przykład w zestawie danych z kolumnami Col1, Col2, Col3 i Col4 można odwrócić kolejność kolumn i pozostawić kolumnę 2, określając jedną z następujących list:

  • Col4, Col3, Col1
  • 4,3,1

Przykłady

Przykłady użycia funkcji Select Columns in Dataset (Wybieranie kolumn w zestawie danych) można znaleźć w tych przykładowych eksperymentach w galerii modeli:

Typowe scenariusze wyboru kolumn

W poniższych przykładach opisano niektóre typowe sposoby stosowania przez użytkowników opcji Select Columns in Dataset (Wybieranie kolumn w zestawie danych) w uczeniu maszynowym oraz przedstawiono wskazówki dotyczące wybierania kolumn:

  • Chcę usunąć kolumny tekstowe z zestawu danych, aby można było zastosować operację matematyczne do wszystkich kolumn liczbowych.

    Wiele operacji wymaga, aby zestaw danych zawierał tylko kolumny liczbowe. Możesz tymczasowo usunąć kolumny, które spowodują błąd, wykluczając tekst i wykluczając kolumny podzielone na kategorie (liczby reprezentujące odrębne kategorie).

    1. Kliknij pozycję Launch column selector (Uruchom selektora kolumn).

    2. W przypadku opcji Rozpocznij od wybierz pozycję Wszystkie kolumny.

    3. Wybierz opcję Wyklucz , wybierz typ kolumny, a następnie wybierz pozycję Ciąg.

    4. Kliknij znak plus (+), aby dodać nowy warunek.

    5. Wybierz opcję Wyklucz , wybierz typ kolumny, a następnie wybierz pozycję Podzielone na kategorii.

  • Chcę zastosować wybór funkcji tylko do kolumn funkcji kategorii.

    Jeśli potrzebujesz oddzielić kolumny podobnego typu, możesz zastosować wiele warunków. Na przykład funkcje mogą być podzielone na kategorii lub numeryczne, ale niektóre moduły wyboru funkcji nie zezwalają na pola nieliczbowe, dlatego najpierw należy pobrać funkcje, a następnie dodać warunek, aby uzyskać tylko cechy liczbowe.

    1. Kliknij pozycję Launch column selector (Uruchom selektora kolumn).

    2. W przypadku opcji Rozpocznij od wybierz pozycję Brak kolumn.

    3. Wybierz opcję Dołącz , a następnie wybierz wszystkie funkcje.

    4. Kliknij znak plus (+), aby dodać nowy warunek.

    5. Wybierz opcję Dołącz , wybierz typ kolumny, a następnie wybierz pozycję Podzielone na kategorii.

  • Muszę zastosować inną operację normalizacji do różnych kolumn liczbowych.

    Przed zastosowaniem operacji matematycznych może być konieczne oddzielienie liczb całkowitych od liczb zmiennoprzecinków itd. W tym celu należy użyć typów danych i zastosować wiele warunków.

    1. Kliknij pozycję Launch column selector (Uruchom selektora kolumn).

    2. W przypadku opcji Rozpocznij od wybierz pozycję Brak kolumn.

    3. Wybierz opcję Dołącz , wybierz typ kolumny, a następnie wybierz pozycję Numeryczne.

    4. Kliknij znak plus (+), aby dodać nowy warunek.

    5. Wybierz opcję Dołącz , wybierz typ kolumny, a następnie wybierz typ liczbowy, który jest niezgodny z operacją podrzędnego.

  • Istnieje zbyt wiele kolumn do wyboru przy użyciu selektora.

    Często po zaimportowaniu zestawu danych okazuje się, że ma on wiele kolumn, które nie są potrzebne do modelowania. Jednak chcesz zachować je do danych wyjściowych później lub do identyfikowania przypadków. Możesz to zrobić, dzieląc zestaw danych na dwie części (metadane i kolumny używane do modelowania), a następnie ponownie poineksuj kolumny zgodnie z potrzebami, używając funkcji Dodaj kolumny.

    1. Kliknij pozycję Launch column selector (Uruchom selektora kolumn).

    2. W przypadku opcji Rozpocznij od wybierz pozycję Brak kolumn.

    3. Wybierz opcję Dołącz , wybierz typ kolumny, a następnie wybierz pozycję Funkcja.

    4. Kliknij znak plus (+), aby dodać nowy warunek.

    5. Wybierz opcję Dołącz , wybierz typ kolumny, a następnie wybierz pozycję Etykieta.

    6. Powtórz te kroki, ale zacznij od wszystkich kolumn, a następnie wyklucz kolumny cech i etykiet, aby utworzyć zestaw danych tylko metadanych.

  • Nie znam wartości indeksu dla kolumn, których potrzebuję.

    Jeśli zestaw danych zawiera tylko kilka kolumn, możesz użyć opcji Visualize (Wizualizacja), aby wyświetlić pierwsze 100 wierszy, a następnie ustalić, która kolumna ma indeks 1, 2 itd.

    • Indeksy w Machine Learning zaczynają się od 1, więc pierwsza kolumna ma zawsze wartość 1.

    • Aby uzyskać indeks ostatniej kolumny, przyjrzyj się dwóch listom kolumn w selektorze kolumn: DOSTĘPNE KOLUMNY i WYBRANE KOLUMNY. Szary pasek poniżej listy kolumn wyświetla liczbę kolumn na każdej liście. W związku z tym jeśli są dostępne 24 kolumny i wybrano dwie kolumny, istnieje łącznie 26 kolumn, a indeks ostatniej kolumny wynosi 26.

    Inną opcją wyodrębniania schematu zestawu danych jest użycie modułu Execute R Script (Wykonywanie skryptu R) w celu uzyskania nazw kolumn z numerami indeksu.

    1. Połączenie zestawu danych do modułu Execute R Script (Wykonywanie skryptu R).

    2. W module wpisz skrypt podobny do poniższego, aby wyprowadzić nazwy kolumn. Wiersz rozpoczynający się od myindex generuje sekwencję, która reprezentuje indeksy w kolejności.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Wyniki na zestawie danych Automobile price (Cena samochodów)

    indeks myindex mycolnames
    1 symboling
    2 normalized-losses (znormalizowane straty)
    3 make

Uwagi techniczne

Jeśli znasz relacyjne bazy danych, ten moduł tworzy projekcję danych. stąd oryginalna nazwa, Project Kolumny. W kontekście bazy danych projekcja jest funkcją, taką jak instrukcja Transact-SQL lub LINQ, która przyjmuje dane w formacie tabelaryczym jako dane wejściowe i generuje powiązane dane wyjściowe.

W algebry relacyjnej projekcja jest operacją jednoznaczną, która jest zapisywana jako zestaw nazw atrybutów. Wynikiem projekcji jest zestaw tych atrybutów, z innymi atrybutami odrzucone.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Wybieranie kolumn dowolny ColumnSelection Wybierz kolumny do utrzymania w prognozowanych zestawach danych.

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyjściowy zestaw danych

Wyjątki

Wyjątek Opis
Błąd 0001 Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden wejściowy zestaw danych ma wartość null lub jest pusty.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Manipulacji