Przekształcanie danych — przykład i dzielenie

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano moduły w programie Machine Learning Studio (wersja klasyczna), których można użyć do partycjonowania lub przykładowych danych.

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Dzielenie i próbkowanie zestawów danych są ważnymi zadaniami w uczeniu maszynowym. Na przykład częstą praktyką jest dzielenie danych na zestawy treningowe i testowe, aby ułatwić ocenę modelu na podstawie zestawu danych wstrzymywania. Próbkowanie jest również coraz ważniejsze w erze danych big data, aby zapewnić sprawiedliwe rozmieszczenie klas w danych treningowych. Próbkowanie pomaga również upewnić się, że nie przetwarzasz większej liczby danych, niż jest to potrzebne.

Moduły programu Machine Learning Studio (klasyczne) można użyć, aby dostosować sposób dzielenia lub przykładowych zestawów danych:

Filtrowanie danych szkoleniowych na podstawie atrybutu w danych.
Wykonaj próbkowanie warstwowe, aby podzielić zmienną klasy równomiernie między n liczby grup.
Podziel dane źródłowe na zestaw danych treningowych i testowych przy użyciu niestandardowego współczynnika.
Zastosuj wyrażenia regularne do danych, aby odfiltrować nieprawidłowe wartości.

Wybieranie odpowiedniej operacji: Dzielenie lub próbkowanie

Machine Learning Studio (wersja klasyczna) udostępnia dwa moduły, które hermetyzują zadania. Moduły brzmią podobnie, ale mają różne zastosowania i zapewniają uzupełniające się funkcje. Prawdopodobnie użyjesz obu modułów w eksperymencie, aby uzyskać odpowiednią ilość i odpowiednią kombinację danych.

Następnie porównamy moduły Split Data ( Podział danych) oraz Partition (Partycja) i Sample ( Przykład), aby zobaczyć, do których zadań jest często używany każdy moduł.

Zastosowania modułu Split Data (Podział danych)

Podziel dane na dwie grupy. Użyj modułu Split Data (Podział danych). Moduł tworzy dokładnie dwa podziały danych. Można określić warunek, na którym dane są dzielone, oraz proporcję danych do podzielenia na poszczególne podzestawy. Podział danych zawsze zapisuje podzestaw danych, które nie spełniają warunków.
Przydziel wartości etykiet równomiernie do zestawów danych. Opcja warstwy dla określonej kolumny jest obsługiwana przez oba moduły. Jeśli jednak chcesz utworzyć dwa zestawy danych i interesuje Cię przede wszystkim kolumna label, moduł Split Data (Podział danych) jest szybkim rozwiązaniem.

Przykład użycia modułu Split Data (Podział danych)

Załóżmy, że zaimportowano bardzo duży zestaw danych z pliku CSV. Zestaw danych zawiera dane demograficzne klientów. Chcesz utworzyć różne modele dla klientów w różnych krajach, więc decydujesz się podzielić dane przy użyciu wartości kolumny Country-Region . Oto kroki, które należy wykonać w celu wykonania tego zadania:

Dodaj moduł Split Data (Podział danych), a następnie określ wyrażenie w Country-Region polu. Pozostała część danych jest dostępna w pomocniczych danych wyjściowych.
Dodaj kolejne wystąpienie modułu Split Data (Podział danych).
Powtórz kroki 1 i 2. Określ inny kraj w wyrażeniu dla każdej iteracji.

Moduł Split Data (Podział danych) obsługuje zarówno wyrażenia regularne, dane tekstowe, jak i wyrażenia względne dla danych liczbowych.

Moduł Split Data (Podział danych) udostępnia również zaawansowane funkcje, których można użyć do dzielenia wyspecjalizowanych zestawów danych. Użyj funkcji , aby tworzyć modele rekomendacji i generować przewidywania.

Zastosowania partycji i przykładowego modułu

Próbkowanie. Zawsze używaj modułu Partition (Partycja) i Sample (Przykład ). Moduł udostępnia wiele dostosowywalnych metod próbkowania, w tym kilka opcji próbkowania warstwowego.
Przypisywanie przypadków do wielu grup. Użyj opcji Przypisz do składanialub Wybierz składanie w module Partycja i Przykład .
Zwraca tylko podzbiór danych. Użyj modułu Partition (Partycja) i Sample (Przykład ). Moduł udostępnia określony podzbiór podstawowych danych wyjściowych. Pozostałe dane są dostępne w pomocniczych danych wyjściowych.
Pobierz tylko 2000 górnych wierszy zestawu danych. Użyj modułu Partition (Partycja) i Sample (Przykład ). Wybierz opcję Head (Head). Jest to szczególnie przydatne podczas testowania nowego eksperymentu i chcesz uruchomić krótkie wersje próbne przepływu pracy.

Przykład użycia partycji i przykładowego modułu

Moduły Partition i Sample mogą generować wiele partycji danych, a nie tylko dwie. W tym samym czasie może wykonywać różne operacje próbkowania.

Załóżmy na przykład, że musisz uzyskać tylko 10% danych, jednocześnie zapewniając, że rozkład atrybutu docelowego jest taki sam jak w danych źródłowych. Oto kroki, które należy wykonać w celu wykonania tego zadania:

Dodaj moduł Partition (Partycja) i Sample (Przykład ).
Wybierz tryb próbkowania , a następnie określ 10%.
Wybierz opcję próbkowania warstwowego, a następnie wybierz kolumnę zawierającą atrybut docelowy.

Jeśli nie musisz przechowywać wszystkich danych, użyj modułu Partition (Partycja) i Sample (Przykład ). Pozostałe dane są nadal obecne w obszarze roboczym, ale nie trzeba ich dalej przetwarzać w ramach eksperymentu.

Zwiększ liczbę rzadkich przypadków w próbce lub zrównoważyć przypadki dla wartości docelowej: użyj modułu SMOTE .
Zmniejszenie wymiarowości przez znalezienie kombinacji cech, które najlepiej reprezentują przestrzeń danych: użyj modułu Analiza głównych składników.
Tworzenie kompaktowych funkcji na podstawie analizy cech i liczników: użyj modułu Edukacja z liczbami.
Tworzenie widoku lub projekcji przy użyciu tylko określonych kolumn; usuwanie lub ukrywanie kolumn w zestawie danych: użyj modułów Select Columns in Dataset (Wybieranie kolumn w zestawie danych) i Apply SQL Transformation (Stosowanie przekształceń danych).
Zastosuj bardziej złożone filtry danych, grupowania lub przekształcenia: użyj modułów Wykonaj skrypt R i Zastosuj SQL przekształcenia.

Lista modułów

Ta kategoria obejmuje następujące moduły:

Partycja i przykład: tworzy wiele partycji zestawu danych na podstawie próbkowania.
Dzielenie danych: dzieli wiersze zestawu danych na dwa odrębne zestawy.

Przekształcanie danych — przykład i dzielenie

Wybieranie odpowiedniej operacji: Dzielenie lub próbkowanie

Zastosowania modułu Split Data (Podział danych)

Przykład użycia modułu Split Data (Podział danych)

Zastosowania partycji i przykładowego modułu

Przykład użycia partycji i przykładowego modułu

Lista modułów

Zobacz też

Dodatkowe zasoby

Przekształcanie danych — przykład i dzielenie

Wybieranie odpowiedniej operacji: Dzielenie lub próbkowanie

Zastosowania modułu Split Data (Podział danych)

Przykład użycia modułu Split Data (Podział danych)

Zastosowania partycji i przykładowego modułu

Przykład użycia partycji i przykładowego modułu

Zadania powiązane

Lista modułów

Zobacz też

Dodatkowe zasoby