Dzielenie zestawu danych przy użyciu wyrażenia względnego

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób używania opcji Podział wyrażenia względnego w module Split Data (Dzielenie danych) w usłudze Machine Learning Studio (wersja klasyczna). Ta opcja jest przydatna, gdy musisz podzielić zestaw danych na zestawy danych szkoleniowych i testowych przy użyciu wyrażenia liczbowego. Na przykład:

  • Wiek większy niż 40 vs. 40 lub młodszy
  • Wynik testu 60 lub wyższy niż 60
  • Ranga wartości 1 a wszystkie inne wartości

Uwaga

Dotyczy: tylko usługa Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w projektancie usługi Azure Machine Learning.

Aby podzielić dane, należy wybrać pojedynczą kolumnę liczbową w danych i zdefiniować wyrażenie do użycia w ocenie każdego wiersza. Wyrażenie względne musi zawierać nazwę kolumny, wartość i operator, taki jak większe niż i mniejsze, równe i nie równe.

Ta opcja dzieli zestaw danych na dwie grupy.

Aby uzyskać ogólne informacje na temat partycjonowania danych na potrzeby eksperymentów uczenia maszynowego, zobacz Split Data and Partition and Split (Dzielenie danych i podział).

Inne opcje w module Split Data (Podział danych ):

Dzielenie zestawu danych przy użyciu wyrażenia względnego

  1. Dodaj moduł Split Data (Podział danych ) do eksperymentu w stuio i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.

  2. W obszarze Tryb dzielenia wybierz podział wyrażenia względnego.

  3. W polu tekstowym Wyrażenie relacyjne wpisz wyrażenie, które wykonuje operację porównania liczbowego w jednej kolumnie:

    • Kolumna zawiera liczby dowolnego typu danych liczbowych, w tym typy danych daty/godziny.

    • Wyrażenie może odwoływać się do maksymalnie jednej nazwy kolumny.

    • Użyj znaku ampersand (&) dla operacji AND i użyj znaku potoku (|) dla operacji OR.

    • Obsługiwane są następujące operatory: <, >, <=, >=, , ==!=

    • Nie można grupowania operacji przy użyciu elementów ( i ).

    Aby zapoznać się z pomysłami , zobacz sekcję Przykłady.

  4. Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybrane.

    Wyrażenie dzieli zestaw danych na dwa zestawy wierszy: wiersze z wartościami spełniającymi warunek i wszystkimi pozostałymi wierszami.

    Jeśli musisz wykonać dodatkowe operacje podziału, możesz dodać drugie wystąpienie *Split Data (Podziel dane) lub użyć modułu Apply SQL Transformation (Zastosuj przekształcenie SQL ) i zdefiniować instrukcję CASE.

Przykłady wyrażeń relatve

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Wyrażenie względne w module Split Data (Podział danych ):

Korzystanie z roku kalendarzowego

Typowym scenariuszem jest podzielenie zestawu danych przez lata. Następujące wyrażenie wybiera wszystkie wiersze, w których wartości w kolumnie Year są większe niż 2010.

\"Year" > 2010

Wyrażenie daty musi uwzględniać wszystkie części dat zawarte w kolumnie danych, a format dat w kolumnie danych musi być spójny.

Na przykład w kolumnie daty przy użyciu formatu mmddyyyywyrażenie powinno wyglądać następująco:

\"Date" > 1/1/2010

Używanie indeksów kolumn

Poniższe wyrażenie pokazuje, jak za pomocą indeksu kolumny wybrać wszystkie wiersze w pierwszej kolumnie zestawu danych zawierającego wartości mniejsze lub równe 30, ale nie równe 20.

(\0)<=30 & !=20

Operacja złożona na wartościach czasu przy użyciu wielu podziałów

Załóżmy, że chcesz podzielić tabelę danych dziennika na grupowanie zapytań, które działają zbyt długo. Możesz użyć następującego wyrażenia względnego w kolumnie , Elapsedaby uzyskać zapytania uruchamiane przez 1 minutę.

\"Elapsed" >00:01:00

Aby uzyskać zapytania z czasem odpowiedzi poniżej jednej minuty, ale ponad 30 sekund, dodaj kolejne wystąpienie split data w danych wyjściowych po prawej stronie i użyj wyrażenia w następujący sposób:

\"Elapsed" <:00:01:00 & >00:00:30

Dzielenie zestawu danych na wartości daty

Następujące wyrażenie względne dzieli zestaw danych przy użyciu wartości daty w kolumnie dt1.

\"dt1" > 10-08-2015

Wiersze z datą większą niż 10-08-2015 są dodawane do pierwszego (po lewej) wyjściowego zestawu danych.

Wiersze z datą 10-08-2015 lub starszą są dodawane do drugiego (po prawej) wyjściowego zestawu danych.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Ograniczenia

Następujące ograniczenia dotyczą wyrażeń względnych w zestawie danych:

  • Wyrażenia względne można stosować tylko do typów danych liczbowych i typów danych daty/godziny.
  • Wyrażenia względne mogą odwoływać się do maksymalnie jednej nazwy kolumny.
  • Użyj znaku ampersand (&) dla operacji AND i znaku potoku (|) dla operacji OR.
  • Następujące operatory są dozwolone dla wyrażeń względnych: <, >, <=, >=, , ==!=
  • Operacje grupowania z nawiasami nie są obsługiwane.

Zobacz też

Przykład i podział
Partycjonowanie i próbkowanie