składnik lasu decyzyjnego Two-Class

W tym artykule opisano składnik w projektancie Azure Machine Learning.

Użyj tego składnika, aby utworzyć model uczenia maszynowego na podstawie algorytmu lasów decyzyjnych.

Lasy decyzyjne są szybkie, nadzorowane modele zespołów. Ten składnik jest dobrym wyborem, jeśli chcesz przewidzieć cel z maksymalnie dwoma wynikami.

Opis lasów decyzyjnych

Ten algorytm lasu decyzyjnego to metoda szkoleniowa zespołu przeznaczona do zadań klasyfikacji. Metody zespołu są oparte na ogólnej zasadzie, która zamiast polegać na jednym modelu, można uzyskać lepsze wyniki i bardziej uogólniony model, tworząc wiele powiązanych modeli i łącząc je w jakiś sposób. Ogólnie rzecz biorąc, modele zespołów zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne.

Istnieje wiele sposobów tworzenia poszczególnych modeli i łączenia ich w zespole. Ta konkretna implementacja lasu decyzyjnego działa, tworząc wiele drzew decyzyjnych, a następnie głosując na najpopularniejszą klasę danych wyjściowych. Głosowanie jest jedną z lepiej znanych metod generowania wyników w modelu zespołu.

  • Wiele pojedynczych drzew klasyfikacji jest tworzonych przy użyciu całego zestawu danych, ale różnych (zwykle losowych) punktów początkowych. Różni się to od podejścia lasu losowego, w którym poszczególne drzewa decyzyjne mogą używać tylko losowej części danych lub funkcji.
  • Każde drzewo w drzewie lasu decyzyjnego generuje histogram nienormalizowanej częstotliwości etykiet.
  • Proces agregacji sumuje te histogramy i normalizuje wynik, aby uzyskać "prawdopodobieństwa" dla każdej etykiety.
  • Drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

Drzewa decyzyjne w ogóle mają wiele zalet dla zadań klasyfikacji:

  • Mogą przechwytywać nieliniowe granice decyzyjne.
  • Możesz trenować i przewidywać na dużą ilość danych, ponieważ są one wydajne w obliczeniach i użyciu pamięci.
  • Wybór funkcji jest zintegrowany z procesami trenowania i klasyfikacji.
  • Drzewa mogą pomieścić hałaśliwych danych i wiele funkcji.
  • Są to modele nieparametryczne, co oznacza, że mogą obsługiwać dane z różnymi rozkładami.

Jednak proste drzewa decyzyjne mogą nadmiernie dopasować się do danych i są mniej uogólnialne niż zespoły drzew.

Aby uzyskać więcej informacji, zobacz Lasy decyzyjne.

Jak skonfigurować

  1. Dodaj do potoku składnik Dwuklasowy las decyzyjny w Azure Machine Learning i otwórz okienko Właściwości składnika.

    Składnik można znaleźć w Machine Learning. Rozwiń węzeł Inicjowanie, a następnie pozycję Klasyfikacja.

  2. W obszarze Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać opcję Bagging lub Replikuj.

    • Bagging: Bagging jest również nazywany agregowaniem bootstrap. W tej metodzie każde drzewo jest uprawiane na nowej próbce, tworzone losowo przez próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony zestaw danych o rozmiarze oryginału.

      Dane wyjściowe modeli są łączone przez głosowanie, co jest formą agregacji. Każde drzewo w lesie decyzyjnym klasyfikacji generuje histogram nienormalizowanej częstotliwości etykiet. Agregacja polega na sumowanie tych histogramów i normalizację w celu uzyskania "prawdopodobieństwa" dla każdej etykiety. W ten sposób drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

      Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregowania bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, którego predykatu podzielonego jest używane dla każdego węzła drzewa, pozostaje losowe, a drzewa będą zróżnicowane.

  3. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty.

    • Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry przy użyciu składnika Hiperparametry modelu dostrajania . Podajesz kilka wartości, a trener iteruje wiele kombinacji ustawień w celu określenia kombinacji wartości, które dają najlepszy wynik.

  4. W polu Liczba drzew decyzyjnych wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepszy zasięg, ale czas szkolenia zwiększa się.

    Uwaga

    Jeśli ustawisz wartość na 1. Można jednak wygenerować tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracji.

  5. W polu Maksymalna głębokość drzew decyzyjnych wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  6. W polu Minimalna liczba próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  7. Wybierz opcję Zezwalaj na nieznane wartości dla funkcji kategorii , aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub walidacji. Model może być mniej precyzyjny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

    Jeśli usuniesz zaznaczenie tej opcji, model może akceptować tylko wartości zawarte w danych treningowych.

  8. Dołącz oznaczony etykietą zestaw danych i wytrenuj model:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model .

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów tune model.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    Jeśli przekazujesz jeden zestaw wartości parametrów do składnika Hiperparametry modelu dostrajania , gdy oczekuje on zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, ta określona wartość jest używana w całym zamiataniu, nawet jeśli inne parametry zmieniają się w zakresie wartości.

Wyniki

Po zakończeniu trenowania:

  • Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu składnika Train model (Trenowanie składnika modelu ). Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.

  • Aby użyć modelu do oceniania, dodaj składnik Score Model do potoku.

Następne kroki

Zobacz zestaw składników dostępnych do Azure Machine Learning.