Two-Class składnik wzmocnionego drzewa decyzyjnego

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model uczenia maszynowego oparty na wzmocnionym algorytmie drzew decyzyjnych.

Wzmocnione drzewo decyzyjne to metoda szkoleniowa zespołu, w której drugie drzewo poprawia błędy pierwszego drzewa, trzecie drzewo poprawia błędy pierwszych i drugich drzew, itd. Przewidywania są oparte na całym zestawie drzew, które tworzą przewidywanie.

Ogólnie rzecz biorąc, w przypadku prawidłowego skonfigurowania wzmocnione drzewa decyzyjne są najprostszymi metodami, dzięki którym można uzyskać najwyższą wydajność w wielu różnych zadaniach uczenia maszynowego. Są one jednak również jednym z bardziej intensywnie korzystających z pamięci uczniów, a obecna implementacja przechowuje wszystko w pamięci. W związku z tym wzmocniony model drzewa decyzyjnego może nie być w stanie przetworzyć dużych zestawów danych, które mogą obsłużyć niektóre liniowe osoby uczące się.

Ten składnik jest oparty na algorytmie LightGBM.

Sposób konfigurowania

Ten składnik tworzy nietrenowany model klasyfikacji. Ponieważ klasyfikacja jest metodą uczenia nadzorowanego, do trenowania modelu potrzebny jest otagowany zestaw danych zawierający kolumnę etykiety z wartością dla wszystkich wierszy.

Ten typ modelu można wytrenować przy użyciu trenowania modelu.

  1. W usłudze Azure Machine Learning dodaj składnik Wzmocnione drzewo decyzyjne do potoku.

  2. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty.

    • Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry przy użyciu składnika Hiperparametry modelu dostrajania . Podajesz kilka wartości, a trener iteruje wiele kombinacji ustawień w celu określenia kombinacji wartości, które dają najlepszy wynik.

  3. W polu Maksymalna liczba liści na drzewo wskaż maksymalną liczbę węzłów terminalu (liści), które można utworzyć w dowolnym drzewie.

    Zwiększając tę wartość, potencjalnie zwiększasz rozmiar drzewa i uzyskujesz lepszą precyzję, ryzykując nadmierne dopasowanie i dłuższy czas trenowania.

  4. W polu Minimalna liczba próbek na węzeł liścia wskaż liczbę przypadków wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  5. W polu Szybkość nauki wpisz liczbę z zakresu od 0 do 1, która definiuje rozmiar kroku podczas nauki.

    Szybkość uczenia określa, jak szybko lub wolno uczący się zbiega się z optymalnym rozwiązaniem. Jeśli rozmiar kroku jest zbyt duży, możesz przesłonić optymalne rozwiązanie. Jeśli rozmiar kroku jest zbyt mały, trenowanie trwa dłużej, aby zbiegać się z najlepszym rozwiązaniem.

  6. W polu Liczba skonstruowanych drzew wskaż łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepszy zasięg, ale czas szkolenia wzrośnie.

    Jeśli ustawisz wartość na 1, zostanie wygenerowane tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie zostaną wykonane dalsze iteracji.

  7. W polu Losowe nasion liczb, opcjonalnie wpisz nie ujemną liczbę całkowitą, która ma być używana jako losowa wartość nasion. Określenie nasion zapewnia powtarzalność między przebiegami, które mają te same dane i parametry.

    Losowy nasion jest domyślnie ustawiony na 0, co oznacza, że początkowa wartość nasion jest uzyskiwana z zegara systemowego. Kolejne przebiegi używające losowego inicjacji mogą mieć różne wyniki.

  8. Trenowanie modelu:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model .

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów tune model.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    Jeśli przekazujesz jeden zestaw wartości parametrów do składnika Hiperparametry modelu dostrajania , gdy oczekuje on zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, ta określona wartość jest używana w całym zamiataniu, nawet jeśli inne parametry zmieniają się w zakresie wartości.

Wyniki

Po zakończeniu trenowania:

  • Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu składnika Train model (Trenowanie składnika modelu ). Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.

  • Aby użyć modelu do oceniania, dodaj składnik Score Model do potoku.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.