Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego w usłudze Azure Machine Edukacja Studio

Artykuł
01/10/2024

Dowiedz się, jak wytrenować model klasyfikacji bez użycia automatycznego uczenia maszynowego przy użyciu usługi Azure Machine Edukacja zautomatyzowanego uczenia maszynowego w usłudze Azure Machine Edukacja Studio. Ten model klasyfikacji przewiduje, że klient zasubskrybuje depozyt na stałe z instytucją finansową.

Dzięki zautomatyzowanemu uczeniu maszynowe można automatyzować zadania wymagające dużej ilości czasu. Zautomatyzowane uczenie maszynowe szybko iteruje wiele kombinacji algorytmów i hiperparametrów, aby ułatwić znalezienie najlepszego modelu na podstawie wybranej metryki sukcesu.

W tym samouczku nie napiszesz żadnego kodu. Użyjesz interfejsu studio do przeprowadzenia trenowania. Dowiesz się, jak wykonywać następujące zadania:

Tworzenie obszaru roboczego usługi Azure Machine Edukacja.
Uruchamianie eksperymentu zautomatyzowanego uczenia maszynowego.
Eksplorowanie szczegółów modelu.
Wdróż zalecany model.

Wypróbuj również zautomatyzowane uczenie maszynowe dla tych innych typów modeli:

Aby zapoznać się z przykładem prognozowania bez kodu, zobacz Samouczek: prognozowanie zapotrzebowania i automl.
Aby zapoznać się z pierwszym przykładem kodu modelu wykrywania obiektów, zobacz Samouczek: trenowanie modelu wykrywania obiektów przy użyciu rozwiązania AutoML i języka Python.

Wymagania wstępne

Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto.
Pobierz plik danych bankmarketing_train.csv. Kolumna y wskazuje, czy klient zasubskrybował depozyt o stałym okresie, który później został zidentyfikowany jako kolumna docelowa przewidywań w tym samouczku.

Tworzenie obszaru roboczego

Obszar roboczy usługi Azure Machine Edukacja to podstawowy zasób w chmurze używany do eksperymentowania, trenowania i wdrażania modeli uczenia maszynowego. Łączy subskrypcję platformy Azure i grupę zasobów z łatwo używanym obiektem w usłudze.

W tym samouczku wykonaj następujące kroki, aby utworzyć obszar roboczy i kontynuować samouczek.

Zaloguj się do usługi Azure Machine Edukacja Studio
Wybierz pozycję Utwórz obszar roboczy
Podaj następujące informacje, aby skonfigurować nowy obszar roboczy:

Pole	opis
Nazwa obszaru roboczego	Wprowadź unikatową nazwę identyfikującą obszar roboczy. Nazwy muszą być unikatowe w całej grupie zasobów. Użyj nazwy, która jest łatwa do przywoływania i rozróżniania obszarów roboczych utworzonych przez inne osoby. Nazwa obszaru roboczego jest niewrażliwa na wielkość liter.
Subskrypcja	Wybierz subskrypcję platformy Azure, której chcesz użyć.
Grupa zasobów	Użyj grupy zasobów istniejącej w Twojej subskrypcji lub wprowadź nazwę, aby utworzyć nową grupę zasobów. Grupa zasobów zawiera powiązane zasoby dla rozwiązania platformy Azure. Aby użyć istniejącej grupy zasobów, potrzebujesz roli współautora lub właściciela . Aby uzyskać więcej informacji na temat dostępu, zobacz Zarządzanie dostępem do obszaru roboczego usługi Azure Machine Edukacja.
Region (Region)	Wybierz region świadczenia usługi Azure najbliżej Twoich użytkowników i zasobów danych, aby utworzyć obszar roboczy.

Wybierz pozycję Utwórz , aby utworzyć obszar roboczy

Aby uzyskać więcej informacji na temat zasobów platformy Azure, zapoznaj się z krokami w tym artykule Tworzenie zasobów, które należy rozpocząć.

Aby uzyskać inne sposoby tworzenia obszaru roboczego na platformie Azure, zarządzanie obszarami roboczymi usługi Azure Machine Edukacja w portalu lub przy użyciu zestawu SDK języka Python (wersja 2).

Tworzenie zadania Edukacja zautomatyzowanej maszyny

Wykonasz następujące kroki konfigurowania i uruchamiania eksperymentu za pośrednictwem narzędzia Azure Machine Edukacja Studio w witrynie https://ml.azure.com, skonsolidowanego interfejsu internetowego, który obejmuje narzędzia uczenia maszynowego do wykonywania scenariuszy nauki o danych dla praktyków nauki o danych na wszystkich poziomach umiejętności. Program Studio nie jest obsługiwany w przeglądarkach programu Internet Explorer.

Wybierz subskrypcję i utworzony obszar roboczy.
W okienku po lewej stronie wybierz pozycję Zautomatyzowane uczenie maszynowe w sekcji Tworzenie .

Ponieważ jest to pierwszy zautomatyzowany eksperyment uczenia maszynowego, zobaczysz pustą listę i linki do dokumentacji.
Wybierz pozycję +Nowe zadanie zautomatyzowanego uczenia maszynowego.

Tworzenie i ładowanie zestawu danych jako zasobu danych

Przed skonfigurowaniem eksperymentu przekaż plik danych do obszaru roboczego w postaci zasobu danych usługi Azure Machine Edukacja. W przypadku tego samouczka możesz traktować zasób danych jako zestaw danych zadania automatycznego uczenia maszynowego. Dzięki temu można mieć pewność, że dane są odpowiednio sformatowane dla eksperymentu.

Utwórz nowy zasób danych, wybierając pozycję Z plików lokalnych z listy rozwijanej +Utwórz zasób danych.

W formularzu Informacje podstawowe podaj nazwę zasobu danych i podaj opcjonalny opis. Interfejs zautomatyzowanego uczenia maszynowego obecnie obsługuje tylko zestawy danych tabelarycznych, więc typ zestawu danych powinien być domyślnie włączony do tabelarycznego.
Wybierz pozycję Dalej w lewym dolnym rogu
W formularzu Wyboru magazynu danych i pliku wybierz domyślny magazyn danych, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego, workspaceblobstore (Azure Blob Storage). W tym miejscu przekażesz plik danych, aby udostępnić go obszarowi roboczemu.
Wybierz pozycję Przekaż pliki z listy rozwijanej Przekaż .
Wybierz plik bankmarketing_train.csv na komputerze lokalnym. Jest to plik pobrany jako warunek wstępny.
Wybierz pozycję Dalej w lewym dolnym rogu, aby przekazać go do domyślnego kontenera, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego.

Po zakończeniu przekazywania formularz Ustawienia i podgląd jest wstępnie wypełniany na podstawie typu pliku.

Sprawdź, czy dane są prawidłowo sformatowane za pomocą formularza Schemat . Dane powinny zostać wypełnione w następujący sposób. Po sprawdzeniu, czy dane są dokładne, wybierz pozycję Dalej.

Pole	opis	Wartość dla samouczka
File format	Definiuje układ i typ danych przechowywanych w pliku.	Rozdzielane
Ogranicznik	Co najmniej jeden znak określający granicę między oddzielnymi, niezależnymi regionami w postaci zwykłego tekstu lub innych strumieni danych.	Comma
Kodowanie	Określa, jakiego bitu do tabeli schematów znaków używać do odczytywania zestawu danych.	UTF-8
Nagłówki kolumn	Wskazuje, jak będą traktowane nagłówki zestawu danych, jeśli istnieją.	Wszystkie pliki mają te same nagłówki
Pomiń wiersze	Wskazuje, ile wierszy zostanie pominiętych w zestawie danych, jeśli istnieje.	Brak

Formularz Schemat umożliwia dalszą konfigurację danych dla tego eksperymentu. W tym przykładzie wybierz przełącznik dla day_of_week, aby go nie dołączać. Wybierz Dalej.
W formularzu Potwierdź szczegóły sprawdź, czy informacje są zgodne z informacjami, które zostały wcześniej wypełnione w obszarze Informacje podstawowe, Magazyn danych i wybór pliku oraz Ustawienia i formularze podglądu.
Wybierz pozycję Utwórz , aby ukończyć tworzenie zestawu danych.
Wybierz zestaw danych po wyświetleniu go na liście.
Przejrzyj dane, wybierając zasób danych i przeglądając kartę podglądu, która zostanie wypełniona, aby upewnić się, że nie dołączysz day_of_week, a następnie wybierz pozycję Zamknij.
Wybierz Dalej.

Konfigurowanie zadania

Po załadowaniu i skonfigurowaniu danych możesz skonfigurować eksperyment. Ta konfiguracja obejmuje zadania projektowe eksperymentów, takie jak wybór rozmiaru środowiska obliczeniowego i określenie kolumny, którą chcesz przewidzieć.

Wybierz przycisk radiowy Utwórz nowy.

Wypełnij formularz Konfigurowanie zadania w następujący sposób:

Wprowadź następującą nazwę eksperymentu: my-1st-automl-experiment
Wybierz y jako kolumnę docelową, co chcesz przewidzieć. Ta kolumna wskazuje, czy klient subskrybował depozyt terminowy, czy nie.
Wybierz klaster obliczeniowy jako typ obliczeniowy.

Docelowy obiekt obliczeniowy to lokalne lub oparte na chmurze środowisko zasobów używane do uruchamiania skryptu szkoleniowego lub hostowania wdrożenia usługi. W tym eksperymencie możesz wypróbować bezserwerowe obliczenia oparte na chmurze (wersja zapoznawcza) lub utworzyć własne obliczenia oparte na chmurze.

Aby korzystać z bezserwerowych obliczeń, włącz funkcję w wersji zapoznawczej, wybierz pozycję Bezserwerowe i pomiń resztę tego kroku.

Aby utworzyć własny docelowy obiekt obliczeniowy, wybierz pozycję +Nowy , aby skonfigurować docelowy obiekt obliczeniowy.

Wypełnij formularz Select virtual machine (Wybieranie maszyny wirtualnej), aby skonfigurować obliczenia.

Pole	opis	Wartość dla samouczka
Lokalizacja	Region, z którego chcesz uruchomić maszynę	Zachodnie stany USA 2
Warstwa maszyny wirtualnej	Wybierz priorytet, jaki powinien mieć eksperyment	Dedykowane
Typ maszyny wirtualnej	Wybierz typ maszyny wirtualnej dla obliczeń.	Procesor CPU (centralna jednostka przetwarzania)
Rozmiar maszyny wirtualnej	Wybierz rozmiar maszyny wirtualnej dla obliczeń. Lista zalecanych rozmiarów jest udostępniana na podstawie danych i typu eksperymentu.	Standard_DS12_V2

Wybierz przycisk Dalej , aby wypełnić formularz Konfigurowanie ustawień.

Pole	opis	Wartość dla samouczka
Nazwa obiektu obliczeniowego	Unikatowa nazwa identyfikująca kontekst obliczeniowy.	automl-compute
Minimalna/maksymalna liczba węzłów	Aby profilować dane, należy określić co najmniej 1 węzły.	Minimalna liczba węzłów: 1 Maksymalna liczba węzłów: 6
Bezczynność sekund przed skalowaniem w dół	Czas bezczynności przed automatycznym skalowaniem klastra w dół do minimalnej liczby węzłów.	120 (ustawienie domyślne)
Ustawienia zaawansowane	Ustawienia skonfigurować i autoryzować sieć wirtualną na potrzeby eksperymentu.	Brak

Wybierz pozycję Utwórz , aby utworzyć docelowy obiekt obliczeniowy.

Ukończenie tego procesu może potrwać kilka minut.
Po utworzeniu wybierz nowy docelowy obiekt obliczeniowy z listy rozwijanej.

Wybierz Dalej.

W formularzu Wybierz zadanie i ustawienia ukończ konfigurację eksperymentu zautomatyzowanego uczenia maszynowego, określając typ zadania i ustawienia konfiguracji uczenia maszynowego.

Wybierz pozycję Klasyfikacja jako typ zadania uczenia maszynowego.

Wybierz pozycję Wyświetl dodatkowe ustawienia konfiguracji i wypełnij pola w następujący sposób. Te ustawienia umożliwiają lepszą kontrolę nad zadaniem trenowania. W przeciwnym razie wartości domyślne są stosowane na podstawie wyboru eksperymentu i danych.

Dodatkowe konfiguracje	opis	Wartość dla samouczka
Metryka podstawowa	Metryka oceny mierzona przez algorytm uczenia maszynowego.	AUC_weighted
Wyjaśnienie najlepszego modelu	Automatycznie pokazuje możliwość wyjaśnienia najlepszego modelu utworzonego przez zautomatyzowane uczenie maszynowe.	Włącz
Zablokowane algorytmy	Algorytmy, które mają zostać wykluczone z zadania trenowania	Brak
Dodatkowe ustawienia klasyfikacji	Te ustawienia pomagają zwiększyć dokładność modelu	Etykieta klasy dodatniej: Brak
Kryterium wyjścia	Jeśli zostaną spełnione kryteria, zadanie trenowania zostanie zatrzymane.	Czas zadania szkolenia (godziny): 1 Próg oceny metryki: Brak
Współbieżność	Maksymalna liczba wykonanych iteracji równoległych na iterację	Maksymalna liczba iteracji współbieżnych: 5

Wybierz pozycję Zapisz.

Wybierz Dalej.

Na formularzu weryfikacji i testowania [opcjonalnie]
1. Wybierz k-fold krzyżową walidację jako typ walidacji.
2. Wybierz wartość 2 jako liczbę krzyżowych walidacji.
Wybierz pozycję Zakończ , aby uruchomić eksperyment. Zostanie otwarty ekran Szczegóły zadania ze stanem zadania u góry po rozpoczęciu przygotowywania eksperymentu. Ten stan jest aktualizowany w miarę postępu eksperymentu. Powiadomienia są również wyświetlane w prawym górnym rogu studia, aby poinformować Cię o stanie eksperymentu.

Ważne

Przygotowanie trwa od 10 do 15 minut , aby przygotować przebieg eksperymentu. Po uruchomieniu kolejne 2–3 minuty dla każdej iteracji trwa 2–3 minuty.

W środowisku produkcyjnym prawdopodobnie odejdziesz trochę. Jednak na potrzeby tego samouczka zalecamy rozpoczęcie eksplorowania przetestowanych algorytmów na karcie Modele , gdy pozostałe są nadal uruchomione.

Eksplorowanie modeli

Przejdź do karty Modele , aby zobaczyć przetestowane algorytmy (modele). Domyślnie modele są uporządkowane według wyniku metryki w miarę ich ukończenia. W tym samouczku model, który ocenia najwyższą wartość na podstawie wybranej metryki AUC_weighted , znajduje się na początku listy.

Podczas oczekiwania na zakończenie wszystkich modeli eksperymentów wybierz nazwę algorytmu ukończonego modelu, aby zapoznać się ze szczegółami wydajności.

Poniżej przedstawiono przechodzenie przez karty Szczegóły i Metryki , aby wyświetlić właściwości, metryki i wykresy wydajności wybranego modelu.

Run iteration detail

Wyjaśnienia modelu

Podczas oczekiwania na ukończenie modeli możesz również przyjrzeć się wyjaśnieniom modelu i sprawdzić, które funkcje danych (nieprzetworzone lub zaprojektowane) miały wpływ na przewidywania określonego modelu.

Te wyjaśnienia modelu można wygenerować na żądanie i są podsumowane na pulpicie nawigacyjnym wyjaśnień modelu, który jest częścią karty Wyjaśnienia (wersja zapoznawcza).

Aby wygenerować wyjaśnienia modelu,

Wybierz pozycję Zadanie 1 u góry, aby wrócić do ekranu Modele .
Wybierz kartę Modele .
Na potrzeby tego samouczka wybierz pierwszy model MaxAbsScaler, LightGBM .
Wybierz przycisk Wyjaśnij model u góry. Po prawej stronie zostanie wyświetlone okienko Wyjaśnij model .
Wybierz utworzony wcześniej automl-compute. Ten klaster obliczeniowy inicjuje zadanie podrzędne w celu wygenerowania wyjaśnień modelu.
Wybierz pozycję Utwórz u dołu. Zielony komunikat o powodzeniu pojawia się w górnej części ekranu.

Uwaga

Zadanie objaśnienia trwa około 2–5 minut.
Wybierz przycisk Wyjaśnienia (wersja zapoznawcza). Ta karta zostanie wypełniona po zakończeniu przebiegu objaśnienia.
Po lewej stronie rozwiń okienko i wybierz wiersz, który jest wyświetlany jako nieprzetworzone w obszarze Funkcje.
Wybierz kartę Zagregowanie ważności funkcji po prawej stronie. Ten wykres pokazuje, które funkcje danych miały wpływ na przewidywania wybranego modelu.

W tym przykładzie czas trwania wydaje się mieć największy wpływ na przewidywania tego modelu.

Wdrażanie najlepszego modelu

Interfejs zautomatyzowanego uczenia maszynowego umożliwia wdrożenie najlepszego modelu jako usługi internetowej w kilku krokach. Wdrożenie to integracja modelu, dzięki czemu może przewidywać nowe dane i identyfikować potencjalne obszary możliwości.

W tym eksperymencie wdrożenie w usłudze internetowej oznacza, że instytucja finansowa ma teraz iteracyjne i skalowalne rozwiązanie internetowe do identyfikowania potencjalnych klientów z depozytami stałymi.

Sprawdź, czy przebieg eksperymentu został ukończony. W tym celu przejdź z powrotem do strony nadrzędnego zadania, wybierając pozycję Zadanie 1 w górnej części ekranu. Stan Ukończono jest wyświetlany w lewym górnym rogu ekranu.

Po zakończeniu przebiegu eksperymentu strona Szczegóły zostanie wypełniona sekcją Podsumowanie najlepszego modelu . W tym kontekście eksperymentu votingEnsemble jest uważany za najlepszy model na podstawie metryki AUC_weighted .

Wdrożenie tego modelu trwa około 20 minut. Proces wdrażania obejmuje kilka kroków, w tym rejestrowanie modelu, generowanie zasobów i konfigurowanie ich dla usługi internetowej.

Wybierz pozycję VotingEnsemble , aby otworzyć stronę specyficzną dla modelu.
Wybierz menu Wdróż w lewym górnym rogu i wybierz pozycję Wdróż w usłudze internetowej.

Wypełnij okienko Wdrażanie modelu w następujący sposób:

Pole	Wartość
Nazwa wdrożenia	my-automl-deploy
Opis wdrożenia	Moje pierwsze wdrożenie eksperymentu zautomatyzowanego uczenia maszynowego
Typ środowiska obliczeniowego	Wybieranie wystąpienia kontenera platformy Azure (ACI)
Włącz uwierzytelnianie	Wyłącz.
Korzystanie z wdrożeń niestandardowych	Wyłącz. Umożliwia automatyczne generowanie domyślnego pliku sterownika (skryptu oceniania) i pliku środowiska.

W tym przykładzie użyjemy wartości domyślnych podanych w menu Zaawansowane .

Wybierz Wdróż.

Zielony komunikat o powodzeniu pojawia się w górnej części ekranu Zadanie , a w okienku Podsumowanie modelu w obszarze Stan wdrożenia zostanie wyświetlony komunikat o stanie. Wybierz pozycję Odśwież okresowo, aby sprawdzić stan wdrożenia.

Teraz masz działającą usługę internetową do generowania przewidywań.

Przejdź do następnych kroków, aby dowiedzieć się więcej na temat korzystania z nowej usługi internetowej i przetestować przewidywania przy użyciu wbudowanej obsługi usługi Azure Machine Edukacja usługi Power BI.

Czyszczenie zasobów

Pliki wdrażania są większe niż pliki danych i eksperymentów, więc kosztują więcej do przechowywania. Usuń tylko pliki wdrażania, aby zminimalizować koszty na koncie lub jeśli chcesz zachować obszar roboczy i pliki eksperymentów. W przeciwnym razie usuń całą grupę zasobów, jeśli nie planujesz używać żadnego z plików.

Usuwanie wystąpienia wdrożenia

Usuń tylko wystąpienie wdrożenia z usługi Azure Machine Edukacja na https://ml.azure.com/stronie , jeśli chcesz zachować grupę zasobów i obszar roboczy na potrzeby innych samouczków i eksploracji.

Przejdź do usługi Azure Machine Edukacja. Przejdź do obszaru roboczego i po lewej stronie w okienku Zasoby wybierz pozycję Punkty końcowe.
Wybierz wdrożenie, które chcesz usunąć, a następnie wybierz pozycję Usuń.
Wybierz pozycję Kontynuuj.

Usuwanie grupy zasobów

Ważne

Utworzone zasoby mogą być używane jako wymagania wstępne w innych samouczkach usługi Azure Machine Edukacja i artykułach z instrukcjami.

Jeśli nie planujesz korzystać z żadnych utworzonych zasobów, usuń je, aby nie ponosić żadnych opłat:

W witrynie Azure Portal na końcu z lewej strony wybierz pozycję Grupy zasobów.
Z listy wybierz utworzoną grupę zasobów.
Wybierz pozycję Usuń grupę zasobów.
Wpisz nazwę grupy zasobów. Następnie wybierz Usuń.

Następne kroki

W tym samouczku dotyczącym zautomatyzowanego uczenia maszynowego użyto zautomatyzowanego interfejsu uczenia maszynowego usługi Azure Machine Edukacja do utworzenia i wdrożenia modelu klasyfikacji. Aby uzyskać więcej informacji i następnych kroków, zobacz następujące artykuły:

Korzystanie z usługi internetowej

Dowiedz się więcej na temat zautomatyzowanego uczenia maszynowego.
Aby uzyskać więcej informacji na temat metryk klasyfikacji i wykresów, zobacz artykuł Omówienie wyników zautomatyzowanego uczenia maszynowego.

Uwaga

Ten zestaw danych marketingu bankowego jest udostępniany w ramach licencji Creative Commons (CCO: Domena publiczna). Wszelkie prawa w poszczególnych treściach bazy danych są licencjonowane w ramach licencji zawartości bazy danych i dostępne na platformie Kaggle. Ten zestaw danych był pierwotnie dostępny w usłudze UCI Machine Edukacja Database.

[Moro et al., 2014] S. Moro, P. Cortez i P. Rita. Podejście oparte na danych do przewidywania sukcesu telemarketingu bankowego. Decision Support Systems, Elsevier, 62:22-31, czerwiec 2014.