Zelfstudie: Een classificatiemodel trainen met AutoML zonder code in Azure Machine Learning studio
Meer informatie over het trainen van een classificatiemodel met AutoML zonder code met behulp van Azure Machine Learning geautomatiseerde ML in Azure Machine Learning studio. Dit classificatiemodel voorspelt of een klant een termijnrekening zal openen bij een financiële instelling.
Met geautomatiseerde ML kunt u tijdintensieve taken automatiseren. Geautomatiseerde machine learning doorloopt of itereert snel allerlei combinaties van algoritmen en hyperparameters om het beste model te vinden op basis van uw maatstaaf voor succes.
In deze zelfstudie schrijft u geen code. U gebruikt de Studio-interface om training uit te voeren. U leert hoe u de volgende taken uitvoert:
- Een Azure Machine Learning-werkruimte maken.
- Een experiment voor geautomatiseerde machine learning uitvoeren.
- Details van het model verkennen.
- Implementeer het aanbevolen model.
Probeer ook automatische machine learning voor deze andere modeltypen:
- Zie Zelfstudie: Vraagprognoses maken & AutoML voor een voorbeeld van prognoses zonder code.
- Zie Tutorial: Regression model with AutoML (Zelfstudie: Regressiemodel met AutoML)voor een code eerste voorbeeld van een regressiemodel.
Vereisten
Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis account aan.
Download het gegevensbestand bankmarketing_train.csv. De kolom y geeft aan of een klant een termijnrekening heeft geopend. Verderop in deze zelfstudie wordt deze geïdentificeerd als doelkolom voor voorspellingen.
Een werkruimte maken
Een Azure Machine Learning-werkruimte is een basisblok in de cloud dat u gebruikt voor het experimenteren, trainen en implementeren van machine learning-modellen. De klasse bindt uw Azure-abonnement en resourcegroep aan een eenvoudig te verbruiken object in de service.
Er zijn verschillende manieren om een werkruimte te maken. In deze zelfstudie maakt u een werkruimte via Azure Portal, een webconsole om uw Azure-resources te beheren.
Meld u aan bij de Azure-portal met behulp van de referenties van uw Azure-abonnement.
Selecteer in de linkerbovenhoek van de Azure Portal de drie balken en vervolgens + Een resource maken.
Gebruik de zoekbalk om Machine Learning te vinden.
Selecteer Machine Learning.
Selecteer Maken in het deelvenster Machine Learning om te beginnen.
Geef de volgende gegevens op om uw nieuwe werkruimte te configureren:
Veld Beschrijving Werkruimtenaam Voer een unieke naam in die uw werkruimte aanduidt. In dit voorbeeld gebruiken we docs-ws. Namen moeten uniek zijn binnen de resourcegroep. Gebruik een naam die gemakkelijk te onthouden is en te onderscheiden is van door anderen gemaakte werkruimten. Abonnement Selecteer het Azure-abonnement dat u wilt gebruiken. Resourcegroep Gebruik een bestaande resourcegroep in uw abonnement of voer een naam in om een nieuwe resourcegroep te maken. Een resourcegroep bevat gerelateerde resources voor een Azure-oplossing. In dit voorbeeld gebruiken we docs-aml. Locatie Selecteer de locatie die zich het dichtst bij uw gebruikers en de gegevensresources bevindt om uw werkruimte te maken. Nadat u klaar bent met het configureren van de werkruimte, selecteert u Beoordelen en maken.
Selecteer Maken om de werkruimte te maken.
Waarschuwing
Het kan enkele minuten duren om uw werkruimte in de cloud te maken.
Wanneer het proces is voltooid, wordt er een bericht weergegeven dat de implementatie is geslaagd.
Selecteer Ga naar resource om de nieuwe werkruimte te bekijken.
Selecteer studio starten in de portalweergave van uw werkruimte om naar de Azure Machine Learning-studio.
Belangrijk
Noteer uw werkruimte en abonnement. U hebt deze nodig om ervoor te zorgen dat u uw experiment op de juiste plek maakt.
Meld u aan bij de studio
U doorloopt de volgende stappen voor het voorbereiden en uitvoeren van het experiment via de Azure Machine Learning Studio op https://ml.azure.com, een geconsolideerde webinterface met hulpmiddelen voor machine learning waar gegevenswetenschappers, ongeacht hun vaardigheidsniveaus, scenario's kunnen uitvoeren. De Studio wordt niet ondersteund in Internet Explorer-browsers.
Meld u aan bij Azure Machine Learning Studio.
Selecteer uw abonnement en de werkruimte die u hebt gecreëerd.
Selecteer Aan de slag.
Selecteer in het linkerdeelvenster Geautomatiseerde ML in de sectie Maken.
Aangezien dit uw eerste experiment voor geautomatiseerde ML is, ziet u een lege lijst en koppelingen naar documentatie.

Selecteer Nieuwe geautomatiseerde ML-uitvoering.
Gegevensset maken en laden
Voordat u uw experiment gaat configureren, uploadt u uw gegevensbestand naar uw werkruimte in de vorm van een Azure Machine Learning-gegevensset. Als u dit doet, kunt u ervoor zorgen dat uw gegevens op de juiste wijze zijn opgemaakt voor uw experiment.
Maak een nieuwe gegevensset door Uit lokale bestanden te selecteren in de vervolgkeuzelijst +Gegevensset maken.
Geef uw gegevensset een naam en een optionele beschrijving in het formulier Basisinformatie. De geautomatiseerde ML-interface ondersteunt momenteel enkel TabularDatasets. Het type gegevensset moet dus standaard op In tabelvorm staan.
Selecteer Volgende in de linkerbenedenhoek
Selecteer, in het formulier Gegevensarchief- en bestandsselectie het standaard gegevensarchief dat automatisch werd ingesteld bij het aanmaken van uw werkruimte, workspaceblobstore (Azure Blob Storage) . Hier uploadt u uw gegevensbestand om het beschikbaar te maken voor uw werkruimte.
Selecteer Bladeren.
Kies het bestand bankmarketing_train.csv op uw lokale computer. Dit is het bestand dat u hebt gedownload als vereiste.
Geef uw gegevensset een naam en een optionele beschrijving.
Selecteer Volgende linksonder om het bestand te uploaden naar de standaardcontainer die automatisch werd opgezet bij het aanmaken van de werkruimte.
Wanneer het uploaden is voltooid, worden Instellingen voorbeeldformulier vooraf ingevuld op basis van het bestandstype.
Controleer of het formulier Instellingen en voorbeeld als volgt is ingevuld en selecteer Volgende.
Veld Beschrijving Waarde voor zelfstudie Bestandsindeling Definieert de indeling en het type gegevens dat is opgeslagen in een bestand. Met scheidingstekens Scheidingsteken Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen. Komma Encoding Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen. UTF-8 Kolomkoppen Geeft aan hoe eventuele koppen van de gegevensset worden behandeld. Alle bestanden hebben dezelfde koppen Rijen overslaan Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset. Geen Met het formulier Schema kunt u uw gegevens verder configureren voor dit experiment. Voor dit voorbeeld selecteert u de wisselknop voor de day_of_week, zodat u deze niet wilt opnemen. Selecteer Next.

Controleer of de informatie in het formulier Details bevestigen overeenkomt met wat voorheen in de formulieren Basisinformatie, Gegevensarchief en bestandselectie en Instellingen en voorbeeld is ingevuld.
Selecteren Maken om uw gegevensset te voltooien.
Selecteer uw gegevensset wanneer deze verschijnt in de lijst.
Controleer het Voorbeeld van de gegevens om te controleren of u day_of_week niet hebt opgenomen, en selecteer Sluiten.
Selecteer Volgende.
Uitvoering configureren
Nadat u uw gegevens hebt geladen en geconfigureerd, kunt u uw experiment instellen. Dit installatieprogramma bevat ontwerptaken voor het experiment, zoals, het selecteren van de grootte van uw rekenomgeving en het opgeven van de kolom die u wilt voorspellen.
Selecteer het keuzerondje Nieuwe maken.
Vul het formulier Uitvoering configureren als volgt in:
Voer de naam van het nieuwe experiment in:
my-1st-automl-experimentSelecteer y als doelkolom, wat u wilt voorspellen. Deze kolom geeft aan of de klant een termijnrekening heeft geopend of niet.
Selecteer rekencluster als uw rekentype.
+Nieuw om uw rekendoel te configureren. Een rekendoel is een resource-omgeving, lokaal of in de cloud, die gebruikt wordt om uw trainingsscript uit te voeren of uw service-implementatie te hosten. Voor dit experiment gebruiken we berekening in de cloud.
Vul het formulier Virtuele machine selecteren in om uw rekenkracht in te stellen.
Veld Beschrijving Waarde voor zelfstudie Prioriteit van virtuele machine Selecteer de prioriteit die het experiment moet krijgen Toegewezen Virtuele machine type Selecteer het type van de virtuele machine voor uw berekening. CPU (Central Processing Unit, centrale verwerkingseenheid) Grootte virtuele machine Selecteer de grootte van de virtuele machine voor uw berekening. Er wordt een lijst met aanbevolen grootten geboden, op basis van uw gegevens en het type experiment. Standard_DS12_V2 Selecteer Volgende om het formulier Instellingen configureren in te vullen.
Veld Beschrijving Waarde voor zelfstudie Naam berekening Een unieke naam die de context van uw berekening identificeert. automl-compute Min / Max knooppunten U moet u één of meer knooppunten opgeven om gegevens te profileren. Min. knooppunten: 1
Max. knooppunten: 6Seconden wachten voor omlaag schalen Niet-actieve tijd voordat het cluster automatisch omlaag wordt geschaald naar het minimum aantal knooppunten. 120 (standaardinstelling) Geavanceerde instellingen Instellingen voor het configureren en autoriseren van een virtueel netwerk voor uw experiment. Geen Selecteer Maken om uw rekendoel te maken.
Dit duurt enkele minuten.

Wanneer dit is voltooid, selecteert u uw nieuwe rekendoel uit de vervolgkeuzelijst.
Selecteer Next.
Voltooi in het formulier Taak en instellingen selecteren de installatie voor uw geautomatiseerde ML experiment door het machine learning taaktype en configuratie-instellingen op te geven.
Selecteer Classificatie als het machine learning-taaktype.
Selecteer Aanvullende configuratie-instellingen weergeven en vul de velden als volgt in. Dankzij deze instellingen kunt u de trainingstaak beter controleren. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.
Aanvullende configuraties Beschrijving Waarde voor zelfstudie Primaire metrische gegevens Evaluatiewaarde waarmee het machine learning-algoritme wordt gemeten. AUC_weighted Uitleg geven over het beste model Hiermee wordt automatisch uitleg gegeven over het beste model dat is gemaakt met geautomatiseerde ML. Inschakelen Geblokkeerde algoritmen Algoritmen die u niet wilt opnemen in de trainingstaak Geen Criterium voor afsluiten Als er aan een criterium is voldaan, wordt de trainingstaak gestopt. Tijd voor trainingstaak (uur): 1
Drempelwaarde voor metrische score : GeenValidatie Kies een kruisvalidatietype en een aantal tests. Validatietype:
k-voudige kruisvalidatie
Aantal validaties: 2Gelijktijdigheid Het maximum aantal parallelle iteraties uitgevoerd per iteratie Maximum aantal gelijktijdige iteraties: 5 Selecteer Opslaan.
Selecteer Voltooien om het experiment uit te voeren. Het scherm Details uitvoering opent en de Uitvoeringsstatus wordt bovenaan weergegeven terwijl de voorbereidingen voor het experiment beginnen. Deze status wordt bijgewerkt wanneer het experiment wordt uitgevoerd. Meldingen worden ook weergegeven in de rechterbovenhoek van de studio om u te informeren over de status van uw experiment.
Belangrijk
Het duurt 10-15 minuten om de experimentele uitvoerbewerking voor te bereiden.
Zodra de uitvoering is gestart duurt het 2-3 minuten langer per iteratie.
Bij een productie zou u waarschijnlijk even weggaan. Maar voor deze zelfstudie raden we aan om onder het tabblad Modellen de geteste algoritmen te bekijken die voltooid zijn terwijl de andere nog worden uitgevoerd.
Modellen bekijken
Ga naar het tabblad Modellen om de geteste algoritmen (modellen) te bekijken. De modellen worden standaard gerangschikt op hun metrische score terwijl ze worden voltooid. Voor deze zelfstudie staat het model dat het hoogst scoort op basis van de gekozen metrische waarde AUC_weighted bovenaan de lijst.
Terwijl u wacht tot alle experimentmodellen voltooid zijn, kunt u de Algoritmenaam van een volledig model selecteren om de prestatiedetails te bekijken.
In het volgende gedeelte kunt u naar de tabbladen Details en Metrische gegevens gaan om de eigenschappen, metrische gegevens en prestatiegrafieken van het geselecteerde model te bekijken.

Uitleg bij model
Terwijl u wacht tot de modellen zijn voltooid, kunt u ook de uitleg van het model bekijken en zien welke gegevensfuncties (onbewerkt of ontworpen) de voorspellingen van een bepaald model hebben beïnvloed.
Deze modelverklaringen kunnen op aanvraag worden gegenereerd en worden samengevat in het dashboard met modelverklaringen dat deel uitmaakt van het tabblad Uitleg (preview).
Om modelverklaringen te genereren,
Selecteer 1 uitvoeren bovenaan om terug te gaan naar het scherm Modellen.
Selecteer het tabblad Modellen.
Selecteer voor deze zelfstudie het eerste MaxAbsScaler- LightGBM-model.
Selecteer de knop Model uitleggen bovenaan. Aan de rechterkant wordt het deelvenster Model uitleggen weergegeven.
Selecteer de automl-compute die u eerder hebt gemaakt. Dit rekencluster initieert een onderliggende uitvoering om de uitleg van het model te genereren.
Selecteer Maken onderaan. Boven aan het scherm wordt een groen bericht weergegeven.
Notitie
Het uitvoeren van de uitleg duurt ongeveer 2-5 minuten.
Selecteer de knop Uitleg (preview). Dit tabblad wordt gevuld zodra de uitleg is voltooid.
Vouw aan de linkerkant het deelvenster uit en selecteer de rij met onbewerkte tekst onder Functies.
Selecteer het tabblad Belang van aggregatiefunctie aan de rechterkant. In dit diagram ziet u welke gegevensfuncties de voorspellingen van het geselecteerde model hebben beïnvloed.
In dit voorbeeld lijkt de duur de meeste invloed te hebben op de voorspellingen van dit model.

Het beste model implementeren
In de geautomatiseerde machine learning-interface kunt u met enkele stappen het beste model implementeren als webservice. Implementatie is de integratie van het model zodat het nieuwe gegevens kan voorspellen en potentiële kansgebieden kan identificeren.
Voor dit experiment betekent de implementatie naar een webservice dat de financiële instelling nu een iteratieve en schaalbare weboplossing heeft om potentiële klanten voor termijnrekeningen te identificeren.
Controleer of de uitvoering van uw experimentele uitvoerbewerking is voltooid. Om dit te doen, gaat u terug naar de bovenliggende uitvoeringspagina door 1 uitvoeren aan de bovenkant van het scherm te selecteren. In de linkerbovenhoek van het scherm wordt de status Voltooid weergegeven.
Zodra de uitvoering van het experiment is voltooid, wordt op de pagina Details een sectie met Beste modeloverzicht ingevuld. In de context van dit experiment is VotingEnsemble het beste model op basis van de metrische waarde AUC_weighted.
We implementeren dit model, maar houd er rekening mee dat implementatie ongeveer 20 minuten duurt. Het implementatieproces omvat verschillende stappen, waaronder het model registreren, resources genereren en ze configureren voor de webservice.
Selecteer VotingEnsemble om de model-specifieke pagina te openen.
Selecteer de knop Implementeren in de linkerbovenhoek.
Vul het deelvenster Een model implementeren als volgt in:
Veld Waarde Naam van implementatie my-automl-deploy Beschrijving van implementatie Implementatie van mijn eerste geautomatiseerde machine learning-experiment Rekentype Azure Compute Instance (ACI) selecteren Verificatie inschakelen Uitgeschakeld. Aangepaste implementaties gebruiken Uitgeschakeld. Hiermee kunnen het standaard stuurprogrammabestand (scorescript) en het omgevingsbestand automatisch worden gegenereerd. In dit voorbeeld gebruiken we de standaardwaarden in het menu Geavanceerd.
Selecteer Implementeren.
Er verschijnt een groen succesbericht bovenaan het scherm Uitvoering. In het deelvenster Modeloverzicht verschijnt een statusbericht onder Implementatiestatus. Selecteer regelmatig Vernieuwen om de implementatiestatus te controleren.
U hebt nu een operationele webservice om voorspellingen te genereren.
Ga verder met de Volgende stappen voor meer informatie over het gebruik van uw nieuwe webservice en test uw voorspellingen met de ingebouwde ondersteuning voor Azure Machine Learning van Power BI.
Resources opschonen
Implementatiebestanden zijn groter dan gegevens- en experimentbestanden. Daarom kost het meer om ze op te slaan. Verwijder alleen de implementatiebestanden om de kosten voor uw account te beperken, of als u uw werkruimte en experimentbestanden wilt behouden. Zo niet, verwijder dan de volledige resourcegroep als u geen enkel bestand wilt gebruiken.
Het implementatie-exemplaar verwijderen
Verwijder alleen het implementatie-exemplaar van Azure Machine Learning op https://ml.azure.com/ indien u de resourcegroep en werkruimte wilt behouden voor andere zelfstudies en verkenning.
Ga naar Azure Machine Learning. Ga naar uw werkruimte en selecteer Eindpunten aan de linkerkant onder het deelvenster Activa.
Selecteer de implementatie die u wilt verwijderen en vervolgens Verwijderen.
Selecteer Doorgaan.
De resourcegroep verwijderen
Belangrijk
De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.
Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:
Selecteer Resourcegroepen links in Azure Portal.
Selecteer de resourcegroep die u hebt gemaakt uit de lijst.
Selecteer Resourcegroep verwijderen.

Voer de naam van de resourcegroup in. Selecteer vervolgens Verwijderen.
Volgende stappen
In deze zelfstudie over geautomatiseerde machine learning heeft u de geautomatiseerde ML-interface van Azure Machine Learning gebruikt om een classificatiemodel te maken en implementeren. Raadpleeg de volgende artikelen voor meer informatie en de volgende stappen:
- Meer informatie over geautomatiseerde machine learning.
- Raadpleeg het artikel Geautomatiseerde machine learning-resultaten begrijpen voor meer informatie over metrische classificatiegegevens en grafieken.
- Meer informatie over featurization.
- Meer informatie over gegevensprofilering.
Notitie
Deze gegevensset voor marketing van een bank is beschikbaar onder de Creative Commons-licentie CCO: Public Domain). Alle rechten voor individuele inhoudselementen van de database zijn gelicentieerd onder de Database Contents License en zijn beschikbaar op Kaggle. Deze gegevensset was oorspronkelijk beschikbaar binnen de UCI Machine Learning Database.
[Moro et al., 2014] S. Moro, P. Cortez en P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, juni 2014.