Självstudie: Träna en klassificeringsmodell utan kod AutoML i Azure Machine Learning studio

Lär dig hur du tränar en klassificeringsmodell med AutoML utan kod med hjälp Azure Machine Learning automatiserad ML i Azure Machine Learning studio. Den här klassificeringsmodellen förutsäger om en klient kommer att prenumerera på en fast periodinsättning hos ett finansinstitut.

Med automatiserad ML kan du automatisera tidsintensiva uppgifter. Automatiserad maskininlärning itererar snabbt över många kombinationer av algoritmer och hyperparametrar för att hjälpa dig att hitta den bästa modellen baserat på val av framgångsmått.

Du kommer inte att skriva någon kod i den här självstudien, utan du använder Studio-gränssnittet för att utföra träningen. Du lär dig hur du utför följande uppgifter:

  • Skapa en Azure Machine Learning arbetsyta.
  • Köra ett automatiserat maskininlärningsexperiment.
  • Utforska modellinformation.
  • Distribuera den rekommenderade modellen.

Prova även automatiserad maskininlärning för dessa andra modelltyper:

Förutsättningar

  • En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto.

  • Ladda nedbankmarketing_train.csv-datafilen. Kolumnen y anger om en kund prenumererar på en fast periodinsättning, som senare identifieras som målkolumnen för förutsägelser i den här självstudien.

Skapa en arbetsyta

En Azure Machine Learning arbetsyta är en grundläggande resurs i molnet som du använder för att experimentera, träna och distribuera maskininlärningsmodeller. Det binder din Azure-prenumeration och resursgrupp till ett objekt som är enkelt att använda i tjänsten.

Det finns många sätt att skapa en arbetsytapå. I den här självstudien skapar du en arbetsyta via Azure Portal, en webbaserad konsol för att hantera dina Azure-resurser.

  1. Logga in på Azure Portal med autentiseringsuppgifterna för din Azure-prenumeration.

  2. I det övre vänstra hörnet i Azure Portal de tre staplarna och sedan + Skapa en resurs.

    Skärmbild som visar + Skapa en resurs.

  3. Använd sökfältet för att hitta Machine Learning.

  4. Välj Machine Learning.

    Skärmbild som visar sökresultat för att välja Machine Learning.

  5. I fönstret Machine Learning väljer du Skapa för att börja.

  6. Ange följande information för att konfigurera den nya arbetsytan:

    Fält Beskrivning
    Namn på arbetsyta Ange ett unikt namn som identifierar din arbetsyta. I det här exemplet använder vi docs-ws. Namnen måste vara unika i resursgruppen. Använd ett namn som är lätt att återkalla och för att skilja från arbetsytor som skapats av andra.
    Prenumeration Välj den Azure-prenumeration som du vill använda.
    Resursgrupp Använd en befintlig resursgrupp i din prenumeration eller ange ett namn för att skapa en ny resursgrupp. En resursgrupp innehåller relaterade resurser för en Azure-lösning. I det här exemplet använder vi docs-aml.
    Location Välj den plats som är närmast dina användare och dataresurserna för att skapa din arbetsyta.
  7. När du har konfigurerat arbetsytan väljer du Granska + skapa.

  8. Välj Skapa för att skapa arbetsytan.

    Varning

    Det kan ta flera minuter att skapa din arbetsyta i molnet.

    När processen är klar visas ett meddelande om att distributionen lyckades.

  9. Om du vill visa den nya arbetsytan väljer du Gå till resurs.

  10. I portalvyn för din arbetsyta väljer du Starta studio för att gå till Azure Machine Learning-studio.

Viktigt

Anteckna din arbetsyta och prenumeration. Du behöver dem för att se till att du skapar experimentet på rätt plats.

Logga in i studio

Du slutför följande experiment och kör stegen via Azure Machine Learning Studio på , ett konsoliderat webbgränssnitt som innehåller maskininlärningsverktyg för att utföra datavetenskapsscenarier för datavetenskapsutövare på alla https://ml.azure.com kunskapsnivåer. Studio stöds inte i Internet Explorer webbläsare.

  1. Logga in på Azure Machine Learning studio.

  2. Välj din prenumeration och den arbetsyta som du skapade.

  3. Välj Kom igång.

  4. I den vänstra rutan väljer du Automatiserad ML under avsnittet Författare.

    Eftersom det här är ditt ML automatiserade experiment visas en tom lista och länkar till dokumentationen.

    Sidan Kom igång

  5. Välj + Ny automatiserad ML kör.

Skapa och läsa in datauppsättning

Innan du konfigurerar experimentet laddar du upp datafilen till arbetsytan i form av en Azure Machine Learning datauppsättning. På så sätt kan du se till att dina data formateras korrekt för experimentet.

  1. Skapa en ny datauppsättning genom att välja Från lokala filer från listrutan +Skapa datauppsättning.

    1. Ge datauppsättningen ett namn i formuläret Grundläggande information och ange en valfri beskrivning. Det automatiserade ML gränssnittet stöder för närvarande endast TabularDatasets, så datauppsättningstypen bör som standard ha tabular.

    2. Välj Nästa längst ned till vänster

    3. I formuläret Datalager och filval väljer du det standarddatalager som konfigurerades automatiskt när arbetsytan skapades, workspaceblobstore (Azure Blob Storage). Det är här du laddar upp datafilen för att göra den tillgänglig för din arbetsyta.

    4. Välj Bläddra.

    5. Välj bankmarketing_train.csv på den lokala datorn. Det här är den fil som du laddade ned som en förutsättning.

    6. Ge datauppsättningen ett unikt namn och ange en valfri beskrivning.

    7. Välj Nästa längst ned till vänster för att ladda upp den till standardcontainern som konfigurerades automatiskt när arbetsytan skapades.

      När uppladdningen är klar fylls Inställningar och förhandsgranskningsformuläret i förväg baserat på filtypen.

    8. Kontrollera att Inställningar och förhandsgranskningsformuläret fylls i på följande sätt och välj Nästa.

      Fält Beskrivning Värde för självstudie
      Filformat Definierar layouten och typen av data som lagras i en fil. Avgränsade
      Avgränsare Ett eller flera tecken för att ange gränsen mellan   separata, oberoende regioner i oformaterad text eller andra dataströmmar. Komma
      Kodning Identifierar vilken bit-till-tecken-schematabell som ska användas för att läsa datauppsättningen. UTF-8
      Kolumnrubriker Anger hur datauppsättningens sidhuvuden, om några, ska behandlas. Alla filer har samma huvuden
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen. Ingen
    9. Med formuläret Schema kan du konfigurera dina data ytterligare för det här experimentet. I det här exemplet väljer du växlingsknappen för day_of_week, så att den inte inkluderas. Välj Nästa. Schemaformulär

    10. I formuläret Bekräfta information kontrollerar du att informationen matchar det som tidigare fyllts i på grundläggande information, datalager och filval samt Inställningar och förhandsgranskningsformulär.

    11. Välj Skapa för att slutföra skapandet av datauppsättningen.

    12. Välj din datauppsättning när den visas i listan.

    13. Granska förhandsgranskningen Data för att se till att du inte day_of_week och välj sedan Stäng.

    14. Välj Nästa.

Konfigurera körning

När du har läser in och konfigurerat dina data kan du konfigurera experimentet. Den här konfigurationen omfattar experimentdesignuppgifter som att välja storlek på beräkningsmiljön och ange vilken kolumn som du vill förutsäga.

  1. Välj alternativknappen Skapa ny.

  2. Fyll i formuläret Konfigurera körning enligt följande:

    1. Ange det här experimentnamnet: my-1st-automl-experiment

    2. Välj y som målkolumn, vad du vill förutsäga. Den här kolumnen anger om klienten prenumererar på en tidsdeposition eller inte.

    3. Välj beräkningskluster som beräkningstyp.

    4. + Ny för att konfigurera beräkningsmålet. Ett beräkningsmål är en lokal eller molnbaserad resursmiljö som används för att köra ditt träningsskript eller vara värd för tjänstdistributionen. I det här experimentet använder vi en molnbaserad beräkning.

      1. Fyll i formuläret Välj virtuell dator för att konfigurera beräkningen.

        Fält Beskrivning Värde för självstudie
        Prioritet   för virtuell   dator Välj vilken prioritet experimentet ska ha Dedikerad
        Typ   av virtuell   dator Välj typ av virtuell dator för beräkningen. CPU (central bearbetningsenhet)
        Storlek   på virtuell   dator Välj storlek på den virtuella datorn för beräkningen. En lista över rekommenderade storlekar tillhandahålls baserat på dina data och experimenttypen. Standard_DS12_V2
      2. Välj Nästa för att fylla i formuläret Konfigurera inställningar.

        Fält Beskrivning Värde för självstudie
        Namn på beräkning Ett unikt namn som identifierar din beräkningskontext. automl-compute
        Minsta/högsta antal noder Om du vill profilera data måste du ange en eller flera noder. Minsta noder: 1
        Maximalt antal noder: 6
        Sekunder av inaktivitet innan nedskalning Inaktivitetstid innan klustret skalas ned automatiskt till det lägsta antalet noder. 120 (standard)
        Avancerade inställningar Inställningar konfigurera och auktorisera ett virtuellt nätverk för experimentet. Ingen
      3. Välj Skapa för att skapa beräkningsmålet.

        Det tar några minuter att slutföra.

        Sidan Inställningar

      4. När du har skapat väljer du ditt nya beräkningsmål i listrutan.

    5. Välj Nästa.

  3. I formuläret Välj uppgift och inställningar slutför du konfigurationen för ditt automatiserade ML experiment genom att ange typ av maskininlärningsuppgift och konfigurationsinställningar.

    1. Välj Klassificering som typ av maskininlärningsuppgift.

    2. Välj Visa ytterligare konfigurationsinställningar och fyll i fälten enligt följande. De här inställningarna är för att bättre styra träningsjobbet. Annars tillämpas standardvärden baserat på experimentval och data.

      Ytterligare   konfigurationer Beskrivning Värde   för   självstudie
      Primärt mått Utvärderingsmått som maskininlärningsalgoritmen mäts efter. AUC_weighted
      Förklara den bästa modellen Visar automatiskt förklarande för den bästa modellen som skapats av automatiserade ML. Aktivera
      Blockerade algoritmer Algoritmer som du vill undanta från träningsjobbet Ingen
      Avslutningskriterium Om ett villkor uppfylls stoppas träningsjobbet.     Träningsjobbstid (timmar): 1
      Tröskelvärde   för   måttpoäng: Ingen
      Validering Välj en typ av korsvalidering och antal tester. Valideringstyp:
       k-fold   korsvalidering

      Antal valideringar: 2
      Samtidighet Det maximala antalet parallella iterationer som körs per iteration Maximalt     antal samtidiga iterationer: 5

      Välj Spara.

  4. Välj Slutför för att köra experimentet. Skärmen Körningsdetaljer öppnas med Körningsstatus överst när experimentförberedelserna börjar. Den här statusen uppdateras allt eftersom experimentet fortskrider. Meddelanden visas också i det övre högra hörnet i studio för att informera dig om experimentets status.

Viktigt

Förberedelsen tar 10–15 minuter att förbereda experimentkörningen. När körningen är igång tar det 2–3 minuter mer för varje iteration.

I produktion skulle du förmodligen gå en bit bort. Men för den här självstudien föreslår vi att du börjar utforska de testade algoritmerna på fliken Modeller när de slutförs medan de andra fortfarande körs.

Utforska modeller

Gå till fliken Modeller för att se vilka algoritmer (modeller) som testats. Som standard sorteras modellerna efter måttpoäng när de slutförs. I den här självstudien visas den modell som får högst poäng baserat AUC_weighted valda måttet överst i listan.

Medan du väntar tills alla experimentmodeller har slutförts väljer du Algoritmnamn för en slutförd modell för att utforska dess prestandainformation.

Följande navigerar genom flikarna Information och Mått för att visa den valda modellens egenskaper, mått och prestandadiagram.

Information om körnings iteration

Modellförklaringar

Medan du väntar tills modellerna har slutförts kan du också ta en titt på modellförklaringar och se vilka datafunktioner (rådata eller tekniker) som påverkar en viss modells förutsägelser.

Dessa modellförklaringar kan genereras på begäran och sammanfattas i instrumentpanelen för modellförklaringar som är en del av fliken Förklaringar (förhandsversion).

Så här genererar du modellförklaringar:

  1. Välj Kör 1 längst upp för att gå tillbaka till skärmen Modeller.

  2. Välj fliken Modeller.

  3. För den här självstudien väljer du den första MaxAbsScaler- och LightGBM-modellen.

  4. Välj knappen Förklara modell längst upp. Till höger visas fönstret Förklara modell.

  5. Välj den automl-compute som du skapade tidigare. Det här beräkningsklustret initierar en underordnad körning för att generera modellförklaringarna.

  6. Välj Skapa längst ned. Ett grönt meddelande visas överst på skärmen.

    Anteckning

    Förklarande körning tar cirka 2–5 minuter att slutföra.

  7. Välj knappen Explanations (preview) (Förklaringar (förhandsversion). Den här fliken fylls i när förklarande körningen är klar.

  8. På vänster sida expanderar du fönstret och väljer raden raw (rådata) under Features (Funktioner).

  9. Välj fliken Mängdfunktions prioritet till höger. Det här diagrammet visar vilka datafunktioner som påverkar förutsägelserna för den valda modellen.

    I det här exemplet verkar varaktigheten ha störst påverkan på förutsägelserna för den här modellen.

    Instrumentpanel för modellförklaring

Distribuera den bästa modellen

Med gränssnittet för automatiserad maskininlärning kan du distribuera den bästa modellen som en webbtjänst i några få steg. Distribution är integreringen av modellen så att den kan förutsäga nya data och identifiera potentiella områden med möjligheter.

För det här experimentet innebär distributionen till en webbtjänst att finansinstitutet nu har en iterativ och skalbar webblösning för att identifiera potentiella kunder med fast livslängd på grund av deposition.

Kontrollera om experimentkörningen har slutförts. Det gör du genom att gå tillbaka till den överordnade körningssidan genom att välja Kör 1 överst på skärmen. Statusen Slutfört visas längst upp till vänster på skärmen.

När experimentkörningen är klar fylls sidan Information i med en sammanfattning av bästa modell. I den här experimentkontexten anses VotingEnsemble vara den bästa modellen baserat på AUC_weighted måttet.

Vi distribuerar den här modellen, men det rekommenderas att distributionen tar cirka 20 minuter att slutföra. Distributionsprocessen omfattar flera steg, inklusive att registrera modellen, generera resurser och konfigurera dem för webbtjänsten.

  1. Välj VotingEnsemble för att öppna den modellspecifika sidan.

  2. Välj knappen Distribuera längst upp till vänster.

  3. Fyll i fönstret Distribuera en modell enligt följande:

    Fält Värde
    Distributionsnamn my-automl-deploy
    Distributionsbeskrivning Min första distribution av automatiserade maskininlärningsexperiment
    Typ av beräkning Välj Azure Compute-instans (ACI)
    Aktivera autentisering Inaktivera.
    Använda anpassade distributioner Inaktivera. Tillåter att standarddrivrutinsfilen (bedömningsskriptet) och miljöfilen genereras automatiskt.

    I det här exemplet använder vi de standardvärden som anges i menyn Avancerat.

  4. Välj Distribuera.

    Ett grönt meddelande visas överst på skärmen Kör och i fönstret Modellsammanfattning visas ett statusmeddelande under Distribuera status. Välj Uppdatera regelbundet för att kontrollera distributionsstatusen.

Nu har du en fungerande webbtjänst för att generera förutsägelser.

Gå vidare till Nästa steg för att lära dig mer om hur du använder din nya webbtjänst och testa dina förutsägelser med hjälp Power BI inbyggda Azure Machine Learning stöd.

Rensa resurser

Distributionsfiler är större än data- och experimentfiler, så de kostar mer att lagra. Ta bara bort distributionsfilerna för att minimera kostnaderna för ditt konto, eller om du vill behålla arbetsytan och experimentfiler. Annars tar du bort hela resursgruppen om du inte planerar att använda någon av filerna.

Ta bort distributionsinstansen

Ta bara bort distributionsinstansen från Azure Machine Learning https: /ml.azure.com/ om du vill behålla resursgruppen och arbetsytan för andra / självstudier och utforskning.

  1. Gå till Azure Machine Learning. Navigera till din arbetsyta och välj Slutpunkter under fönstret Tillgångar till vänster.

  2. Välj den distribution som du vill ta bort och välj Ta bort.

  3. Välj Fortsätt.

Ta bort resursgruppen

Viktigt

De resurser som du har skapat kan användas som förutsättningar för andra Azure Machine Learning självstudier och instruktionsartiklar.

Om du inte planerar att använda någon av de resurser som du har skapat kan du ta bort dem så att du inte debiteras:

  1. I Azure-portalen väljer du Resursgrupper längst till vänster.

  2. Välj resursgruppen som du skapade från listan.

  3. Välj Ta bort resursgrupp.

    Skärmbild av valen för att ta bort en resursgrupp i Azure Portal.

  4. Ange resursgruppsnamnet. Välj sedan Ta bort.

Nästa steg

I den här självstudien om automatiserad maskininlärning använde Azure Machine Learning automatiserade ML för att skapa och distribuera en klassificeringsmodell. Mer information och nästa steg finns i de här artiklarna:

Anteckning

Den här Bank Marketing-datamängden görs tillgänglig under Creative Commons -licensen (CCO: Public Domain). Rättigheter i enskilt innehåll i databasen licensieras under licens för databasinnehåll och är tillgängliga på Kaggle. Den här datamängden var ursprungligen tillgänglig i UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez och P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22–31, juni 2014.