Självstudie: Designer – träna en regressionsmodell utan kod

Träna en linjär regressionsmodell som förutsäger bilpriser med hjälp Azure Machine Learning designern. Den här självstudien är del ett i en serie med två delar.

I den här självstudien används Azure Machine Learning designern. Mer information finns i Vad Azure Machine Learning designer?

I del ett av självstudien får du lära dig att:

  • Skapa en ny pipeline.
  • Importera data.
  • Förbered data.
  • Träna en maskininlärningsmodell.
  • Utvärdera en maskininlärningsmodell.

I del två av självstudien distribuerar du din modell som en inferensslutpunkt i realtid för att förutsäga priset på en bil baserat på de tekniska specifikationer som du skickar.

Anteckning

En slutförd version av den här självstudien är tillgänglig som en exempelpipeline.

Du hittar den genom att gå till designern på din arbetsyta. I avsnittet Ny pipeline väljer du Sample 1 - Regression: Automobile Price Prediction(Basic).

Viktigt

Om du inte ser några grafiska element som nämns i det här dokumentet, till exempel knappar i Studio eller designer, kanske du inte har rätt behörighets nivå för arbets ytan. Kontakta administratören för Azure-prenumerationen för att kontrol lera att du har beviljats rätt åtkomst nivå. Mer information finns i Hantera användare och roller.

Skapa en ny pipeline

Azure Machine Learning ordna flera maskininlärnings- och databearbetningssteg i en enda resurs. Med pipelines kan du organisera, hantera och återanvända komplexa arbetsflöden för maskininlärning mellan projekt och användare.

Om du vill skapa Azure Machine Learning pipeline behöver du en Azure Machine Learning arbetsyta. I det här avsnittet får du lära dig hur du skapar båda dessa resurser.

Skapa en ny arbetsyta

Du behöver en Azure Machine Learning arbetsyta för att använda designern. Arbetsytan är den översta resursen för Azure Machine Learning, den ger en central plats att arbeta med alla artefakter som du skapar i Azure Machine Learning. Anvisningar om hur du skapar en arbetsyta finns i Skapa och hantera Azure Machine Learning arbetsytor.

Anteckning

Om arbetsytan använder ett virtuellt nätverk finns det ytterligare konfigurationssteg som du måste använda för att använda designern. Mer information finns i Använda Azure Machine Learning Studio i ett virtuellt Azure-nätverk

Skapa pipelinen

  1. Logga in på ml.azure.comoch välj den arbetsyta som du vill arbeta med.

  2. Välj Designer.

    Skärmbild av arbetsytan för visuella objekt som visar hur du kommer åt designern

  3. Välj Lättanvända fördefinierade moduler.

  4. Längst upp på arbetsytan väljer du standardpipelinenamnet Pipeline-Created-on. Byt namn på den till Förutsägelse av bilpriser. Namnet behöver inte vara unikt.

Ange standardvärdet för beräkning

En pipeline körs på ett beräkningsmål, vilket är en beräkningsresurs som är kopplad till din arbetsyta. När du har skapat ett beräkningsmål kan du återanvända det för framtida körningar.

Du kan ange ett standardbearbetningsmål för hela pipelinen, vilket anger att alla moduler ska använda samma beräkningsmål som standard. Du kan dock ange beräkningsmål per modul.

  1. Bredvid pipelinenamnet väljer du kugghjulsikonen Skärmbild av kugghjulsikonen överst på arbetsytan för  att öppna Inställningar fönstret.

  2. I fönstret Inställningar till höger om arbetsytan väljer du Välj beräkningsmål.

    Om du redan har ett tillgängligt beräkningsmål kan du välja det för att köra pipelinen.

    Anteckning

    Designern kan bara köra träningsexperiment Azure Machine Learning Compute, men andra beräkningsmål visas inte.

  3. Ange ett namn för beräkningsresursen.

  4. Välj Spara.

    Anteckning

    Det tar cirka fem minuter att skapa en beräkningsresurs. När resursen har skapats kan du återanvända den och hoppa över den här väntetiden för framtida körningar.

    Beräkningsresursen skalas automatiskt till noll noder när den är inaktiv för att spara kostnader. När du använder den igen efter en fördröjning kan det ta cirka fem minuters väntetid medan den skalas upp igen.

Importera data

Det finns flera exempeldatauppsättningar i designern som du kan experimentera med. I den här självstudien använder du Prisdata för bilar (Raw).

  1. Till vänster om pipelinearbetsytan finns en palett med datauppsättningar och moduler. Välj Exempeldatauppsättningar för att visa tillgängliga exempeldatauppsättningar.

  2. Välj datauppsättningen Automobile price data (Raw) och dra den till arbetsytan.

    Dra data till arbetsytan

Visualisera datan

Du kan visualisera data för att förstå den datamängd som du kommer att använda.

  1. Högerklicka på Prisdata för bilar (Raw) och välj Visualize Dataset output (Visualisera > datamängdsutdata).

  2. Välj de olika kolumnerna i datafönstret för att visa information om var och en.

    Varje rad representerar en bil, och variablerna som är associerade med varje bil visas som kolumner. Det finns 205 rader och 26 kolumner i den här datamängden.

Förbereda data

Datauppsättningar kräver vanligtvis viss förbearbetning före analys. Du kanske har märkt att vissa värden saknas när du inspekterade datauppsättningen. Dessa saknade värden måste rensas så att modellen kan analysera data korrekt.

Ta bort en kolumn

När du tränar en modell måste du göra något åt de data som saknas. I den här datamängden saknar kolumnen normalized-losses många värden, så du utesluter den kolumnen från modellen helt och hållet.

  1. I modulpaletten till vänster på arbetsytan expanderar du avsnittet Datatransformering och hittar modulen Välj kolumner i datamängd.

  2. Dra modulen Välj kolumner i datamängd till arbetsytan. Ta bort modulen under datamängdsmodulen.

  3. Anslut datauppsättningen Automobile price data (Raw) till modulen Select Columns in Dataset (Välj kolumner i datamängd). Dra från datauppsättningens utdataport, som är den lilla cirkeln längst ned i datauppsättningen på arbetsytan, till indataporten för Välj kolumner i datauppsättning, som är den lilla cirkeln överst i modulen.

    Tips

    Du skapar ett dataflöde via din pipeline när du ansluter utdataporten för en modul till en annans indataport.

    Anslut moduler

  4. Välj modulen Välj kolumner i datamängd.

  5. I fönstret med modulinformation till höger om arbetsytan väljer du Redigera kolumn.

  6. Expandera listrutan Kolumnnamn bredvid Inkludera och välj Alla kolumner.

  7. Välj för + att lägga till en ny regel.

  8. I de nedrullningsna menyerna väljer du Exkludera och Kolumnnamn.

  9. Ange normalized-losses i textrutan.

  10. Välj Spara i det nedre högra högra stapeln för att stänga kolumnväljaren.

    Undanta en kolumn

  11. Välj modulen Välj kolumner i datamängd.

  12. I fönstret med modulinformation till höger om arbetsytan väljer du textrutan Kommentar och anger Exkludera normaliserade förluster.

    Kommentarer visas i diagrammet som hjälper dig att organisera din pipeline.

Rensa data som saknas

Datamängden har fortfarande saknade värden när du har tagit bort kolumnen normalized-losses. Du kan ta bort återstående data som saknas med hjälp av modulen Rensa data som saknas.

Tips

Att rensa de saknade värdena från indata är en förutsättning för att kunna använda de flesta moduler i designern.

  1. I modulpaletten till vänster på arbetsytan expanderar du avsnittet Datatransformering och hittar modulen Rensa data som saknas.

  2. Dra modulen Rensa data som saknas till pipelinearbetsytan. Anslut den till modulen Välj kolumner i datamängd.

  3. Välj modulen Rensa data som saknas.

  4. I fönstret med modulinformation till höger om arbetsytan väljer du Redigera kolumn.

  5. I fönstret Kolumner som ska rensas som visas expanderar du den nedrullningsna menyn bredvid Inkludera. Välj Alla kolumner

  6. Välj Spara

  7. I fönstret med modulinformation till höger om arbetsytan väljer du Ta bort hela raden under Rensningsläge.

  8. I fönstret med modulinformation till höger om arbetsytan väljer du rutan Kommentar och anger Ta bort saknade värderader.

    Din pipeline bör nu se ut ungefär så här:

    Välj kolumn

Träna en maskininlärningsmodell

Nu när du har modulerna på plats för att bearbeta data kan du konfigurera träningsmodulerna.

Eftersom du vill förutsäga priset, som är ett tal, kan du använda en regressionsalgoritm. I det här exemplet använder du en linjär regressionsmodell.

Dela upp data

Det är vanligt att dela data i maskininlärning. Du delar upp dina data i två separata datauppsättningar. En datauppsättning tränar modellen och den andra testar hur väl modellen presterar.

  1. I modulpaletten expanderar du avsnittet Datatransformering och hittar modulen Dela data.

  2. Dra modulen Dela data till pipelinearbetsytan.

  3. Anslut den vänstra porten för modulen Rensa data som saknas till modulen Dela data.

    Viktigt

    Se till att de vänstra utdataportarna för Rensa data som saknas ansluter till Dela data. Den vänstra porten innehåller rensade data. Rätt port innehåller bortkastade data.

  4. Välj modulen Dela data.

  5. I fönstret med modulinformation till höger om arbetsytan ställer du in Bråkdel av rader i den första utdatauppsättningen på 0,7.

    Det här alternativet delar upp 70 procent av data för att träna modellen och 30 procent för att testa den. Datauppsättningen på 70 procent är tillgänglig via den vänstra utdataporten. Återstående data blir tillgängliga via den högra utdataporten.

  6. I fönstret med modulinformation till höger om arbetsytan väljer du rutan Kommentar och anger Dela datauppsättningen i träningsuppsättningen (0,7) och testuppsättningen (0,3).

Träna modellen

Träna modellen genom att ge den en datauppsättning som innehåller priset. Algoritmen skapar en modell som förklarar relationen mellan funktionerna och priset som presenteras av träningsdata.

  1. I modulpaletten expanderar du Machine Learning Algorithms.

    Det här alternativet visar flera kategorier av moduler som du kan använda för att initiera inlärningsalgoritmer.

  2. Välj Regression > Linear Regression och dra den till pipelinearbetsytan.

  3. I modulpaletten expanderar du avsnittet Modulträning och drar modulen Träna modell till arbetsytan.

  4. Anslut utdata från modulen Linjär regression till vänster indata för modulen Träna modell.

  5. Anslut träningsdatautdata (vänster port) för modulen Dela data till höger indata för modulen Träna modell.

    Viktigt

    Se till att de vänstra utdataportarna för Split Data (Dela data) ansluter till Train Model (Träna modell). Den vänstra porten innehåller träningsuppsättningen. Rätt port innehåller testuppsättningen.

    Skärmbild som visar rätt konfiguration av modulen Träna modell. Modulen Linjär regression ansluter till den vänstra porten för modulen Train Model (Träna modell) och modulen Split Data (Dela data) ansluter till den högra porten för Train Model (Träna modell).

  6. Välj träningsmodellmodulen.

  7. I fönstret med modulinformation till höger om arbetsytan väljer du Redigera kolumnväljare.

  8. I dialogrutan Etikettkolumn expanderar du den nedrullningsna menyn och väljer Kolumnnamn.

  9. I textrutan anger du pris för att ange det värde som din modell ska förutsäga.

    Viktigt

    Se till att du anger kolumnnamnet exakt. Använd inte versaler för priset.

    Din pipeline bör se ut så här:

    Skärmbild som visar rätt konfiguration av pipelinen när du har lagt till modulen Träna modell.

Lägga till modulen Poängmodell

När du har tränat din modell med 70 procent av data kan du använda den för att poänggöra de andra 30 procenten för att se hur bra din modell fungerar.

  1. Ange poängmodell i sökrutan för att hitta modulen Poängmodell. Dra modulen till pipelinearbetsytan.

  2. Anslut utdataporten för modulen Träna modell till den vänstra indataporten för Poängsätta modell. Anslut utdataporten för testning (den högra porten) för modulen Dela data till den högra indataporten för Poängsätta modell.

Lägga till modulen Utvärdera modell

Använd modulen Evaluate Model (Utvärdera modell) för att utvärdera hur väl din modell poängade testdatauppsättningen.

  1. Skriv evaluate (utvärdera) i sökrutan för att hitta modulen Evaluate Model (Utvärdera modell). Dra modulen till pipelinearbetsytan.

  2. Anslut utdata från modulen Score Model (Poängmodell) till vänster indata för Evaluate Model (Utvärdera modell).

    Den slutliga pipelinen bör se ut ungefär så här:

    Skärmbild som visar rätt konfiguration av pipelinen.

Skicka pipelinen

Nu när din pipeline är konfigurerad kan du skicka en pipelinekörning för att träna din maskininlärningsmodell. Du kan skicka en giltig pipelinekörning när som helst, som kan användas för att granska ändringar i din pipeline under utvecklingen.

  1. Längst upp på arbetsytan väljer du Skicka.

  2. I dialogrutan Konfigurera pipelinekörning väljer du Skapa ny.

    Anteckning

    Experiment grupperar liknande pipelinekörningar tillsammans. Om du kör en pipeline flera gånger kan du välja samma experiment för efterföljande körningar.

    1. För Nytt experimentnamn anger du Tutorial-CarPrices.

    2. Välj Skicka.

    Du kan visa körningsstatus och information längst upp till höger på arbetsytan.

    Om det här är den första körningen kan det ta upp till 20 minuter för pipelinen att slutföra körningen. Standardinställningarna för beräkning har en minsta nodstorlek på 0, vilket innebär att designern måste allokera resurser efter att ha varit inaktiv. Upprepade pipelinekörningar tar kortare tid eftersom beräkningsresurserna redan har allokerats. Dessutom använder designern cachelagrade resultat för varje modul för att förbättra effektiviteten ytterligare.

Visa poängpoängsetiketter

När körningen är klar kan du visa resultatet av pipelinekörningen. Börja med att titta på de förutsägelser som genereras av regressionsmodellen.

  1. Högerklicka på modulen Score Model (Poängmodell) och välj Visualize > Scored dataset (Visualisera poängad datamängd) för att visa dess utdata.

    Här kan du se de förutsagda priserna och de faktiska priserna från testdata.

    Skärmbild av utdatavisualiseringen med kolumnen Scored Label (Poängad etikett)

Utvärdera modeller

Använd Utvärdera modell för att se hur väl den tränade modellen utfördes på testdatauppsättningen.

  1. Högerklicka på modulen Utvärdera modell och välj Visualisera utvärderingsresultat > för att visa dess utdata.

Följande statistik visas för din modell:

  • Genomsnittligt absolut fel (MAE): Medelvärdet av absoluta fel. Ett fel är skillnaden mellan det förutsagda värdet och det faktiska värdet.
  • RMSE (Root Mean Squared Error): Kvadratroten av genomsnittet av kvadratfel i förutsägelser som gjorts på testdatamängden.
  • Relativa absoluta fel: Medelvärdet av absoluta fel i förhållande till den absoluta skillnaden mellan faktiska värden och medelvärdet av alla faktiska värden.
  • Relativa kvadratfel: Medelvärdet av kvadratfel i förhållande till kvadratskillnaden mellan faktiska värden och medelvärdet av alla faktiska värden.
  • Bestämningskoefficient: Det här statistiska måttet kallas även för R-kvadratvärdet och anger hur väl en modell passar data.

För all felstatistik gäller att mindre är bättre. Ett mindre värde anger att förutsägelserna ligger närmare de faktiska värdena. För bestämningskoefficienten är förutsägelserna bättre ju närmare värdet är ett (1,0).

Rensa resurser

Hoppa över det här avsnittet om du vill fortsätta med del 2 av självstudien och distribuera modeller.

Viktigt

Du kan använda de resurser som du har skapat som förutsättningar för andra Azure Machine Learning-självstudier och instruktionsartiklar.

Ta bort allt

Om du inte planerar att använda något som du har skapat tar du bort hela resurs gruppen så att du inte debiteras några avgifter.

  1. I Azure Portal väljer du resurs grupper på vänster sida av fönstret.

    Ta bort resursgrupp i Azure-portalen

  2. I listan väljer du den resurs grupp som du skapade.

  3. Välj Ta bort resursgrupp.

Om du tar bort resurs gruppen raderas även alla resurser som du skapade i designern.

Ta bort enskilda till gångar

I designern där du skapade experimentet kan du ta bort enskilda till gångar genom att markera dem och sedan välja knappen ta bort .

Beräknings målet som du skapade här automatiskt skalar automatiskt till noll noder när det inte används. Den här åtgärden vidtas för att minimera kostnaderna. Gör så här om du vill ta bort beräknings målet:

Ta bort till gångar

Du kan avregistrera data uppsättningar från din arbets yta genom att markera varje data uppsättning och välja avregistrera.

Avregistrera data uppsättning

Om du vill ta bort en data uppsättning går du till lagrings kontot genom att använda Azure Portal eller Azure Storage Explorer och manuellt ta bort dessa till gångar.

Nästa steg

I del två får du lära dig hur du distribuerar din modell som en realtidsslutpunkt.