Utvärdera modell

Artikel
11/13/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Utvärderar resultatet av en klassificerings- eller regressionsmodell med standardmått

Kategori: Machine Learning/Utvärdera

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler finns i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Utvärdera modell i Machine Learning Studio (klassisk) för att mäta noggrannheten hos en tränad modell. Du tillhandahåller en datauppsättning som innehåller poäng som genererats från en modell, och modulen Utvärdera modell beräknar en uppsättning branschstandardutvärderingsmått.

De mått som returneras av Utvärdera modell beror på vilken typ av modell du utvärderar:

Klassificeringsmodeller
Regressionsmodeller
Klustringsmodeller

För rekommendationsmodeller använder du modulen Utvärdera rekommenderare .

Tips

Om du är nybörjare på modellutvärdering rekommenderar vi dessa exempel i Azure AI-galleriet, som skapar en modell och sedan förklarar hur du använder relaterade mått:

Vi rekommenderar också videoserien av Dr. Stephen Elston, som en del av maskininlärningskursen från EdX.

Så här använder du Utvärdera modell

Det finns tre sätt att använda modulen Utvärdera modell :

Generera poäng över dina träningsdata och utvärdera modellen baserat på dessa poäng
Generera poäng för modellen, men jämför dessa poäng med poäng på en reserverad testuppsättning
Jämför poäng för två olika men relaterade modeller med samma uppsättning data

Använda träningsdata

Om du vill utvärdera en modell måste du ansluta en datauppsättning som innehåller en uppsättning indatakolumner och poäng. Om inga andra data är tillgängliga kan du använda din ursprungliga datauppsättning.

Anslut utdata för Poängsatt datset för poängmodellen till indata för Utvärdera modell.
Klicka på Utvärdera modellmodul och välj Kör valt för att generera utvärderingspoängen.

Använda testdata

Ett vanligt scenario i maskininlärning är att separera den ursprungliga datauppsättningen i tränings- och testningsdatauppsättningar med hjälp av modulen Dela eller modulen Partition och Exempel .

Anslut utdata för poängsatt datauppsättning för poängmodellen till indata för Utvärdera modell.
Anslut utdata från modulen Dela data som innehåller testdata till höger i Utvärdera modell.
Klicka på Utvärdera modellmodul och välj Kör valt för att generera utvärderingspoängen.

Jämför poäng från två modeller

Du kan också ansluta en andra uppsättning poäng till Utvärdera modell. Poängen kan vara en delad utvärderingsuppsättning som har kända resultat eller en uppsättning resultat från en annan modell för samma data.

Den här funktionen är användbar eftersom du enkelt kan jämföra resultat från två olika modeller på samma data. Eller så kan du jämföra poäng från två olika körningar över samma data med olika parametrar.

Anslut utdata för Poängsatt datset för poängmodellen till indata för Utvärdera modell.
Anslut utdata från modulen Poängsätta modell för den andra modellen till höger i Utvärdera modell.
Högerklicka på Utvärdera modell och välj Kör valt för att generera utvärderingspoängen.

Resultat

När du har kört Utvärdera modell högerklickar du på modulen och väljer Utvärderingsresultat för att se resultatet. Du kan:

Spara resultatet som en datauppsättning för enklare analys med andra verktyg
Generera en visualisering i studiogränssnittet (klassiskt)

Om du ansluter datauppsättningar till båda indata i Utvärdera modell innehåller resultaten mått för båda datauppsättningarna eller båda modellerna. Modellen eller data som är kopplade till den vänstra porten visas först i rapporten, följt av måtten för datauppsättningen eller modellen som är kopplad till den högra porten.

Följande bild representerar till exempel en jämförelse av resultat från två klustringsmodeller som har byggts på samma data, men med olika parametrar.

AML_Comparing2Models

Eftersom det här är en klustringsmodell skiljer sig utvärderingsresultaten från om du jämför poäng från två regressionsmodeller eller jämför två klassificeringsmodeller. Den övergripande presentationen är dock densamma.

Mått

Det här avsnittet beskriver de mått som returneras för de specifika typer av modeller som stöds för användning med Utvärdera modell:

klassificeringsmodeller
regressionsmodeller
klustringsmodeller

Mått för klassificeringsmodeller

Följande mått rapporteras vid utvärdering av klassificeringsmodeller. Om du jämför modeller rangordnas de efter det mått du väljer för utvärdering.

Noggrannhet mäter hur bra en klassificeringsmodell är som andelen sanna resultat till totala fall.
Precision är andelen sanna resultat jämfört med alla positiva resultat.
Recall är bråkdelen av alla korrekta resultat som returneras av modellen.
F-poäng beräknas som det viktade medelvärdet av precision och träffsäkerhet mellan 0 och 1, där det idealiska F-poängvärdet är 1.
AUC mäter området under kurvan ritat med sanna positiva identifieringar på y-axeln och falska positiva identifieringar på x-axeln. Det här måttet är användbart eftersom det innehåller ett enda tal som gör att du kan jämföra modeller av olika typer.
Genomsnittlig loggförlust är en enskild poäng som används för att uttrycka straffet för felaktiga resultat. Den beräknas som skillnaden mellan två sannolikhetsfördelningar – den sanna och den i modellen.
Förlust av träningslogg är en enskild poäng som representerar klassificerarens fördel jämfört med en slumpmässig förutsägelse. Loggförlusten mäter osäkerheten i din modell genom att jämföra sannolikheterna som den matar ut med de kända värdena (grundsanning) i etiketterna. Du vill minimera loggförlusten för modellen som helhet.

Mått för regressionsmodeller

De mått som returneras för regressionsmodeller är vanligtvis utformade för att uppskatta mängden fel. En modell anses passa data bra om skillnaden mellan observerade och förutsagda värden är liten. Om du tittar på residualernas mönster (skillnaden mellan en förutsagd punkt och dess motsvarande faktiska värde) kan du dock berätta mycket om potentiell bias i modellen.

Följande mått rapporteras för utvärdering av regressionsmodeller. När du jämför modeller rangordnas de efter det mått du väljer för utvärdering.

Negativ logg sannolikhet mäter förlustfunktionen, en lägre poäng är bättre. Observera att det här måttet endast beräknas för Bayesian Linear Regression och Decision Forest Regression. för andra algoritmer är Infinity värdet vilket betyder ingenting.
Genomsnittligt absolut fel (MAE) mäter hur nära förutsägelserna är för de faktiska utfallen; därför är en lägre poäng bättre.
RMSE (Root Mean Squared Error) skapar ett enda värde som sammanfattar felet i modellen. Genom att ta bort skillnaden bortser måttet från skillnaden mellan överförutsägelse och underförutsägelse.
Relativt absolut fel (RAE) är den relativa absoluta skillnaden mellan förväntade och faktiska värden. relativ eftersom den genomsnittliga skillnaden divideras med det aritmetiska medelvärdet.
Relativt kvadratfel (RSE) normaliserar på samma sätt det totala kvadratfelet för de förutsagda värdena genom att dividera med det totala kvadratfelet för de faktiska värdena.
Mean Zero One Error (MZOE) anger om förutsägelsen var korrekt eller inte. Med andra ord: ZeroOneLoss(x,y) = 1 när x!=y; annars 0.
Bestämningskoefficienten, som ofta kallas R², representerar modellens förutsägelsekraft som ett värde mellan 0 och 1. Noll innebär att modellen är slumpmässig (förklarar ingenting); 1 innebär att det finns en perfekt passform. Försiktighet bör dock användas för att tolka R^2-värden , eftersom låga värden kan vara helt normala och höga värden kan misstänkas.

Mått för klustringsmodeller

Eftersom klustringsmodeller skiljer sig avsevärt från klassificerings- och regressionsmodeller i många avseenden returnerar Evaluate Model även en annan uppsättning statistik för klustringsmodeller.

Statistiken som returneras för en klustringsmodell beskriver hur många datapunkter som har tilldelats till varje kluster, mängden separation mellan kluster och hur nära datapunkterna är samlade i varje kluster.

Statistiken för klustringsmodellen beräknas i genomsnitt för hela datamängden, med ytterligare rader som innehåller statistik per kluster.

Följande resultat visar till exempel en del av resultaten från ett exempelexperiment som grupperar data i datamängden PIMA Indian Diabetes Binary Classification, som är tillgänglig i Machine Learning Studio (klassisk).

Resultatbeskrivning	Genomsnittligt avstånd till klustercenter	Genomsnittligt avstånd till annat centrum	Antal punkter	Maximalt avstånd till klustercenter
Kombinerad utvärdering	55.915068	169.897505	538	303.545166
Utvärdering för kluster nr 0	0	1	570	0
Utvärdering för kluster nr 1	0	1	178	0
Utvärdering för kluster nr 2	0	1	178	0

Från dessa resultat får du följande information:

Modulen Sweep Clustering skapar flera klustringsmodeller som anges i noggrannhetsordning. För enkelhetens skull har vi bara visat den bäst rankade modellen här. Modeller mäts med alla möjliga mått, men modellerna rangordnas med hjälp av det mått som du har angett. Om du har ändrat måttet kan en annan modell rangordnas högre.
Den kombinerade utvärderingspoängen överst i varje resultatavsnitt visar de genomsnittliga poängen för de kluster som skapats i den specifika modellen.

Den här topprankade modellen skapade tre kluster. andra modeller kan skapa två kluster eller fyra kluster. Den här kombinerade utvärderingspoängen hjälper dig därför att jämföra modeller med olika antal kluster.
Poängen i kolumnen Genomsnittligt avstånd till Klustercenter representerar närhet till klustrets alla punkter i ett kluster till centroiden för klustret.
Poängen i kolumnen Average Distance to Other Center representerar hur nära varje punkt i klustret i genomsnitt är centroider för alla andra kluster.

Du kan välja något av fyra mått för att mäta det här avståndet, men alla mått måste använda samma mått.
Kolumnen Antal punkter visar hur många datapunkter som har tilldelats till varje kluster, tillsammans med det totala antalet datapunkter i ett kluster.

Om antalet datapunkter som tilldelats kluster är mindre än det totala antalet tillgängliga datapunkter innebär det att datapunkterna inte kunde tilldelas till ett kluster.
Poängen i kolumnen Maximalt avstånd till Klustercenter representerar summan av avstånden mellan varje punkt och centroiden för den punktens kluster.

Om det här talet är högt kan det innebära att klustret är brett utsprickat. Du bör granska den här statistiken tillsammans med Genomsnittligt avstånd till Klustercenter för att fastställa klustrets spridning.

Exempel

Exempel på hur du genererar, visualiserar och tolkar utvärderingsmått finns i dessa exempelexperiment i Azure AI-galleriet. De här experimenten visar hur du skapar flera modeller och använder Utvärdera modell för att avgöra vilken modell som är bäst.

Jämför binära klassificerare: Förklarar hur du jämför prestanda för olika klassificerare som har skapats med samma data.
Jämför klassificerare med flera klasser: Visar hur du jämför noggrannheten för olika klassificeringsmodeller som har byggts på datauppsättningen för brevigenkänning.
Jämför regressorer: Vägleder dig genom processen med att utvärdera olika regressionsmodeller.
Uppskattning av efterfrågan: Lär dig hur du kombinerar utvärderingsmått från flera modeller.
Förutsägelse av kundrelationer: Visar hur du utvärderar flera relaterade modeller.

Förväntade indata

Namn	Typ	Description
Poängsatt datauppsättning	Datatabell	Poängsatt datauppsättning
Poängsatt datauppsättning att jämföra	Datatabell	Poängsatt datauppsättning att jämföra (valfritt)

Utdata

Namn	Typ	Description
Utvärderingsresultat	Datatabell	Resultat av datautvärdering

Undantag

Undantag	Description
Fel 0003	Ett undantag inträffar om en eller flera indata är null eller tomma.
Fel 0013	Ett undantag inträffar om modulläraren har en ogiltig typ.
Fel 0020	Ett undantag uppstår om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0021	Ett undantag inträffar om antalet rader i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0024	Ett undantag inträffar om datauppsättningen inte innehåller någon etikettkolumn.
Fel 0025	Ett undantag inträffar om datauppsättningen inte innehåller någon poängkolumn.

Se även

Korsvalidera modell
Utvärdera rekommenderare
Utvärdera
Poängmodell