Share via


Uw ML.NET model evalueren met metrische gegevens

Inzicht in de metrische gegevens die worden gebruikt om een ML.NET model te evalueren.

Metrische evaluatiegegevens zijn specifiek voor het type machine learning-taak dat door een model wordt uitgevoerd.

Voor de classificatietaak wordt het model bijvoorbeeld geëvalueerd door te meten hoe goed een voorspelde categorie overeenkomt met de werkelijke categorie. En voor clustering is evaluatie gebaseerd op hoe dicht geclusterde items bij elkaar liggen en hoeveel scheiding er is tussen de clusters.

Metrische evaluatiegegevens voor binaire classificatie

Metrische gegevens voor Beschrijving Zoek naar:
Nauwkeurigheid Nauwkeurigheid is het aandeel van de juiste voorspellingen met een testgegevensset. Dit is de verhouding van het aantal juiste voorspellingen tot het totale aantal invoervoorbeelden. Het werkt goed als er een vergelijkbaar aantal monsters bij elke klasse hoort. Hoe dichter bij 1,00, hoe beter. Maar precies 1,00 geeft een probleem aan (meestal: label/doellekken, overfitting of testen met trainingsgegevens). Wanneer de testgegevens niet in balans zijn (waarbij de meeste exemplaren deel uitmaken van een van de klassen), is de gegevensset klein of scoren benadering 0,00 of 1,00. De nauwkeurigheid legt niet echt de effectiviteit van een classificatie vast en u moet aanvullende metrische gegevens controleren.
AUC aucROC of Area onder de curve meet het gebied onder de curve dat is gemaakt door het werkelijke positieve percentage af te vegen versus het fout-positieve percentage. Hoe dichter bij 1,00, hoe beter. Het moet groter zijn dan 0,50 voor een model om acceptabel te zijn. Een model met AUC van 0,50 of minder is waardeloos.
AUCPR aucPR of Gebied onder de curve van een Precision-Recall-curve: Nuttige meting van het succes van voorspellingen wanneer de klassen onevenwichtig zijn (zeer scheefgetrokken gegevenssets). Hoe dichter bij 1,00, hoe beter. Hoge scores dicht bij 1,00 tonen aan dat de classificatie nauwkeurige resultaten retourneert (hoge precisie) en een meerderheid van alle positieve resultaten retourneert (hoge relevante overeenkomsten).
F1-score F1-score wordt ook wel evenwichtige F-score of F-meting genoemd. Het is het harmonische gemiddelde van de precisie en relevante overeenkomsten. F1-score is handig als u een balans wilt zoeken tussen Precisie en Relevante overeenkomsten. Hoe dichter bij 1,00, hoe beter. Een F1-score bereikt de beste waarde op 1,00 en slechtste score op 0,00. Er wordt aangegeven hoe nauwkeurig uw classificatie is.

Lees de volgende artikelen voor meer informatie over metrische binaire classificatiegegevens:

Metrische evaluatiegegevens voor classificatie en tekstclassificatie met meerdere klassen

Metrische gegevens voor Beschrijving Zoek naar:
Micronauwkeurigheid De nauwkeurigheid van microgemiddelde voegt de bijdragen van alle klassen samen om de gemiddelde metrische waarde te berekenen. Het is de fractie van exemplaren die correct zijn voorspeld. Het microgemiddelde houdt geen rekening met klaslidmaatschap. In principe draagt elk paar van de voorbeeldklasse evenveel bij aan de metrische nauwkeurigheid. Hoe dichter bij 1,00, hoe beter. In een classificatietaak met meerdere klassen verdient micronauwkeurigheid de voorkeur boven macronauwkeurigheid als u vermoedt dat er sprake is van een onevenwichtige klasse (dat wil bijvoorbeeld dat u veel meer voorbeelden van één klasse hebt dan van andere klassen).
Macronauwkeurigheid Nauwkeurigheid van macrogemiddelde is de gemiddelde nauwkeurigheid op klasseniveau. De nauwkeurigheid voor elke klasse wordt berekend en de macronauwkeurigheid is het gemiddelde van deze nauwkeurigheid. In principe draagt elke klasse net zo bij aan de metrische nauwkeurigheid. Minderheidsklassen krijgen gelijk gewicht als de grotere klassen. De metrische macrogemiddelde geeft hetzelfde gewicht aan elke klasse, ongeacht hoeveel exemplaren van die klasse de gegevensset bevat. Hoe dichter bij 1,00, hoe beter. Het berekent de metrische gegevens onafhankelijk voor elke klasse en neemt vervolgens het gemiddelde in beslag (waardoor alle klassen gelijk worden behandeld)
Logboekverlies Logaritmisch verlies meet de prestaties van een classificatiemodel waarbij de voorspellingsinvoer een waarschijnlijkheidswaarde is tussen 0,00 en 1,00. Logboekverlies neemt toe naarmate de voorspelde waarschijnlijkheid afwijkt van het werkelijke label. Hoe dichter bij 0,00, hoe beter. Een perfect model zou een logboekverlies van 0,00 hebben. Het doel van onze machine learning-modellen is om deze waarde te minimaliseren.
Vermindering van logboekverlies Logaritmische verliesvermindering kan worden geïnterpreteerd als het voordeel van de classificatie ten opzichte van een willekeurige voorspelling. Varieert van -inf en 1.00, waarbij 1,00 perfecte voorspellingen is en 0,00 de gemiddelde voorspellingen aangeeft. Als de waarde bijvoorbeeld gelijk is aan 0,20, kan deze worden geïnterpreteerd als 'de waarschijnlijkheid van een juiste voorspelling is 20% beter dan willekeurig raden'.

Micronauwkeurigheid is over het algemeen beter afgestemd op de bedrijfsbehoeften van ML-voorspellingen. Als u één metriek wilt selecteren voor het kiezen van de kwaliteit van een classificatietaak met meerdere klassen, moet dit meestal micronauwkeurigheid zijn.

Bijvoorbeeld voor een taak voor het classificeren van ondersteuningstickets: (hiermee worden binnenkomende tickets toegewezen aan ondersteuningsteams)

  • Micronauwkeurigheid: hoe vaak wordt een binnenkomend ticket geclassificeerd aan het juiste team?
  • Macronauwkeurigheid: voor een gemiddeld team, hoe vaak is een binnenkomend ticket correct voor hun team?

Macronauwkeurigheid overgewicht kleine teams in dit voorbeeld; een klein team dat slechts 10 tickets per jaar krijgt, telt zoveel als een groot team met 10k tickets per jaar. Micronauwkeurigheid in dit geval correleert beter met de bedrijfsbehoefte van: "hoeveel tijd/geld kan het bedrijf besparen door mijn ticketrouteringsproces te automatiseren".

Lees de volgende artikelen voor meer informatie over metrische gegevens voor classificatie van meerdere klassen:

Metrische evaluatiegegevens voor regressie en aanbeveling

Zowel de regressie- als aanbevelingstaken voorspellen een getal. In het geval van regressie kan het getal elke uitvoereigenschap zijn die wordt beïnvloed door de invoereigenschappen. Voor aanbeveling is het getal meestal een beoordelingswaarde (bijvoorbeeld tussen 1 en 5) of een ja/nee-aanbeveling (vertegenwoordigd door respectievelijk 1 en 0).

Metrisch Beschrijving Zoek naar:
R-Kwadraat R-kwadraat (R2) of coëfficiënt van bepaling vertegenwoordigt de voorspellende kracht van het model als een waarde tussen -inf en 1,00. 1,00 betekent dat er een perfecte pasvorm is en de pasvorm willekeurig slecht kan zijn, zodat de scores negatief kunnen zijn. Een score van 0,00 betekent dat het model de verwachte waarde voor het label raadt. Een negatieve R2-waarde geeft aan dat de pasvorm niet de trend van de gegevens volgt en dat het model slechter presteert dan willekeurig raden. Dit is alleen mogelijk bij niet-lineaire regressiemodellen of beperkte lineaire regressie. R2 meet hoe dicht de werkelijke testgegevenswaarden bij de voorspelde waarden liggen. Hoe dichter bij 1,00, hoe beter de kwaliteit. Soms zijn lage R-kwadratische waarden (zoals 0,50) echter volledig normaal of goed genoeg voor uw scenario en zijn hoge R-kwadratische waarden niet altijd goed en verdacht.
Absoluut verlies Absolute verlies of Gemiddelde absolute fout (MAE) meet hoe dicht de voorspellingen bij de werkelijke resultaten liggen. Dit is het gemiddelde van alle modelfouten, waarbij de modelfout de absolute afstand is tussen de voorspelde labelwaarde en de juiste labelwaarde. Deze voorspellingsfout wordt berekend voor elke record van de testgegevensset. Ten slotte wordt de gemiddelde waarde berekend voor alle vastgelegde absolute fouten. Hoe dichter bij 0,00, hoe beter de kwaliteit. De gemiddelde absolute fout maakt gebruik van dezelfde schaal als de gegevens die worden gemeten (wordt niet genormaliseerd tot een bepaald bereik). Absoluut verlies, kwadratenverlies en RMS-verlies kunnen alleen worden gebruikt om vergelijkingen te maken tussen modellen voor dezelfde gegevensset of gegevensset met een vergelijkbare distributie van labelwaarden.
Kwadratische verlies Kwadratische verlies of GEMIDDELDE kwadratische fout (MSE), ook wel GEMIDDELDE kwadratische afwijking (MSD) genoemd, geeft aan hoe dicht een regressielijn is bij een set testgegevenswaarden door de afstanden van de punten naar de regressielijn te nemen (deze afstanden zijn de fouten E) en ze te kwadrateren. De kwadratuur geeft meer gewicht aan grotere verschillen. Het is altijd niet-negatief en waarden dichter bij 0,00 zijn beter. Afhankelijk van uw gegevens is het mogelijk onmogelijk om een zeer kleine waarde te krijgen voor de gemiddelde kwadratische fout.
RMS-verlies RMS-verlies of Root Mean Squared Error (RMSE) (ook wel Root Mean Square Deviation, RMSD genoemd), meet het verschil tussen waarden die zijn voorspeld door een model en de waarden die worden waargenomen uit de omgeving die wordt gemodelleerd. RMS-verlies is de vierkantswortel van kwadratenverlies en heeft dezelfde eenheden als het label, vergelijkbaar met het absolute verlies, maar geeft meer gewicht aan grotere verschillen. Wortel van gemiddelde kwadratische fout wordt vaak gebruikt in de klimatologie, prognose en regressieanalyse om experimentele resultaten te verifiëren. Het is altijd niet-negatief en waarden dichter bij 0,00 zijn beter. RMSD is een meting van nauwkeurigheid, om prognosefouten van verschillende modellen voor een bepaalde gegevensset te vergelijken en niet tussen gegevenssets, omdat deze afhankelijk is van schaal.

Lees de volgende artikelen voor meer informatie over metrische regressiegegevens:

Metrische evaluatiegegevens voor clustering

Metrisch Beschrijving Zoek naar:
Gemiddelde afstand Het gemiddelde van de afstand tussen gegevenspunten en het midden van het toegewezen cluster. De gemiddelde afstand is een meting van de nabijheid van de gegevenspunten naar clusterkernen. Het is een meting van hoe 'strak' het cluster is. Waarden dichter bij 0 zijn beter. Hoe dichter bij nul de gemiddelde afstand ligt, hoe meer geclusterde gegevens zijn. Houd er echter rekening mee dat deze metrische waarde afneemt als het aantal clusters wordt verhoogd en in het extreme geval (waarbij elk afzonderlijk gegevenspunt een eigen cluster is) het gelijk is aan nul.
De Bouldin-index van Den Bouldin De gemiddelde verhouding van binnen-clusterafstanden tot tussen-clusterafstanden. Hoe strakker het cluster en hoe verder van elkaar de clusters zijn, hoe lager deze waarde is. Waarden dichter bij 0 zijn beter. Clusters die verder uit elkaar liggen en minder verspreid zijn, leiden tot een betere score.
Genormaliseerde wederzijdse informatie Kan worden gebruikt wanneer de trainingsgegevens die worden gebruikt om het clusteringmodel te trainen, ook worden geleverd met basiswaarlabels (dat wil zeggen, clustering onder supervisie). De genormaliseerde metrische gegevens over wederzijdse gegevens meten of vergelijkbare gegevenspunten worden toegewezen aan hetzelfde cluster en verschillende gegevenspunten worden toegewezen aan verschillende clusters. Genormaliseerde wederzijdse informatie is een waarde tussen 0 en 1. Waarden dichter bij 1 zijn beter.

Metrische evaluatiegegevens voor classificatie

Metrisch Beschrijving Zoek naar:
Korting op cumulatieve winsten Korting op cumulatieve winst (DCG) is een meting van classificatiekwaliteit. Het is afgeleid van twee aannames. Een: Zeer relevante items zijn nuttiger bij het weergeven van een hogere rangorde. Twee: Bruikbaarheid houdt relevantie bij, hoe hoger de relevantie, hoe nuttiger een item. De cumulatieve winst wordt berekend voor een bepaalde positie in de rangorde. Hiermee wordt de relevantieclassificatie opgeteld die wordt gedeeld door de logaritme van de classificatieindex tot de positie van belang. Deze wordt berekend met $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Relevantieclassificaties worden verstrekt aan een classificatietrainingsalgoritmen als basiswaarlabels. Er wordt één DCG-waarde opgegeven voor elke positie in de classificatietabel, vandaar de naam Korting op cumulatieve winsten. Hogere waarden zijn beter.
Genormaliseerde cumulatieve winsten Door DCG te normaliseren, kan de metrische waarde worden vergeleken voor classificatielijsten met verschillende lengten. Waarden dichter bij 1 zijn beter.

Metrische evaluatiegegevens voor anomaliedetectie

Metrisch Beschrijving Zoek naar:
Gebied onder ROC-curve Het gebied onder de curve van de ontvangeroperator meet hoe goed het model afwijkende en gebruikelijke gegevenspunten scheidt. Waarden dichter bij 1 zijn beter. Alleen waarden die groter zijn dan 0,5 tonen de effectiviteit van het model aan. Waarden van 0,5 of lager geven aan dat het model niet beter is dan willekeurig de invoer toewijzen aan afwijkende en gebruikelijke categorieën.
Detectiepercentage bij fout-positief aantal Detectiepercentage bij fout-positief aantal is de verhouding van het aantal correct geïdentificeerde afwijkingen tot het totale aantal afwijkingen in een testset, geïndexeerd door elk fout-positief. Dat wil gezegd, er is een waarde voor de detectiefrequentie bij fout-positieve aantallen voor elk fout-positief item. Waarden dichter bij 1 zijn beter. Als er geen fout-positieven zijn, is deze waarde 1.

Metrische evaluatiegegevens voor overeenkomsten tussen zinnen

Metrisch Beschrijving Zoek naar:
Pearson Correlatie Pearson correlatie, ook wel correlatiecoëfficiënt genoemd, meet de afhankelijkheid of relatie tussen twee gegevenssets. Absolute waarden dichter bij 1 zijn het meest vergelijkbaar. Deze metrische waarde varieert van -1 tot 1. Een absolute waarde van 1 impliceert dat de gegevenssets identiek zijn. Een waarde van 0 impliceert dat er geen relatie is tussen de twee gegevenssets.