Woordenlijst voor machine learning met belangrijke termen

Artikel
04/08/2023

De volgende lijst is een compilatie van belangrijke machine learning-termen die nuttig zijn bij het bouwen van uw aangepaste modellen in ML.NET.

Nauwkeurigheid

In classificatie is nauwkeurigheid het aantal correct geclassificeerde items gedeeld door het totale aantal items in de testset. Varieert van 0 (minst nauwkeurig) tot 1 (meest nauwkeurig). Nauwkeurigheid is een van de metrische evaluatiegegevens van de modelprestaties. Beschouw het in combinatie met precisie, relevante overeenkomsten en F-score.

Oppervlakte onder de curve (AUC)

In binaire classificatie is dit een evaluatiemetriek dat de waarde is van het gebied onder de curve dat de werkelijke positieven (op de y-as) uittekent tegen de fout-positieven (op de x-as). Varieert van 0,5 (slechtste) tot 1 (beste). Ook wel bekend als het gebied onder de ROC-curve, d.w.w.v. de ontvanger bedrijfseigenschapscurve. Zie het artikel Receiver operating characteristic op Wikipedia voor meer informatie.

Binaire classificatie

Een classificatiecase waarbij het label slechts één van de twee klassen is. Zie de sectie Binaire classificatie van het onderwerp Machine learning-taken voor meer informatie.

Kalibratie

Kalibratie is het proces van het toewijzen van een onbewerkte score aan een klasselidmaatschap, voor binaire en multiklasse-classificatie. Sommige ML.NET trainers hebben een NonCalibrated achtervoegsel. Deze algoritmen produceren een onbewerkte score die vervolgens moet worden toegewezen aan een klassekans.

Catalogus

In ML.NET is een catalogus een verzameling uitbreidingsfuncties, gegroepeerd op een gemeenschappelijk doel.

Elke machine learning-taak (binaire classificatie, regressie, classificatie, enzovoort) heeft bijvoorbeeld een catalogus met beschikbare machine learning-algoritmen (trainers). De catalogus voor de binaire classificatietrainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificatie

Wanneer de gegevens worden gebruikt om een categorie te voorspellen, wordt een machine learning-taak onder supervisie classificatie genoemd. Binaire classificatie verwijst naar het voorspellen van slechts twee categorieën (bijvoorbeeld het classificeren van een afbeelding als een afbeelding van een 'kat' of een 'hond'). Classificatie met meerdere klassen verwijst naar het voorspellen van meerdere categorieën (bijvoorbeeld bij het classificeren van een afbeelding als een afbeelding van een specifiek hondenras).

Bepalingscoëfficiënt

In regressie, een evaluatiemetriek die aangeeft hoe goed gegevens bij een model passen. Varieert van 0 tot 1. Een waarde van 0 betekent dat de gegevens willekeurig zijn of anderszins niet geschikt zijn voor het model. Een waarde van 1 betekent dat het model exact overeenkomt met de gegevens. Dit wordt vaak r², R² of r-kwadraat genoemd.

Gegevens

Gegevens zijn centraal in elke machine learning-toepassing. In ML.NET gegevens worden vertegenwoordigd door IDataView objecten. Gegevensweergaveobjecten:

bestaan uit kolommen en rijen
worden lui geëvalueerd, dat wil dat ze alleen gegevens laden wanneer een bewerking dit vereist
bevatten een schema dat het type, de opmaak en de lengte van elke kolom definieert

Estimator

Een klasse in ML.NET waarmee de IEstimator<TTransformer> interface wordt geïmplementeerd.

Een estimator is een specificatie van een transformatie (zowel transformatie van gegevensvoorbereiding als transformatie van machine learning-modeltraining). Schattingen kunnen aan elkaar worden gekoppeld in een pijplijn van transformaties. De parameters van een estimator of pijplijn van schattingen worden geleerd wanneer Fit wordt aangeroepen. Het resultaat van Fit is een transformator.

Extensiemethode

Een .NET-methode die deel uitmaakt van een klasse, maar die buiten de klasse is gedefinieerd. De eerste parameter van een extensiemethode is een statische this verwijzing naar de klasse waartoe de extensiemethode behoort.

Extensiemethoden worden uitgebreid gebruikt in ML.NET voor het maken van exemplaren van schattingen.

Functie

Een meetbare eigenschap van het fenomeen dat wordt gemeten, meestal een numerieke (dubbele) waarde. Meerdere functies worden aangeduid als een functievector en worden meestal opgeslagen als double[]. Kenmerken definiëren de belangrijke kenmerken van het fenomeen dat wordt gemeten. Zie het artikel Functie op Wikipedia voor meer informatie.

Functie-engineering

Functie-engineering is het proces dat betrekking heeft op het definiëren van een set functies en het ontwikkelen van software die functievectoren produceert op basis van beschikbare fenomeengegevens, dat wil zeggen functieextractie. Zie het artikel Feature engineering op Wikipedia voor meer informatie.

F-score

In classificatie, een evaluatiemetriek die precisie en relevante overeenkomsten afweet.

Hyperparameter

Een parameter van een machine learning-algoritme. Voorbeelden zijn het aantal bomen dat moet worden geleerd in een beslissingsforest of de stapgrootte in een algoritme voor gradiëntafname. Waarden van Hyperparameters worden ingesteld voordat het model wordt getraind en bepalen het proces van het vinden van de parameters van de voorspellingsfunctie, bijvoorbeeld de vergelijkingspunten in een beslissingsstructuur of de gewichten in een lineair regressiemodel. Zie het artikel Hyperparameter op Wikipedia voor meer informatie.

Label

Het element dat moet worden voorspeld met het machine learning-model. Bijvoorbeeld het hondenras of een toekomstige aandelenkoers.

Logboekverlies

In classificatie, een metrische evaluatiewaarde die de nauwkeurigheid van een classificatie karakteriseert. Hoe kleiner logboekverlies is, hoe nauwkeuriger een classificatie is.

Verliesfunctie

Een verliesfunctie is het verschil tussen de waarden van de trainingslabels en de voorspelling die door het model wordt gedaan. De parameters van het model worden geschat door de verliesfunctie te minimaliseren.

Verschillende trainers kunnen worden geconfigureerd met verschillende verliesfuncties.

Gemiddelde absolute fout (MAE)

In regressie, een evaluatiemetriek die het gemiddelde van alle modelfouten is, waarbij modelfout de afstand is tussen de voorspelde labelwaarde en de juiste labelwaarde.

Modelleren

Traditioneel zijn dit de parameters voor de voorspellingsfunctie. Bijvoorbeeld de gewichten in een lineair regressiemodel of de splitspunten in een beslissingsstructuur. In ML.NET bevat een model alle informatie die nodig is om het label van een domeinobject (bijvoorbeeld afbeelding of tekst) te voorspellen. Dit betekent dat ML.NET modellen de benodigde featurization-stappen en de parameters voor de voorspellingsfunctie bevatten.

Classificatie met meerdere klassen

Een classificatiecase waarbij het label een van drie of meer klassen is. Zie de sectie Classificatie met meerdere klassen van het onderwerp Machine learning-taken voor meer informatie.

N-gram

Een functieextractieschema voor tekstgegevens: elke reeks N-woorden verandert in een functiewaarde .

Normalisatie

Normalisatie is het proces van het schalen van drijvende-kommagegevens naar waarden tussen 0 en 1. Voor veel van de trainingsalgoritmen die in ML.NET worden gebruikt, moeten de invoerfunctiegegevens worden genormaliseerd. ML.NET biedt een reeks transformaties voor normalisatie

Numerieke functievector

Een functievector die alleen uit numerieke waarden bestaat. Dit is vergelijkbaar double[]met .

Pijplijn

Alle bewerkingen die nodig zijn om een model aan te passen aan een gegevensset. Een pijplijn bestaat uit gegevensimport, transformatie, featurization en leerstappen. Zodra een pijplijn is getraind, verandert deze in een model.

Precisie

In de classificatie is de precisie voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse, gedeeld door het totale aantal items dat is voorspeld als behorend tot de klasse.

Relevante overeenkomsten

In de classificatie is de terugroepactie voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse, gedeeld door het totale aantal items dat daadwerkelijk tot de klasse behoort.

Regularisatie

Regularisatie bestraft een lineair model omdat het te ingewikkeld is. Er zijn twee soorten regularisatie:

$L_1$ regularisatie nullen gewichten voor onbeduidende functies. De grootte van het opgeslagen model kan kleiner worden na dit type regularisatie.
$L_2$ regularisatie minimaliseert het gewichtsbereik voor onbeduidende functies. Dit is een meer algemeen proces en is minder gevoelig voor uitbijters.

Regressie

Een machine learning-taak onder supervisie waarbij de uitvoer een echte waarde is, bijvoorbeeld dubbel. Voorbeelden hiervan zijn het voorspellen van aandelenkoersen. Zie de sectie Regressie van het onderwerp Machine learning-taken voor meer informatie.

Relatieve absolute fout

In regressie, een evaluatiemetriek die de som is van alle absolute fouten, gedeeld door de som van de afstanden tussen de juiste labelwaarden en het gemiddelde van alle juiste labelwaarden.

Relatieve kwadratische fout

In regressie, een metrische evaluatiewaarde die de som is van alle kwadratische absolute fouten, gedeeld door de som van de kwadratische afstanden tussen de juiste labelwaarden en het gemiddelde van alle juiste labelwaarden.

Wortel van gemiddelde kwadratische fout (RMSE)

In regressie, een evaluatiemetriek die de vierkantswortel is van het gemiddelde van de kwadraten van de fouten.

Scoren

Scoren is het proces van het toepassen van nieuwe gegevens op een getraind machine learning-model en het genereren van voorspellingen. Scoren wordt ook wel deductie genoemd. Afhankelijk van het type model kan de score een onbewerkte waarde, een kans of een categorie zijn.

Machine Learning onder supervisie

Een subklasse van machine learning waarin een gewenst model het label voor nog ongeziene gegevens voorspelt. Voorbeelden zijn classificatie, regressie en gestructureerde voorspelling. Zie het artikel Leren onder supervisie op Wikipedia voor meer informatie.

Training

Het proces voor het identificeren van een model voor een bepaalde set trainingsgegevens. Voor een lineair model betekent dit het vinden van de gewichten. Voor een boomstructuur gaat het om het identificeren van de splitsingspunten.

Transformator

Een ML.NET klasse die de ITransformer interface implementeert.

Een transformator transformeert de IDataView ene in de andere. Een transformator wordt gemaakt door een estimator of een estimator-pijplijn te trainen.

Machine Learning zonder supervisie

Een subklasse van machine learning waarin een gewenst model verborgen (of latente) structuur in gegevens vindt. Voorbeelden zijn clustering, onderwerpmodellering en dimensionaliteitsvermindering. Zie het artikel Over leren zonder supervisie op Wikipedia voor meer informatie.

Delen via