Machine Learning-Glossar mit wichtigen BegriffenMachine learning glossary of important terms

Die folgende Liste ist eine Zusammenstellung wichtiger Begriffe aus dem Machine Learning-Bereich, die Sie bei der Erstellung benutzerdefinierter Modelle in ML.NET unterstützen.The following list is a compilation of important machine learning terms that are useful as you build your custom models in ML.NET.

GenauigkeitAccuracy

Bei der Klassifizierung ist die Genauigkeit die Anzahl der korrekt klassifizierten Elemente dividiert durch die Gesamtzahl der Elemente in der Testgruppe.In classification, accuracy is the number of correctly classified items divided by the total number of items in the test set. Sie reicht von 0 (ungenau) bis 1 (am genauesten).Ranges from 0 (least accurate) to 1 (most accurate). Die Genauigkeit ist eine der Auswertungsmetriken für die Leistung Ihres Modells.Accuracy is one of evaluation metrics of the model performance. Betrachten Sie sie in Verbindung mit Präzision, Wiedererkennung und F-Wertung.Consider it in conjunction with precision, recall, and F-score.

Fläche unter der Kurve (Area under the curve, AUC)Area under the curve (AUC)

Bei der binären Klassifizierung ist diese Auswertungsmetrik der Wert der Fläche unter der Kurve, der das Verhältnis der richtig positiven Ergebnisse (auf der Y-Achse) zu den falsch positiven Ergebnissen (auf der X-Achse) darstellt.In binary classification, an evaluation metric that is the value of the area under the curve that plots the true positives rate (on the y-axis) against the false positives rate (on the x-axis). Er reicht von 0,5 (schlechteste) bis 1 (beste).Ranges from 0.5 (worst) to 1 (best). Auch bekannt als die Fläche unter der ROC-Kurve, d.h. unter der Grenzwertoptimierungskurve (Receiver Operating Characteristic Curve).Also known as the area under the ROC curve, i.e., receiver operating characteristic curve. Weitere Informationen finden Sie auf Wikipedia im Artikel zu Receiver Operating Characteristic.For more information, see the Receiver operating characteristic article on Wikipedia.

Binäre KlassifizierungBinary classification

Ein Klassifizierungsfall, bei dem die Bezeichnung nur eine von zwei Klassen ist.A classification case where the label is only one out of two classes. Weitere Informationen finden Sie im Abschnitt Binäre Klassifizierung des Artikels Machine Learning-Aufgaben.For more information, see the Binary classification section of the Machine learning tasks topic.

KalibrierungCalibration

Die Kalibrierung ist der Prozess der Zuordnung einer unformatierten Bewertung zu einer Klassenzugehörigkeit für die binäre und Multiklassenklassifizierung.Calibration is the process of mapping a raw score onto a class membership, for binary and multiclass classification. Einige ML.NE-Trainer haben ein NonCalibrated-Suffix.Some ML.NET trainers have a NonCalibrated suffix. Diese Algorithmen erzeugen eine unformatierte Bewertung, die dann einer Klassenwahrscheinlichkeit zugeordnet werden muss.These algorithms produce a raw score that then must be mapped to a class probability.

CatalogCatalog

In ML.NET ist ein Katalog eine Sammlung von Erweiterungsfunktionen, die nach einem gemeinsamen Zweck gruppiert sind.In ML.NET, a catalog is a collection of extension functions, grouped by a common purpose.

Jede Machine Learning-Aufgabe (binäre Klassifizierung, Regression, Bewertung usw.) besitzt einen Katalog mit verfügbaren Machine Learning-Algorithmen (Trainer).For example, each machine learning task (binary classification, regression, ranking etc) has a catalog of available machine learning algorithms (trainers). Der Katalog für die Trainer der binären Klassifizierung ist: BinaryClassificationCatalog.BinaryClassificationTrainers.The catalog for the binary classification trainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.

KlassifizierungClassification

Wenn die Daten zur Vorhersage einer Kategorie verwendet werden, wird der überwachte Task für maschinelles Lernen als Klassifizierung bezeichnet.When the data is used to predict a category, supervised machine learning task is called classification. Die binäre Klassifizierung bezieht sich auf die Vorhersage von nur zwei Kategorien (z.B. die Klassifizierung eines Bilds als Bild einer „Katze“ oder eines „Hunds“).Binary classification refers to predicting only two categories (for example, classifying an image as a picture of either a 'cat' or a 'dog'). Die Multiklassenklassifizierung bezieht sich auf die Vorhersage mehrerer Kategorien (z.B. bei der Klassifizierung eines Bilds als Bild einer bestimmten Hunderasse).Multiclass classification refers to predicting multiple categories (for example, when classifying an image as a picture of a specific breed of dog).

BestimmtheitsmaßCoefficient of determination

Bei der Regression gibt diese Auswertungsmetrik an, wie gut Daten in ein Modell passen.In regression, an evaluation metric that indicates how well data fits a model. Die Werte liegen zwischen 0 und 1.Ranges from 0 to 1. Ein Wert von 0 bedeutet, dass die Daten zufällig sind oder nicht an das Modell angepasst werden können.A value of 0 means that the data is random or otherwise cannot be fit to the model. Ein Wert von 1 bedeutet, dass das Modell exakt mit den Daten übereinstimmt.A value of 1 means that the model exactly matches the data. Dies wird oft als r2, R2 oder R-Quadrat bezeichnet.This is often referred to as r2, R2, or r-squared.

DatenData

Daten sind für alle Machine Learning-Anwendungen von zentraler Bedeutung.Data is central to any machine learning application. In ML.NET werden Daten durch IDataView-Objekte dargestellt.In ML.NET data is represented by IDataView objects. Datenansichtsobjekte:Data view objects:

  • bestehen aus Zeilen und Spaltenare made up of columns and rows
  • werden verzögert ausgewertet, d.h. Daten werden nur geladen, wenn sie durch einen Vorgang aufgerufen werdenare lazily evaluated, that is they only load data when an operation calls for it
  • enthalten ein Schema, das den Typ, das Format und die-Länge der einzelnen Spalten definiertcontain a schema that defines the type, format and length of each column

EstimatorEstimator

Eine Klasse in ML.NET, die die IEstimator<TTransformer>-Schnittstelle implementiert.A class in ML.NET that implements the IEstimator<TTransformer> interface.

Ein Estimator ist eine Spezifikation einer Transformation (sowohl Transformation der Datenaufbereitung als auch Transformation des Machine Learning-Modells).An estimator is a specification of a transformation (both data preparation transformation and machine learning model training transformation). Estimators können zu einer Pipeline von Transformationen verkettet werden.Estimators can be chained together into a pipeline of transformations. Die Parameter eines Estimators oder einer Estimatorpipeline werden gelernt, wenn Fit aufgerufen wird.The parameters of an estimator or pipeline of estimators are learned when Fit is called. Das Ergebnis des Fit ist ein Transformator.The result of Fit is a Transformer.

ErweiterungsmethodeExtension method

Eine.NET-Methode, die zu einer Klasse gehört, aber außerhalb der Klasse definiert ist.A .NET method that is part of a class but is defined outside of the class. Der erste Parameter einer Erweiterungsmethode ist ein statischer this-Verweis auf die Klasse, zu der die Erweiterungsmethode gehört.The first parameter of an extension method is a static this reference to the class to which the extension method belongs.

Erweiterungsmethoden werden in ML.NET häufig verwendet, um Instanzen von Estimators zu konstruieren.Extension methods are used extensively in ML.NET to construct instances of estimators.

FeatureFeature

Eine messbare Eigenschaft des zu messenden Phänomens, typischerweise ein numerischer Wert (double).A measurable property of the phenomenon being measured, typically a numeric (double) value. Mehrere Funktionen werden als Funktionsvektor bezeichnet und typischerweise als double[] gespeichert.Multiple features are referred to as a Feature vector and typically stored as double[]. Funktionen definieren die wichtigen Eigenschaften des zu messenden Phänomens.Features define the important characteristics of the phenomenon being measured. Weitere Informationen finden Sie auf Wikipedia im Artikel zum Thema Funktion.For more information, see the Feature article on Wikipedia.

FunktionsentwicklungFeature engineering

Als Funktionsentwicklung wird der Prozess bezeichnet, bei dem eine Reihe von Funktionen definiert und eine Software entwickelt wird, die aus den verfügbaren Phänomendaten Funktionsvektoren erzeugt, auch Funktionsextraktion genannt.Feature engineering is the process that involves defining a set of features and developing software that produces feature vectors from available phenomenon data, i.e., feature extraction. Weitere Informationen finden Sie auf Wikipedia im Artikel zur Funktionsentwicklung.For more information, see the Feature engineering article on Wikipedia.

F-WertungF-score

Bei der Klassifizierung ist dies eine Auswertungsmetrik, die Präzision und Wiedererkennung ausgleicht.In classification, an evaluation metric that balances precision and recall.

HyperparameterHyperparameter

Ein Parameter eines Algorithmus für maschinelles Lernen.A parameter of a machine learning algorithm. Beispiele sind die Anzahl der zu erlernenden Bäume in einem Entscheidungswald oder die Schrittgröße in einem Gradientenverfahrenalgorithmus.Examples include the number of trees to learn in a decision forest or the step size in a gradient descent algorithm. Werte von Hyperparametern werden vor dem Training des Modells festgelegt und regeln die Suche nach Parametern der Vorhersagefunktion, z.B. der Vergleichspunkte in einem Entscheidungsbaum oder der Gewichtungen in einem linearen Regressionsmodell.Values of Hyperparameters are set before training the model and govern the process of finding the parameters of the prediction function, for example, the comparison points in a decision tree or the weights in a linear regression model. Weitere Informationen finden Sie auf Wikipedia im Artikel zum Thema Hyperparameter.For more information, see the Hyperparameter article on Wikipedia.

BezeichnungLabel

Das Element, das mit dem Modell für maschinelles Lernen vorhergesagt werden soll.The element to be predicted with the machine learning model. Zum Beispiel die Hunderasse oder ein zukünftiger Aktienkurs.For example, the breed of dog or a future stock price.

ProtokollverlustLog loss

Bei der Klassifizierung charakterisiert diese Auswertungsmetrik die Genauigkeit eines Klassifikators.In classification, an evaluation metric that characterizes the accuracy of a classifier. Je geringer der Protokollverlust, desto genauer ist ein Klassifikator.The smaller log loss is, the more accurate a classifier is.

VerlustfunktionLoss function

Eine Verlustfunktion ist die Differenz zwischen den Werten der Trainingsbezeichnung und der Vorhersage des Modells.A loss function is the difference between the training label values and the prediction made by the model. Die Parameter des Modells werden durch Minimierung der Verlustfunktion geschätzt.The parameters of the model are estimated by minimizing the loss function.

Verschiedene Trainer können mit unterschiedlichen Verlustfunktionen konfiguriert werden.Different trainers can be configured with different loss functions.

Mittlerer absoluter Fehler (Mean Absolute Error, MAE)Mean absolute error (MAE)

Bei der Regression ist dies eine Auswertungsmetrik, die den Durchschnitt aller Modellfehler angibt, wobei ein Modellfehler die Differenz zwischen dem vorhergesagten Wert für die Bezeichnung und dem korrekten Wert für die Bezeichnung ist.In regression, an evaluation metric that is the average of all the model errors, where model error is the distance between the predicted label value and the correct label value.

ModellModel

In der Regel handelt es sich hierbei um die Parameter für die Vorhersagefunktion.Traditionally, the parameters for the prediction function. Zum Beispiel die Gewichtungen in einem linearen Regressionsmodell oder die Entscheidungspunkte in einem Entscheidungsbaum.For example, the weights in a linear regression model or the split points in a decision tree. In ML.NET enthält ein Modell alle Informationen, die zur Vorhersage der Bezeichnung eines Domänenobjekts (z.B. Bild oder Text) notwendig sind.In ML.NET, a model contains all the information necessary to predict the label of a domain object (for example, image or text). Dies bedeutet, dass ML.NET-Modelle sowohl die notwendigen Schritte zur Funktionsbereitstellung als auch die Parameter für die Vorhersagefunktion enthalten.This means that ML.NET models include the featurization steps necessary as well as the parameters for the prediction function.

MultiklassenklassifizierungMulticlass classification

Ein Klassifizierungsfall, bei dem die Bezeichnung nur eine von mindestens drei Klassen ist.A classification case where the label is one out of three or more classes. Weitere Informationen finden Sie im Abschnitt Multiklassenklassifizierung des Artikels Machine Learning-Aufgaben.For more information, see the Multiclass classification section of the Machine learning tasks topic.

N-gramN-gram

Ein Funktionsextraktionsschema für Textdaten: jede Sequenz von N Wörtern wird in einen Funktionswert umgewandelt.A feature extraction scheme for text data: any sequence of N words turns into a feature value.

NormalisierungNormalization

Normalisierung ist der Prozess der Skalierung von Gleitkommadaten in Werte zwischen 0 und 1.Normalization is the process of scaling floating point data to values between 0 and 1. Viele der in ML.NET verwendeten Trainingsalgorithmen erfordern das Normalisieren von Merkmalseingabedaten.Many of the training algorithms used in ML.NET require input feature data to be normalized. ML.NET stellt eine Reihe von Transformationen für die Normalisierung bereit.ML.NET provides a series of transforms for normalization

Numerischer FunktionsvektorNumerical feature vector

Ein Vektor aus Funktionen besteht ausschließlich aus numerischen Werten.A feature vector consisting only of numerical values. Dies ist vergleichbar mit double[].This is similar to double[].

PipelinePipeline

Alle Vorgänge, die zur Anpassung eines Modells an einen Datensatz erforderlich sind.All of the operations needed to fit a model to a data set. Eine Pipeline besteht aus Datenimport, Transformation, Funktionsbereitstellung und Lernschritten.A pipeline consists of data import, transformation, featurization, and learning steps. Ist eine Pipeline einmal trainiert, wird sie zum Modell.Once a pipeline is trained, it turns into a model.

GenauigkeitPrecision

Bei der Klassifizierung steht die Genauigkeit für eine Klasse für die Anzahl der Elemente, die korrekt als zu dieser Klasse gehörend vorhergesagt werden, geteilt durch die Gesamtzahl der Elemente, die als zu dieser Klasse gehörend vorhergesagt werden.In classification, the precision for a class is the number of items correctly predicted as belonging to that class divided by the total number of items predicted as belonging to the class.

WiedererkennungRecall

Bei der Klassifizierung steht die Wiedererkennung für eine Klasse für die Anzahl der Elemente, die korrekt als zu dieser Klasse gehörend vorhergesagt werden, geteilt durch die Gesamtzahl der Elemente, die tatsächlich zu dieser Klasse gehören.In classification, the recall for a class is the number of items correctly predicted as belonging to that class divided by the total number of items that actually belong to the class.

RegularisierungRegularization

Die Regularisierung ahndet, wenn ein lineares Modell zu kompliziert ist.Regularization penalizes a linear model for being too complicated. Es gibt zwei Arten von Regularisierung:There are two types of regularization:

  • $L_1$-Regularisierung setzt die Gewichtungen für unwichtige Features auf Null.$L_1$ regularization zeros weights for insignificant features. Die Größe des gespeicherten Modells kann nach dieser Art der Regularisierung kleiner werden.The size of the saved model may become smaller after this type of regularization.
  • $L_2$-Regularisierung minimiert den Gewichtungsbereich für unwichtige Merkmale.$L_2$ regularization minimizes weight range for insignificant features. Dies ist ein allgemeinerer Prozess, der weniger empfindlich für Ausreißer ist.This is a more general process and is less sensitive to outliers.

RegressionRegression

Ein Task für überwachtes maschinelles Lernen, durch den ein reeller Wert, z.B. „double“, ausgegeben wird.A supervised machine learning task where the output is a real value, for example, double. Ein gutes Beispiel ist die Vorhersage von Aktienkursen.Examples include predicting stock prices. Weitere Informationen finden Sie im Abschnitt Regression des Artikels Machine Learning-Aufgaben.For more information, see the Regression section of the Machine learning tasks topic.

Relativer absoluter FehlerRelative absolute error

Bei der Regression steht diese Auswertungsmetrik für die Summe aller absoluten Fehler geteilt durch die Summe der Differenzen zwischen korrekten Bezeichnungswerten und dem Durchschnitt aller korrekten Bezeichnungswerte.In regression, an evaluation metric that is the sum of all absolute errors divided by the sum of distances between correct label values and the average of all correct label values.

Relativer quadratischer FehlerRelative squared error

Bei der Regression steht diese Auswertungsmetrik für die Summe aller absoluten quadratischen Fehler geteilt durch die Summe der Differenzen zwischen korrekten Bezeichnungswerten und dem Durchschnitt aller korrekten Bezeichnungswerte.In regression, an evaluation metric that is the sum of all squared absolute errors divided by the sum of squared distances between correct label values and the average of all correct label values.

Wurzel des mittleren quadratischen Fehlers (Root of mean squared error, RMSE)Root of mean squared error (RMSE)

Bei der Regression steht diese Auswertungsmetrik für die Quadratwurzel aus dem Durchschnitt der Quadrate der Fehler.In regression, an evaluation metric that is the square root of the average of the squares of the errors.

BewertungScoring

Bewertung ist der Prozess, bei dem neue Daten auf ein trainiertes Machine Learning-Modell angewendet und Vorhersagen generiert werden.Scoring is the process of applying new data to a trained machine learning model, and generating predictions. Bewertung wird auch als Rückschluss bezeichnet.Scoring is also known as inferencing. Abhängig vom Modelltyp kann die Bewertung ein Rohwert, eine Wahrscheinlichkeit oder eine Kategorie sein.Depending on the type of model, the score may be a raw value, a probability, or a category.

Überwachtes maschinelles LernenSupervised machine learning

Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell die Bezeichnung für noch unbekannte Daten vorhersagt.A subclass of machine learning in which a desired model predicts the label for yet-unseen data. Beispiele hierfür sind Klassifizierung, Regression und strukturierte Vorhersage.Examples include classification, regression, and structured prediction. Weitere Informationen finden Sie auf Wikipedia im Artikel Überwachtes Lernen.For more information, see the Supervised learning article on Wikipedia.

Aus- und WeiterbildungTraining

Der Prozess der Identifizierung eines Modells für einen bestimmten Trainingsdatensatz.The process of identifying a model for a given training data set. Für ein lineares Modell bedeutet dies, die Gewichtung zu finden.For a linear model, this means finding the weights. Bei einem Baum geht es darum, die Entscheidungspunkte zu identifizieren.For a tree, it involves identifying the split points.

TransformatorTransformer

Eine ML-NET-Klasse, die die ITransformer-Schnittstelle implementiert.An ML.NET class that implements the ITransformer interface.

Ein Transformator transformiert eine IDataView in eine andere.A transformer transforms one IDataView into another. Ein Transformator wird durch das Training eines Estimators oder einer Estimatorpipeline erstellt.A transformer is created by training an estimator, or an estimator pipeline.

Unüberwachtes maschinelles LernenUnsupervised machine learning

Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell versteckte (oder latente) Strukturen in Daten findet.A subclass of machine learning in which a desired model finds hidden (or latent) structure in data. Beispiele hierfür sind Clustering, Themenmodellierung und Dimensionsreduktion.Examples include clustering, topic modeling, and dimensionality reduction. Weitere Informationen finden Sie auf Wikipedia im Artikel Unüberwachtes Lernen.For more information, see the Unsupervised learning article on Wikipedia.