Glosář strojového učení s důležitými podmínkamiMachine learning glossary of important terms

Následující seznam je kompilace důležitých podmínek strojového učení, které jsou užitečné při sestavování vlastních modelů v ML.NET.The following list is a compilation of important machine learning terms that are useful as you build your custom models in ML.NET.

PřesnostAccuracy

V klasifikacije přesnost počet správně klasifikovaných položek dělený celkovým počtem položek v sadě testů.In classification, accuracy is the number of correctly classified items divided by the total number of items in the test set. Rozsahy od 0 (nejméně přesný) po 1 (nejpřesnější).Ranges from 0 (least accurate) to 1 (most accurate). Přesnost je jednou ze zkušebních metrik výkonu modelu.Accuracy is one of evaluation metrics of the model performance. Zvažte, jestli je ve spojení s přesností, odvoláníma F-skore.Consider it in conjunction with precision, recall, and F-score.

Oblast pod křivkou (AUC)Area under the curve (AUC)

V binární klasifikacije vyhodnocena metrika, která je hodnotou oblasti pod křivkou, která vykreslí skutečnou kladovou sazbu (na ose y) proti falešně pozitivním sazbám (na ose x).In binary classification, an evaluation metric that is the value of the area under the curve that plots the true positives rate (on the y-axis) against the false positives rate (on the x-axis). Rozsahy od 0,5 (nejhorší) po 1 (nejlepší).Ranges from 0.5 (worst) to 1 (best). Označuje se také jako oblast pod křivkou ROC, tj. křivka s provozní charakteristikou přijímače.Also known as the area under the ROC curve, i.e., receiver operating characteristic curve. Další informace najdete v článku věnovaném provozním charakteristikám přijímače na Wikipedii.For more information, see the Receiver operating characteristic article on Wikipedia.

Binární klasifikaceBinary classification

Případ klasifikace , kde popisek je pouze jeden ze dvou tříd.A classification case where the label is only one out of two classes. Další informace najdete v části binární klasifikace v tématu úlohy strojového učení .For more information, see the Binary classification section of the Machine learning tasks topic.

KalibracCalibration

Kalibrace je proces mapování nezpracovaného skóre na členství ve třídě pro binární a více třídové klasifikace.Calibration is the process of mapping a raw score onto a class membership, for binary and multiclass classification. Některé ML.NET školitele mají příponu NonCalibrated.Some ML.NET trainers have a NonCalibrated suffix. Tyto algoritmy vytvoří nezpracované skóre, které pak musí být namapovány na pravděpodobnost třídy.These algorithms produce a raw score that then must be mapped to a class probability.

KatalogCatalog

Katalog je v ML.NET kolekce funkcí rozšíření, které se seskupují podle společného účelu.In ML.NET, a catalog is a collection of extension functions, grouped by a common purpose.

Každý úkol strojového učení (binární klasifikace, regrese, řazení atd.) má například katalog dostupných algoritmů strojového učení (školitele).For example, each machine learning task (binary classification, regression, ranking etc) has a catalog of available machine learning algorithms (trainers). Katalog školitele binární klasifikace je: BinaryClassificationCatalog.BinaryClassificationTrainers.The catalog for the binary classification trainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.

KlasifikaceClassification

Když se data použijí pro předpověď kategorie, je pod dohledem úlohy strojového učení označována jako klasifikace.When the data is used to predict a category, supervised machine learning task is called classification. Binární klasifikace odkazuje na předpověď pouze dvou kategorií (například klasifikaci obrázku jako obrázku "Cat" nebo "pes").Binary classification refers to predicting only two categories (for example, classifying an image as a picture of either a 'cat' or a 'dog'). Klasifikace s více třídami odkazuje na předpověď více kategorií (například při klasifikaci obrázku jako obrázku konkrétního druhu pes).Multiclass classification refers to predicting multiple categories (for example, when classifying an image as a picture of a specific breed of dog).

Koeficient určeníCoefficient of determination

V regresije vyhodnocena metrika, která indikuje, jak dobře data vyhovují modelu.In regression, an evaluation metric that indicates how well data fits a model. Rozsah od 0 do 1.Ranges from 0 to 1. Hodnota 0 znamená, že data jsou náhodná nebo jinak nelze přizpůsobit modelu.A value of 0 means that the data is random or otherwise cannot be fit to the model. Hodnota 1 znamená, že model přesně odpovídá datům.A value of 1 means that the model exactly matches the data. To se často označuje jako r2, r2nebo r-Saurashtra.This is often referred to as r2, R2, or r-squared.

DatovéData

Data jsou centrálně k libovolné aplikaci strojového učení.Data is central to any machine learning application. V ML.NET data jsou reprezentovány IDataView objekty.In ML.NET data is represented by IDataView objects. Objekty zobrazení dat:Data view objects:

  • jsou tvořeny sloupci a řádkyare made up of columns and rows
  • jsou vyhodnoceny jako laxně vytvářená, které načítají data pouze při volání operace.are lazily evaluated, that is they only load data when an operation calls for it
  • obsahuje schéma definující typ, formát a délku každého sloupce.contain a schema that defines the type, format and length of each column

EstimatorEstimator

Třída v ML.NET, která implementuje rozhraní IEstimator<TTransformer>.A class in ML.NET that implements the IEstimator<TTransformer> interface.

Estimator je specifikace transformace (transformace přípravy dat i převod výuky modelů strojového učení).An estimator is a specification of a transformation (both data preparation transformation and machine learning model training transformation). Odhady se dají zřetězit dohromady do kanálu transformací.Estimators can be chained together into a pipeline of transformations. Parametry Estimator nebo odhady kanálu jsou zjištěny při volání Fit.The parameters of an estimator or pipeline of estimators are learned when Fit is called. Výsledek Fit je transformátor.The result of Fit is a Transformer.

Metoda rozšířeníExtension method

Metoda .NET, která je součástí třídy, ale je definována mimo třídu.A .NET method that is part of a class but is defined outside of the class. První parametr rozšiřující metody je statický this odkaz na třídu, do které patří rozšiřující metoda.The first parameter of an extension method is a static this reference to the class to which the extension method belongs.

Metody rozšíření jsou v ML.NET používány rozsáhle k vytváření instancí odhady.Extension methods are used extensively in ML.NET to construct instances of estimators.

FunkceFeature

Měřitelná vlastnost neměřeného jevu, obvykle číselná (dvojitá) hodnota.A measurable property of the phenomenon being measured, typically a numeric (double) value. Více funkcí je označováno jako vektor funkce a obvykle je uloženo jako double[].Multiple features are referred to as a Feature vector and typically stored as double[]. Funkce definují důležité charakteristiky pro měřený jev.Features define the important characteristics of the phenomenon being measured. Další informace najdete v článku funkce na Wikipedii.For more information, see the Feature article on Wikipedia.

Návrh funkcíFeature engineering

Inženýr funkcí je proces, který zahrnuje definování sady funkcí a vývoj softwaru, který vytváří vektory funkcí z dostupných dat pro jev, tj. extrakce funkcí.Feature engineering is the process that involves defining a set of features and developing software that produces feature vectors from available phenomenon data, i.e., feature extraction. Další informace najdete v článku věnovaném inženýrům funkcí na Wikipedii.For more information, see the Feature engineering article on Wikipedia.

Skóre FF-score

V klasifikacije metrika vyhodnocení, která vyvažuje přesnost a odvolání.In classification, an evaluation metric that balances precision and recall.

ParametrHyperparameter

Parametr algoritmu strojového učení.A parameter of a machine learning algorithm. Příklady zahrnují počet stromů, které se naučí v doménové struktuře rozhodnutí nebo velikost kroku v algoritmu prostupného přechodu.Examples include the number of trees to learn in a decision forest or the step size in a gradient descent algorithm. Hodnoty parametrů jsou nastaveny před školením modelu a řízení procesu hledání parametrů funkce předpovědi, například porovnávacích bodů v rozhodovacím stromu nebo závaží v modelu lineární regrese.Values of Hyperparameters are set before training the model and govern the process of finding the parameters of the prediction function, for example, the comparison points in a decision tree or the weights in a linear regression model. Další informace najdete v článku na Wikipedii.For more information, see the Hyperparameter article on Wikipedia.

PopisekLabel

Prvek, který má být předpovězen modelu Machine Learning.The element to be predicted with the machine learning model. Například druh psa nebo budoucí cena za zásobu.For example, the breed of dog or a future stock price.

Protokolovat ztrátyLog loss

V klasifikacije vyhodnocena metrika, která charakterizuje přesnost třídění.In classification, an evaluation metric that characterizes the accuracy of a classifier. Menší ztráta protokolu je přesnější klasifikátor.The smaller log loss is, the more accurate a classifier is.

Funkce ztrátyLoss function

Funkce ztráty je rozdíl mezi hodnotami školicích popisků a předpovědi provedenou modelem.A loss function is the difference between the training label values and the prediction made by the model. Parametry modelu jsou odhadované minimalizací funkce ztráty.The parameters of the model are estimated by minimizing the loss function.

U různých školitelů se dá nakonfigurovat jiné funkce ztráty.Different trainers can be configured with different loss functions.

Střední absolutní chyba (MAE)Mean absolute error (MAE)

V regresivyhodnocuje metrika, která je průměrem všech chyb modelů, kde chyba modelu je vzdálenost mezi předpovězenou hodnotou popisku a správnou hodnotou popisku.In regression, an evaluation metric that is the average of all the model errors, where model error is the distance between the predicted label value and the correct label value.

ModelModel

Tradičně parametry pro funkci předpovědi.Traditionally, the parameters for the prediction function. Například váhy v modelu lineární regrese nebo v místech rozdělení v rozhodovacím stromu.For example, the weights in a linear regression model or the split points in a decision tree. V ML.NET model obsahuje všechny informace potřebné pro předpověď popisku doménového objektu (například obrázku nebo textu).In ML.NET, a model contains all the information necessary to predict the label of a domain object (for example, image or text). To znamená, že modely ML.NET zahrnují potřebné kroky featurization a také parametry pro funkci předpovědi.This means that ML.NET models include the featurization steps necessary as well as the parameters for the prediction function.

Klasifikace s více třídamiMulticlass classification

Případ klasifikace , kde popisek představuje jednu ze tří nebo více tříd.A classification case where the label is one out of three or more classes. Další informace najdete v části klasifikace více tříd v tématu úlohy strojového učení .For more information, see the Multiclass classification section of the Machine learning tasks topic.

N-gramN-gram

Schéma extrakce funkce pro textová data: jakákoli sekvence N slov přepíná na hodnotu funkce .A feature extraction scheme for text data: any sequence of N words turns into a feature value.

NormalizaceNormalization

Normalizace je proces škálování dat s plovoucí desetinnou čárkou na hodnoty mezi 0 a 1.Normalization is the process of scaling floating point data to values between 0 and 1. Mnohé z školicích algoritmů používaných v ML.NET vyžadují, aby byla vstupní data funkce normalizovaná.Many of the training algorithms used in ML.NET require input feature data to be normalized. ML.NET poskytuje řadu transformací pro normalizaci .ML.NET provides a series of transforms for normalization

Vektor číselné funkceNumerical feature vector

Vektor funkce skládající se pouze z číselných hodnot.A feature vector consisting only of numerical values. To je podobné jako double[].This is similar to double[].

KanálPipeline

Všechny operace potřebné k přizpůsobení modelu datové sadě.All of the operations needed to fit a model to a data set. Kanál se skládá z kroků importu, transformace, featurization a učení dat.A pipeline consists of data import, transformation, featurization, and learning steps. Jakmile je kanál vyškolen, změní se na model.Once a pipeline is trained, it turns into a model.

PřesnostPrecision

V klasifikaci, přesnost pro třídu je počet položek, které byly správně předpovězeny, jako patřící do této třídy dělené celkovým počtem položek, které byly předpovězeny jako patřící do třídy.In classification, the precision for a class is the number of items correctly predicted as belonging to that class divided by the total number of items predicted as belonging to the class.

OdvolatRecall

V klasifikacije odvolání pro třídu počet položek, které byly správně předpovězeny, jako patřící do této třídy, dělený celkovým počtem položek, které skutečně patří do třídy.In classification, the recall for a class is the number of items correctly predicted as belonging to that class divided by the total number of items that actually belong to the class.

RegularizaceRegularization

Pravidelný postih je lineárním modelem, který je příliš složitý.Regularization penalizes a linear model for being too complicated. Existují dva typy pravidelnosti:There are two types of regularization:

  • $L _1 $ regularing pro nevýznamné funkce vynulová váhy.$L_1$ regularization zeros weights for insignificant features. Velikost uloženého modelu může být po tomto typu depravidelnosti menší.The size of the saved model may become smaller after this type of regularization.
  • Pravidelná na$L _2 $ minimalizuje rozsah váhy pro nevýznamné funkce.$L_2$ regularization minimizes weight range for insignificant features. Toto je obecnější proces a méně citlivý na odlehlé hodnoty.This is a more general process and is less sensitive to outliers.

RegreseRegression

Úkol strojového učení pod dohledem , kde výstup je skutečná hodnota, například Double.A supervised machine learning task where the output is a real value, for example, double. Mezi příklady patří předpověď cen akcií.Examples include predicting stock prices. Další informace najdete v části regrese v tématu úlohy strojového učení .For more information, see the Regression section of the Machine learning tasks topic.

Relativní absolutní chybaRelative absolute error

V regresije vyhodnocena metrika, která představuje součet všech absolutních chyb dělený součtem vzdálenosti mezi správnými hodnotami popisku a průměrem všech správných hodnot popisku.In regression, an evaluation metric that is the sum of all absolute errors divided by the sum of distances between correct label values and the average of all correct label values.

Relativní čtvercová chybaRelative squared error

V regresije vyhodnocena metrika, která je součtem všech kvadratických absolutních chyb dělený součtem čtvercových vzdáleností mezi správnými hodnotami popisku a průměrem všech správných hodnot popisku.In regression, an evaluation metric that is the sum of all squared absolute errors divided by the sum of squared distances between correct label values and the average of all correct label values.

Kořen průměrného čtverce chyby (RMSE)Root of mean squared error (RMSE)

V regresivyhodnocuje metrika, která je druhou odmocninou průměru čtverců chyb.In regression, an evaluation metric that is the square root of the average of the squares of the errors.

VzorecScoring

Bodování je proces použití nových dat na školený model strojového učení a generování předpovědi.Scoring is the process of applying new data to a trained machine learning model, and generating predictions. Bodování se také označuje jako Inferencing.Scoring is also known as inferencing. V závislosti na typu modelu může být skóre neupravená hodnota, pravděpodobnost nebo kategorie.Depending on the type of model, the score may be a raw value, a probability, or a category.

Pod dohledem strojového učeníSupervised machine learning

Podtřída strojového učení, ve které požadovaný model předpovídá popisek pro dosud nepřesná data.A subclass of machine learning in which a desired model predicts the label for yet-unseen data. Mezi příklady patří klasifikace, regrese a strukturovaná předpověď.Examples include classification, regression, and structured prediction. Další informace najdete v článku věnovaném učení na Wikipedii.For more information, see the Supervised learning article on Wikipedia.

ŠkoleníTraining

Proces identifikace modelu pro danou sadu dat školení.The process of identifying a model for a given training data set. Pro lineární model to znamená hledání vah.For a linear model, this means finding the weights. Ve stromové struktuře zahrnuje identifikaci rozdělení bodů.For a tree, it involves identifying the split points.

TransformerTransformer

Třída ML.NET, která implementuje rozhraní ITransformer.An ML.NET class that implements the ITransformer interface.

Transformátor transformuje jednu IDataView do jiné.A transformer transforms one IDataView into another. Transformátor se vytvoří prostřednictvím školení Estimatornebo kanálu Estimator.A transformer is created by training an estimator, or an estimator pipeline.

Strojové učení bez dohleduUnsupervised machine learning

Podtřídou strojového učení, ve kterém požadovaný model najde skrytou (nebo latentní) strukturu v datech.A subclass of machine learning in which a desired model finds hidden (or latent) structure in data. Mezi příklady patří clustering, modelování témat a snížení rozměru.Examples include clustering, topic modeling, and dimensionality reduction. Další informace najdete v článku o výukovém kurzu, který není pod dohledem na Wikipedii.For more information, see the Unsupervised learning article on Wikipedia.