機械学習の重要な用語の用語集Machine learning glossary of important terms

ML.NET でカスタム モデルをビルドする際に役立つ機械学習の重要な用語を次に示します。The following list is a compilation of important machine learning terms that are useful as you build your custom models in ML.NET.

精度Accuracy

分類における正確度は、正しく分類された項目の数をテスト セット内の項目の総数で割ったものです。In classification, accuracy is the number of correctly classified items divided by the total number of items in the test set. 0 (正確度が最も低い) ~ 1 (正確度が最も高い) の値になります。Ranges from 0 (least accurate) to 1 (most accurate). 正確度は、モデル パフォーマンスの評価メトリックの 1 つです。Accuracy is one of evaluation metrics of the model performance. 精度再現率、および F 値と併せて考慮してください。Consider it in conjunction with precision, recall, and F-score.

曲線下面積 (AUC)Area under the curve (AUC)

二項分類における評価メトリックであり、偽陽性率 (x 軸上) に対する真陽性率 (y 軸上) を描画する曲線下面積の値です。In binary classification, an evaluation metric that is the value of the area under the curve that plots the true positives rate (on the y-axis) against the false positives rate (on the x-axis). 0.5 (最低) ~ 1 (最高) の値になります。Ranges from 0.5 (worst) to 1 (best). ROC 曲線 (受信者操作特性曲線) 下面積とも呼ばれます。Also known as the area under the ROC curve, i.e., receiver operating characteristic curve. 詳しくは、Wikipedia の受信者操作特性の記事を参照してください。For more information, see the Receiver operating characteristic article on Wikipedia.

二項分類Binary classification

ラベルが 2 つのクラスのうちの 1 つである分類です。A classification case where the label is only one out of two classes. 詳細については、トピック「機械学習のタスク」のセクションの「二項分類」を参照してください。For more information, see the Binary classification section of the Machine learning tasks topic.

調整Calibration

調整は、二項分類と多クラス分類のために、生のスコアをクラスのメンバーシップにマップするプロセスです。Calibration is the process of mapping a raw score onto a class membership, for binary and multiclass classification. 一部 ML.NET トレーナーには NonCalibrated サフィックスがあります。Some ML.NET trainers have a NonCalibrated suffix. これらのアルゴリズムからは、後でクラスの確率にマップする必要がある生のスコアが生成されます。These algorithms produce a raw score that then must be mapped to a class probability.

CatalogCatalog

ML.NET では、カタログは、共通の目的でグループ化された拡張機能のコレクションです。In ML.NET, a catalog is a collection of extension functions, grouped by a common purpose.

たとえば、各機械学習タスク (二項分類、回帰、ランキングなど) には、利用できる機械学習アルゴリズム (トレーナー) のカタログがあります。For example, each machine learning task (binary classification, regression, ranking etc) has a catalog of available machine learning algorithms (trainers). 二項分類トレーナー用のカタログは BinaryClassificationCatalog.BinaryClassificationTrainers です。The catalog for the binary classification trainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.

分類Classification

データを使用してカテゴリを予測する際、教師あり機械学習タスクが分類と呼ばれます。When the data is used to predict a category, supervised machine learning task is called classification. 二項分類とは、2 つのカテゴリだけを予測する (たとえば、画像を猫または犬の写真として分類する) ことです。Binary classification refers to predicting only two categories (for example, classifying an image as a picture of either a 'cat' or a 'dog'). 多クラス分類とは、複数のカテゴリを予測する (たとえば、画像を特定の犬種の写真として分類する) ことです。Multiclass classification refers to predicting multiple categories (for example, when classifying an image as a picture of a specific breed of dog).

決定係数Coefficient of determination

回帰における評価メトリックであり、データがモデルにどの程度適合するかを示します。In regression, an evaluation metric that indicates how well data fits a model. 0 ~ 1 の値になります。Ranges from 0 to 1. 値 0 は、データがランダムであるか、モデルに適合できないことを意味します。A value of 0 means that the data is random or otherwise cannot be fit to the model. 値 1 は、モデルがデータと完全に一致していることを意味します。A value of 1 means that the model exactly matches the data. 多くの場合、これは r2、R2、または r の 2 乗と呼ばれます。This is often referred to as r2, R2, or r-squared.

DataData

データはあらゆる機械学習アプリケーションの中心です。Data is central to any machine learning application. ML.NET では、データは IDataView オブジェクトで表されます。In ML.NET data is represented by IDataView objects. データ ビュー オブジェクト:Data view objects:

  • 列と行で構成されていますare made up of columns and rows
  • 遅延評価されます (つまり、操作によって要求されたときにのみデータが読み込まれます)are lazily evaluated, that is they only load data when an operation calls for it
  • 各列の型、形式、長さを定義するスキーマが含まれますcontain a schema that defines the type, format and length of each column

エスティメーターEstimator

IEstimator<TTransformer> インターフェイスを実装する ML.NET のクラス。A class in ML.NET that implements the IEstimator<TTransformer> interface.

エスティメーターは、変換 (データ準備変換と機械学習モデル トレーニング変換の両方) の仕様です。An estimator is a specification of a transformation (both data preparation transformation and machine learning model training transformation). エスティメーターを連結して、変換のパイプラインにすることができます。Estimators can be chained together into a pipeline of transformations. エスティメーターまたはエスティメーターのパイプラインのパラメーターは、Fit が呼び出されたときに学習されます。The parameters of an estimator or pipeline of estimators are learned when Fit is called. Fit の結果はトランスフォーマーです。The result of Fit is a Transformer.

拡張メソッドExtension method

クラスの一部ですが、クラスの外部で定義されている .NET メソッドです。A .NET method that is part of a class but is defined outside of the class. 拡張メソッドの最初のパラメーターは、その拡張メソッドが属するクラスへの静的な this 参照です。The first parameter of an extension method is a static this reference to the class to which the extension method belongs.

拡張メソッドは、ML.NET でエスティメーターのインスタンスを構築するために幅広く使用されています。Extension methods are used extensively in ML.NET to construct instances of estimators.

機能Feature

測定対象となる事象の測定可能なプロパティです。通常は数 (倍精度) 値になります。A measurable property of the phenomenon being measured, typically a numeric (double) value. 複数の特徴は 特徴ベクトル と呼ばれ、通常は double[] として格納されます。Multiple features are referred to as a Feature vector and typically stored as double[]. 特徴では、測定対象となる事象の重要な特性を定義します。Features define the important characteristics of the phenomenon being measured. 詳しくは、Wikipedia の特徴の記事を参照してください。For more information, see the Feature article on Wikipedia.

機能エンジニアリングFeature engineering

特徴エンジニアリングは、一連の特徴の定義、および使用可能な事象データから特徴ベクトルを生成する (特徴抽出) ソフトウェアの開発を含むプロセスです。Feature engineering is the process that involves defining a set of features and developing software that produces feature vectors from available phenomenon data, i.e., feature extraction. 詳しくは、Wikipedia の特徴エンジニアリングの記事を参照してください。For more information, see the Feature engineering article on Wikipedia.

F 値F-score

分類における評価メトリックであり、精度再現率の調和平均を取ります。In classification, an evaluation metric that balances precision and recall.

ハイパーパラメーターHyperparameter

機械学習アルゴリズムのパラメーターです。A parameter of a machine learning algorithm. 例として、デシジョン フォレストにおける学習するツリー数や勾配降下アルゴリズムにおけるステップ サイズなどがあります。Examples include the number of trees to learn in a decision forest or the step size in a gradient descent algorithm. ハイパーパラメーター の値は、モデルのトレーニング前に設定され、予測関数のパラメーターを検出するプロセスを管理します。例として、デシジョン ツリーにおける比較ポイントや線形回帰モデルにおける重みなどがあります。Values of Hyperparameters are set before training the model and govern the process of finding the parameters of the prediction function, for example, the comparison points in a decision tree or the weights in a linear regression model. 詳しくは、Wikipedia のハイパーパラメーターの記事を参照してください。For more information, see the Hyperparameter article on Wikipedia.

ラベルLabel

機械学習モデルで予測される要素です。The element to be predicted with the machine learning model. たとえば、犬種や将来の株価などです。For example, the breed of dog or a future stock price.

対数損失Log loss

分類における評価メトリックであり、分類子の正確度を示します。In classification, an evaluation metric that characterizes the accuracy of a classifier. 対数損失が小さいほど、分類子の正確度が高くなります。The smaller log loss is, the more accurate a classifier is.

損失関数Loss function

損失関数は、トレーニング ラベル値とモデルによって行われた予測との差です。A loss function is the difference between the training label values and the prediction made by the model. モデルのパラメーターは、損失関数を最小化することで推定されます。The parameters of the model are estimated by minimizing the loss function.

さまざまな損失関数を使用してさまざまなトレーナーを構成できます。Different trainers can be configured with different loss functions.

平均絶対誤差 (MAE)Mean absolute error (MAE)

回帰における評価メトリックであり、すべてのモデルの誤差の平均です。モデルの誤差とは、予測されたラベル値と正確なラベル値の間の距離です。In regression, an evaluation metric that is the average of all the model errors, where model error is the distance between the predicted label value and the correct label value.

モデルModel

従来的に予測関数のパラメーターです。Traditionally, the parameters for the prediction function. たとえば、線形回帰モデルにおける重みやデシジョン ツリーにおける分割ポイントなどがあります。For example, the weights in a linear regression model or the split points in a decision tree. ML.NET では、ドメイン オブジェクト (画像、テキストなど) のラベルの予測に必要なすべての情報がモデルに含まれます。In ML.NET, a model contains all the information necessary to predict the label of a domain object (for example, image or text). つまり、ML.NET モデルには、必要な特徴付けのステップと予測関数のパラメーターが含まれます。This means that ML.NET models include the featurization steps necessary as well as the parameters for the prediction function.

多クラス分類Multiclass classification

ラベルが 3 つ以上のクラスのうちの 1 つである分類です。A classification case where the label is one out of three or more classes. 詳細については、トピック「機械学習のタスク」のセクション「多クラス分類」を参照してください。For more information, see the Multiclass classification section of the Machine learning tasks topic.

N グラムN-gram

テキスト データの特徴抽出スキームです。N 個の単語のシーケンスが特徴値になります。A feature extraction scheme for text data: any sequence of N words turns into a feature value.

正規化Normalization

正規化とは、浮動小数点データを 0 から 1 の間の値にスケーリングするプロセスです。Normalization is the process of scaling floating point data to values between 0 and 1. ML.NET で使用されるトレーニング アルゴリズムの多くで、入力機能データを正規化する必要があります。Many of the training algorithms used in ML.NET require input feature data to be normalized. ML.NET では、正規化のために一連の変換を提供します。ML.NET provides a series of transforms for normalization

数値特徴ベクトルNumerical feature vector

数値でのみ構成される特徴ベクトルです。A feature vector consisting only of numerical values. これは double[] に似ています。This is similar to double[].

パイプラインPipeline

モデルをデータ セットに適合させるために必要なすべての操作です。All of the operations needed to fit a model to a data set. パイプラインは、データのインポート、変換、特徴付け、および学習の各ステップで構成されます。A pipeline consists of data import, transformation, featurization, and learning steps. トレーニングが完了したパイプラインがモデルになります。Once a pipeline is trained, it turns into a model.

PrecisionPrecision

分類におけるクラスの精度は、そのクラスに属していると正確に予測された項目の数を、クラスに属していると予測された項目の総数で割ったものです。In classification, the precision for a class is the number of items correctly predicted as belonging to that class divided by the total number of items predicted as belonging to the class.

RecallRecall

分類におけるクラスの再現率は、そのクラスに属していると正確に予測された項目の数を、実際にクラスに属している項目の総数で割ったものです。In classification, the recall for a class is the number of items correctly predicted as belonging to that class divided by the total number of items that actually belong to the class.

正則化Regularization

正則化は、複雑すぎるため、線形モデルには適していません。Regularization penalizes a linear model for being too complicated. 正則化には 2 つの種類があります。There are two types of regularization:

  • $L_1$ の正則化では、重要でない特徴の重みが 0 になります。$L_1$ regularization zeros weights for insignificant features. 保存されるモデルのサイズは、この種類の正則化の後に小さくなる可能性があります。The size of the saved model may become smaller after this type of regularization.
  • $L_2$ の正則化では、重要でない特徴の重みの範囲を最小化します。$L_2$ regularization minimizes weight range for insignificant features. これは、より一般的なプロセスであり、外れ値の影響を受けにくくなります。This is a more general process and is less sensitive to outliers.

回帰Regression

出力が実際の値 (たとえば、倍精度) である教師あり機械学習タスクです。A supervised machine learning task where the output is a real value, for example, double. 例として、株価の予測などがあります。Examples include predicting stock prices. 詳細については、トピック「機械学習のタスク」のセクション「回帰」を参照してください。For more information, see the Regression section of the Machine learning tasks topic.

相対絶対誤差Relative absolute error

回帰における評価メトリックであり、すべての絶対誤差の合計を、正確なラベル値とすべての正確なラベル値の平均との間の距離の合計で割ったものです。In regression, an evaluation metric that is the sum of all absolute errors divided by the sum of distances between correct label values and the average of all correct label values.

相対平方誤差Relative squared error

回帰における評価メトリックであり、すべての平方絶対誤差の合計を、正確なラベル値とすべての正確なラベル値の平均との間の平方距離の合計で割ったものです。In regression, an evaluation metric that is the sum of all squared absolute errors divided by the sum of squared distances between correct label values and the average of all correct label values.

平均平方誤差の平方根 (RMSE)Root of mean squared error (RMSE)

回帰における評価メトリックであり、誤差を 2 乗した値の平均値の平方根です。In regression, an evaluation metric that is the square root of the average of the squares of the errors.

ポイントの計算Scoring

スコアリングは、トレーニング済みの機械学習モデルに新しいデータを適用し、予測を生成するプロセスです。Scoring is the process of applying new data to a trained machine learning model, and generating predictions. スコアリングは推論とも呼ばれます。Scoring is also known as inferencing. モデルの種類に応じて、スコアは場合によって、未処理の値、確率、またはカテゴリになります。Depending on the type of model, the score may be a raw value, a probability, or a category.

教師あり機械学習Supervised machine learning

機械学習の 1 つの手法であり、目的となるモデルが未知のデータのラベルを予測します。A subclass of machine learning in which a desired model predicts the label for yet-unseen data. 例として、分類、回帰、構造化予測などがあります。Examples include classification, regression, and structured prediction. 詳しくは、Wikipedia の教師あり学習の記事を参照してください。For more information, see the Supervised learning article on Wikipedia.

トレーニングTraining

特定のトレーニング データ セットのモデルを識別するプロセスです。The process of identifying a model for a given training data set. 線形モデルの場合、重みの検出を意味します。For a linear model, this means finding the weights. ツリーの場合、分割ポイントの識別が含まれます。For a tree, it involves identifying the split points.

トランスフォーマーTransformer

ITransformer インターフェイスを実装する ML.NET クラス。An ML.NET class that implements the ITransformer interface.

トランスフォーマーでは、ある IDataView が別のものに変換されます。A transformer transforms one IDataView into another. トランスフォーマーを作成するには、エスティメーターまたはエスティメーター パイプラインをトレーニングします。A transformer is created by training an estimator, or an estimator pipeline.

教師なし機械学習Unsupervised machine learning

機械学習の 1 つの手法であり、目的となるモデルがデータの隠された (潜在的な) 構造を検出します。A subclass of machine learning in which a desired model finds hidden (or latent) structure in data. 例として、クラスタリング、トピック モデリング、次元削減などがあります。Examples include clustering, topic modeling, and dimensionality reduction. 詳しくは、Wikipedia の教師なし学習の記事を参照してください。For more information, see the Unsupervised learning article on Wikipedia.