KMeansTrainer クラス


IEstimator<TTransformer>KMeans clusterer をトレーニングするための

public class KMeansTrainer : Microsoft.ML.Trainers.TrainerEstimatorBase<Microsoft.ML.Data.ClusteringPredictionTransformer<Microsoft.ML.Trainers.KMeansModelParameters>,Microsoft.ML.Trainers.KMeansModelParameters>
type KMeansTrainer = class
    inherit TrainerEstimatorBase<ClusteringPredictionTransformer<KMeansModelParameters>, KMeansModelParameters>
Public Class KMeansTrainer
Inherits TrainerEstimatorBase(Of ClusteringPredictionTransformer(Of KMeansModelParameters), KMeansModelParameters)


To create this trainer, use KMeans or Kmeans(Options).

Input and Output Columns

The input features column data must be Single. No label column needed. This trainer outputs the following columns:

Output Column Name Column Type Description
Score vector of Single The distances of the given data point to all clusters' centriods.
PredictedLabel key type The closest cluster's index predicted by the model.

Trainer Characteristics

機械学習タスク クラスタリング
正規化が必要ですか? Yes
キャッシュは必要ですか? Yes
Microsoft.ML に加えて必要な NuGet なし
ONNX にエクスポート可能 はい

Training Algorithm Details

K-means is a popular clustering algorithm. With K-means, the data is clustered into a specified number of clusters in order to minimize the within-cluster sum of squared distances. This implementation follows the Yinyang K-means method. For choosing the initial cluster centeroids, one of three options can be used:

  • Random initialization. This might lead to potentially bad approximations of the optimal clustering.
  • The K-means++ method. This is an improved initialization algorithm introduced here by Ding et al., that guarantees to find a solution that is $O(log K)$ competitive to the optimal K-means solution.
  • The K-means|| method. This method was introduced here by Bahmani et al., and uses a parallel method that drastically reduces the number of passes needed to obtain a good initialization.

K-means|| is the default initialization method. The other methods can be specified in the Options when creating the trainer using KMeansTrainer(Options).

Scoring Function

The output Score column contains the square of the $L_2$-norm distance (i.e., Euclidean distance) of the given input vector $\textbf{x}\in \mathbb{R}^n$ to each cluster's centroid. Assume that the centriod of the $c$-th cluster is $\textbf{m}_c \in \mathbb{R}^n$. The $c$-th value at the Score column would be $d_c = || \textbf{x} - \textbf{m}_c ||_2^2$. The predicted label is the index with the smallest value in a $K$ dimensional vector $[d_{0}, \dots, d_{K-1}]$, where $K$ is the number of clusters.

For more information on K-means, and K-means++ see: K-means K-means++

Check the See Also section for links to usage examples.




(継承元 TrainerEstimatorBase<TTransformer,TModel>)

トレーナーが想定するラベル列。 Nullにすることができます。これは、ラベルがトレーニングに使用されないことを示します。

(継承元 TrainerEstimatorBase<TTransformer,TModel>)

トレーナーが想定する重み列。 Nullにすることができます。これは、重みがトレーニングに使用されないことを示します。

(継承元 TrainerEstimatorBase<TTransformer,TModel>)





をトレーニングし、を返し ITransformer ます。

(継承元 TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape) (継承元 TrainerEstimatorBase<TTransformer,TModel>)


AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

"キャッシュチェックポイント" を推定チェーンに追加します。 これにより、ダウンストリームの estimators がキャッシュされたデータに対してトレーニングされます。 複数のデータパスを使用する場合は、トレーナーの前にキャッシュチェックポイントを用意することをお勧めします。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

推定値を指定した場合は、が呼び出された後にデリゲートを呼び出すラップオブジェクトを返し Fit(IDataView) ます。 多くの場合、推定によってどのような情報が返されるかについての情報を返すことが重要です。これは、メソッドが、 Fit(IDataView) 単純なだけではなく、明示的に型指定されたオブジェクトを返すためです ITransformer 。 同時に、多くのオブジェクトを IEstimator<TTransformer> 含むパイプラインには、多くの場合、estimators のチェーンを構築することが必要になる場合があり EstimatorChain<TLastTransformer> ます。この場合、トランスフォーマーを取得する対象の推定は、このチェーンのどこかに埋もれています。 このシナリオでは、このメソッドを使用して、fit が呼び出されたときに呼び出されるデリゲートをアタッチできます。