Kümeleme

Tamamlandı

Kümeleme , gözlemlerin veri değerleri veya özelliklerindeki benzerliklere göre kümeler halinde gruplandığı denetimsiz bir makine öğrenmesi biçimidir. Modeli eğitmek için daha önce bilinen etiket değerlerini kullanmadığından bu tür makine öğrenmesi denetimsiz olarak kabul edilir. Bir kümeleme modelinde etiket, yalnızca özelliklerine göre gözlemin atandığı kümedir.

Örnek - kümeleme

Örneğin, bir botanikçinin bir çiçek örneğini gözlemleip her çiçek üzerindeki yaprak ve yaprakların sayısını kaydettiğini varsayalım:

Diagram of some flowers.

Veri kümesinde bilinen etiket yoktur, yalnızca iki özellik vardır. Amaç, çiçeğin farklı türlerini (türlerini) tanımlamak değildir; sadece yaprakların ve yaprakların sayısına göre benzer çiçekleri birlikte gruplandırmak için.

Yapraklar (x1) Yapraklar (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Kümeleme modelini eğitma

Kümeleme için kullanabileceğiniz birden çok algoritma vardır. En yaygın kullanılan algoritmalardan biri, aşağıdaki adımlardan oluşan K-Means kümelemedir:

  1. Özellik (x) değerleri n boyutlu koordinatları tanımlamak için vektörleştirilir (burada n, özellik sayısıdır). Çiçek örneğinde iki özelliğimiz vardır: yaprak sayısı (x1) ve yaprakların sayısı (x2). Bu nedenle özellik vektörde, veri noktalarını kavramsal olarak iki boyutlu alana çizmek için kullanabileceğimiz iki koordinat vardır ([x1,x 2])
  2. Çiçekleri gruplandırmak için kaç küme kullanmak istediğinize karar verirsiniz; bu değeri k olarak adlandırın. Örneğin, üç küme oluşturmak için 3 k değeri kullanırsınız. Ardından k noktaları rastgele koordinatlara çizilir. Bu noktalar her küme için merkez noktalar haline gelir, bu nedenle bunlar centroid olarak adlandırılır.
  3. Her veri noktası (bu örnekte bir çiçek) en yakın merkez merkezine atanır.
  4. Her merkezkroid, noktalar arasındaki ortalama uzaklık temelinde kendisine atanan veri noktalarının merkezine taşınır.
  5. Centroid taşındıktan sonra, veri noktaları artık farklı bir centroid'e daha yakın olabilir, bu nedenle veri noktaları yeni en yakın centroid temelinde kümelere yeniden atanır.
  6. Kümeler kararlı hale gelene veya önceden belirlenmiş en fazla yineleme sayısına ulaşılana kadar centroid hareketi ve küme yeniden konumlandırma adımları yinelenir.

Aşağıdaki animasyonda bu işlem gösterilmektedir:

Diagram of an animation showing the k-means clustering process.

Kümeleme modelini değerlendirme

Tahmin edilen küme atamalarının karşılaştırıldığı bilinen bir etiket olmadığından, kümeleme modelinin değerlendirilmesi elde edilen kümelerin birbirinden ne kadar iyi ayrıldığına bağlıdır.

Küme ayrımlarını değerlendirmek için kullanabileceğiniz birden çok ölçüm vardır:

  • Küme merkezine ortalama uzaklık: Kümedeki her noktanın kümenin merkeziyle ortalama olarak ne kadar yakın olduğu.
  • Diğer merkeze ortalama uzaklık: Kümedeki her noktanın diğer tüm kümelerin merkezine ne kadar yakın olduğu.
  • Küme merkezine uzaklık üst sınırı: Kümedeki bir nokta ile merkezi arasındaki en uzak mesafe.
  • Siluet: Aynı kümedeki noktalarla farklı kümelerdeki noktalar arasındaki uzaklık oranını özetleyen -1 ile 1 arasında bir değerdir (1'e ne kadar yakın olursa küme ayrımı o kadar iyi olur).