Bileşen: K-Ortalamalar Kümeleme

Bu makalede, eğitilmemiş bir K ortalamalar kümeleme modeli oluşturmak için Azure Machine Learning tasarımcısındaki K-Means Kümeleme bileşeninin nasıl kullanılacağı açıklanır.

K ortalamalar, en basit ve en iyi bilinen denetimsiz öğrenme algoritmalarından biridir. Algoritmayı aşağıdakiler gibi çeşitli makine öğrenmesi görevleri için kullanabilirsiniz:

  • Anormal verileri algılama.
  • Metin belgelerini kümeleme.
  • Diğer sınıflandırma veya regresyon yöntemlerini kullanmadan önce veri kümelerini analiz etme.

Kümeleme modeli oluşturmak için şunları gerçekleştirirsiniz:

  • Bu bileşeni işlem hattınıza ekleyin.
  • Veri kümesini bağlama.
  • Beklediğiniz küme sayısı, kümeleri oluştururken kullanılacak uzaklık ölçümü vb. gibi parametreleri ayarlayın.

Bileşen hiper parametrelerini yapılandırdıktan sonra eğitilmemiş modeli Kümeleme Modelini Eğitme'ye bağlarsınız. K ortalamalar algoritması denetimsiz bir öğrenme yöntemi olduğundan etiket sütunu isteğe bağlıdır.

  • Verilerinizde bir etiket varsa, küme seçimine yol göstermek ve modeli iyileştirmek için etiket değerlerini kullanabilirsiniz.

  • Verilerinizde etiket yoksa, algoritma yalnızca verileri temel alarak olası kategorileri temsil eden kümeler oluşturur.

K ortalamalar kümelelamasını anlama

Genel olarak kümeleme, bir veri kümesindeki durumları benzer özelliklere sahip kümeler halinde gruplandırmak için yinelemeli teknikler kullanır. Bu gruplandırmalar verileri keşfetmek, verilerdeki anomalileri tanımlamak ve sonunda tahminler yapmak için kullanışlıdır. Kümeleme modelleri, göz atarak veya basit bir gözlemle mantıksal olarak türetmeyebileceğiniz bir veri kümesindeki ilişkileri belirlemenize de yardımcı olabilir. Bu nedenlerden dolayı kümeleme genellikle makine öğrenmesi görevlerinin ilk aşamalarında verileri keşfetmek ve beklenmeyen bağıntıları keşfetmek için kullanılır.

K ortalamaları yöntemini kullanarak bir kümeleme modeli yapılandırdığınızda, modelde istediğiniz centroid sayısını gösteren bir hedef k sayısı belirtmeniz gerekir. Centroid, her kümeyi temsil eden bir noktadır. K ortalamalar algoritması, küme içi kare toplamını en aza indirerek gelen her veri noktasını kümelerden birine atar.

Eğitim verilerini işlerken, K ortalamalar algoritması ilk rastgele seçilen centroid kümesiyle başlar. Centroid'ler kümeler için başlangıç noktası görevi görür ve konumlarını yinelemeli olarak daraltmak için Lloyd'un algoritmasını uygular. K-ortalamalar algoritması, şu koşullardan birini veya daha fazlasını karşıladığında kümeleri derlemeyi ve iyileştirmeyi durdurur:

  • Centroidler kararlıdır, yani tek tek noktalar için küme atamaları artık değişmez ve algoritma bir çözüm üzerinde yakınsanmıştır.

  • Algoritma, belirtilen sayıda yineleme çalıştırarak tamamlandı.

Eğitim aşamasını tamamladıktan sonra, K-ortalamalar algoritmasını kullanarak bulduğunuz kümelerden birine yeni servis talepleri atamak için Kümelere Veri Ata bileşenini kullanırsınız. Yeni servis talebiyle her kümenin merkezkti arasındaki uzaklığı hesaplayarak küme ataması gerçekleştirirsiniz. Her yeni durum, en yakın centroid ile kümeye atanır.

K-Ortalamalar Kümeleme bileşenini yapılandırma

  1. K-Means Kümeleme bileşenini işlem hattınıza ekleyin.

  2. Modelin nasıl eğitileceğini belirtmek için Eğitmen modu oluştur seçeneğini belirleyin.

    • Tek Parametre: Kümeleme modelinde kullanmak istediğiniz parametrelerin tam olarak farkındaysanız, bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz.
  3. Centroid sayısı için algoritmanın başlamasını istediğiniz küme sayısını yazın.

    Modelin tam olarak bu sayıda küme üretmesi garanti değildir. Algoritma bu sayıda veri noktasıyla başlar ve en uygun yapılandırmayı bulmak için yinelenir. Sklearn'in kaynak koduna başvurabilirsiniz.

  4. Başlatma özellikleri, ilk küme yapılandırmasını tanımlamak için kullanılan algoritmayı belirtmek için kullanılır.

    • İlk N: Veri kümesinden bazı ilk veri noktası sayısı seçilir ve ilk araç olarak kullanılır.

      Bu yöntem forgy yöntemi olarak da adlandırılır.

    • Rastgele: Algoritma, bir veri noktasını kümeye rastgele yerleştirir ve ardından ilk ortalamayı kümenin rastgele atanan noktalarının merkezi olacak şekilde hesaplar.

      Bu yöntem rastgele bölümleme yöntemi olarak da adlandırılır.

    • K-Means++: Bu, kümeleri başlatmak için varsayılan yöntemdir.

      K-means++ algoritması, 2007 yılında David Arthur ve Sergei Vassilvitskii tarafından standart K ortalamalar algoritması tarafından düşük kümelemeden kaçınmak için önerilmiştir. K-ortalamalar++, ilk küme merkezlerini seçmek için farklı bir yöntem kullanarak standart K ortalamalarını geliştirir.

  5. Rastgele sayı tohumu için isteğe bağlı olarak küme başlatma için tohum olarak kullanılacak bir değer yazın. Bu değerin küme seçimi üzerinde önemli bir etkisi olabilir.

  6. Ölçüm için, küme vektörleri arasındaki veya yeni veri noktaları ile rastgele seçilen centroid arasındaki mesafeyi ölçmek için kullanılacak işlevi seçin. Azure Machine Learning aşağıdaki küme uzaklığı ölçümlerini destekler:

    • Öklid: Öklid uzaklığı genellikle K ortalamaları kümeleme için küme dağılım ölçüsü olarak kullanılır. Noktalar ve merkez merkezler arasındaki ortalama uzaklığı en aza indirdiğinden bu ölçüm tercih edilir.
  7. Yinelemeler için, algoritmanın centroid seçimini sonlandırmadan önce eğitim verileri üzerinde kaç kez yinelenmesi gerektiğini yazın.

    Bu parametreyi, eğitim süresine göre doğruluğu dengelemek için ayarlayabilirsiniz.

  8. Etiket ata modu için, bir etiket sütununun veri kümesinde mevcutsa nasıl işlenmesi gerektiğini belirten bir seçenek belirtin.

    K ortalamalar kümelemesi denetimsiz bir makine öğrenmesi yöntemi olduğundan, etiketler isteğe bağlıdır. Ancak, veri kümenizin zaten bir etiket sütunu varsa, kümelerin seçimine yol göstermek için bu değerleri kullanabilir veya değerlerin yoksayılacağını belirtebilirsiniz.

    • Etiket sütununu yoksay: Etiket sütunundaki değerler yoksayılır ve modeli oluştururken kullanılmaz.

    • Eksik değerleri doldurma: Etiket sütunu değerleri, kümelerin oluşturulmasına yardımcı olmak için özellik olarak kullanılır. Herhangi bir satırda etiket eksikse, değer diğer özellikler kullanılarak eklenir.

    • En yakın merkezden üzerine yaz: Etiket sütunu değerleri, geçerli centroid'e en yakın noktanın etiketi kullanılarak tahmin edilen etiket değerleriyle değiştirilir.

  9. Eğitimden önce özellikleri normalleştirmek istiyorsanız Özellikleri normalleştir seçeneğini belirleyin.

    Normalleştirme uygularsanız, eğitimden önce veri noktaları MinMaxNormalizer tarafından normalleştirilir [0,1] .

  10. Modeli eğitin.

    • Eğitmen modu oluştur'uTek Parametre olarak ayarlarsanız etiketli bir veri kümesi ekleyin ve Kümeleme Modelini Eğitme bileşenini kullanarak modeli eğitin.

Sonuçlar

Modeli yapılandırmayı ve eğitmayı tamamladıktan sonra puan oluşturmak için kullanabileceğiniz bir modeliniz vardır. Ancak modeli eğitmenin birden çok yolu ve sonuçları görüntülemenin ve kullanmanın birden çok yolu vardır:

Çalışma alanınızdaki modelin anlık görüntüsünü yakalama

Kümeleme Modelini Eğit bileşenini kullandıysanız:

  1. Kümeleme Modelini Eğit bileşenini seçin ve doğru paneli açın.

  2. Çıkışlar sekmesini seçin. Eğitilen modelin bir kopyasını kaydetmek için Veri kümesini kaydet simgesini seçin.

Kaydedilen model, modeli kaydettiğiniz zamandaki eğitim verilerini temsil eder. İşlem hattında kullanılan eğitim verilerini daha sonra güncelleştirirseniz, kaydedilen model güncelleştirilmez.

Kümeleme sonucu veri kümesine bakın

Kümeleme Modelini Eğit bileşenini kullandıysanız:

  1. Kümeleme Modelini Eğit bileşenine sağ tıklayın.

  2. Görselleştir'i seçin.

En iyi kümeleme modelini oluşturmaya yönelik ipuçları

Kümeleme sırasında kullanılan tohumlama işleminin modeli önemli ölçüde etkileyebileceği bilinmektedir. Tohumlama, noktaların potansiyel centroidlere ilk yerleştirilme anlamına gelir.

Örneğin, veri kümesinde çok sayıda aykırı değerler varsa ve kümelerin tohumlarını oluşturmak için aykırı değerler seçilirse, bu kümeye başka hiçbir veri noktası sığmaz ve küme tekil olabilir. Yani, yalnızca bir noktası olabilir.

Bu sorunu birkaç şekilde önleyebilirsiniz:

  • Centroid sayısını değiştirin ve birden çok çekirdek değeri deneyin.

  • Ölçümü değiştirerek veya daha fazlasını yineleyerek birden çok model oluşturun.

Genel olarak, kümeleme modellerinde, belirli bir yapılandırmanın yerel olarak iyileştirilmiş bir küme kümesine neden olması mümkündür. Başka bir deyişle, model tarafından döndürülen küme kümesi yalnızca geçerli veri noktalarına uygundur ve diğer veriler için genelleştirilebilir değildir. Farklı bir ilk yapılandırma kullanırsanız, K-ortalamalar yöntemi farklı, üstün bir yapılandırma bulabilir.

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın.