Modeli eğitip doğrulama

Tamamlandı

Spark kullanarak bir makine öğrenmesi modelini eğitma ve doğrulama ML oldukça basittir. Adımlar şu şekildedir:

  1. Verileri bölme.
  2. Model eğitme.
  3. Modeli doğrulama.

Verileri bölme

İlk adım, verileri eğitim ve doğrulama veri kümeleri arasında bölmeyi içerir. Bunu yapmak, veri bilimcinin verileri temsil eden bir kısmıyla modeli eğitirken bir yandan da veri kümesinde bir yüzdeyi tutması sağlar. Bu tutma veri kümesi, eğitim modelinin fazla uygun olup olmadığını belirlemek için yararlı olabilir; diğer bir ifade, değişkenler arasında genel olarak uygulanabilir ilişkiler bulmak yerine eğitim veri kümesine ilişkin benzerlikleri tespit etmektir.

DataFrame'ler, randomSplit() verileri bölme işlemini basit kılan bir yöntemi destekler.

Model eğitma

Modeli eğitme, üç temel soyutlamadan yola çıktı: dönüştürücü, tahmin tahmincisi ve işlem hattı.

Dönüştürücü bir DataFrame'i giriş olarak alır ve çıkış olarak yeni bir DataFrame döndürür. Transformatörler özellik mühendisliği ve özellik seçimi gerçekleştirmeye yardımcı olur, bunun sonucunda bir transformatör başka bir DataFrame elde edildi. Buna örnek olarak bir metin sütununda okuma, bu metin sütununu bir özellik vektörleri kümesiyle eşleme ve yeni eşlenen sütunu içeren bir DataFrame çıkışı elde etmek örnek olabilir. Transformers bir yöntem .transform() uygulayacak.

Tahmin tahmincisi bir DataFrame'i giriş olarak alır ve bir model döndürür. Bir DataFrame'i giriş olarak alır ve kendisi bir dönüştürücü olan modeli döndürür. Tahmine örnek olarak makine öğrenmesi LinearRegression algoritması örnek olarak vetir. Bir DataFrame kabul eder ve bir Model üretir. Tahminciler bir yöntem .fit() kullanır.

Pipelines tahmin ve dönüştürücüleri birleştirin ve bir yöntem .fit() gerçekleştirin. Eğitim sürecini bir dizi aşamaya dönüştürerek birden çok algoritmayı birleştirmek daha kolaydır.

Modeli doğrulama

Bir model eğitillandıktan sonra sonuçlarını doğrulamak mümkün hale gelir. Spark ML, tercih algoritmasını temel alan modeller için yerleşik özet istatistikleri içerir. Örneğin doğrusal regresyon kullanarak model, Kök Ortalama Kare Hatası (RMSE), Ortalama Mutlak Hata (MAE) ve belirleme katsayısı summary (R2, R karesi olarak okunur) gibi puanları içeren bir nesnesi içerir. Bunlar eğitim verilerine dayalı özet ölçüler olacak.

Burada doğrulama veri kümesiyle modelin işlevini doğrulama veri kümesine göre çalıştırarak hiç görülmez bir veri kümesine ilişkin özet istatistikleri hesaplamak transform() mümkündür. Buradan RMSE, MAE ve R 2 gibi ölçüleri hesaplamak için gibi RegressionEvaluator değerlendiricileri kullanın.