Modeli Çapraz Doğrulama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Verileri bölümleerek sınıflandırma veya regresyon modelleri için parametre tahminlerini çapraz doğrular

Kategori: Machine Learning / Değerlendirme

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, Machine Learning Studio'da (klasik) Modeli Çapraz Doğrulama modülünün nasıl kullanımı açıklanmıştır. Çapraz doğrulama, genellikle makine öğrenmesinde hem veri kümesi değişkenliğini hem de bu veriler kullanılarak eğitilen herhangi bir modelin güvenilirliğini değerlendirmek için kullanılan önemli bir tekniktir.

Modeli Çapraz Doğrulama modülü , eğitimsiz sınıflandırma veya regresyon modeliyle birlikte giriş olarak etiketli bir veri kümesi alır. Veri kümesini birkaç alt kümeye (katlama) böler, her kat üzerinde bir model oluşturabilir ve ardından her kat için bir dizi doğruluk istatistiği döndürür. Tüm katlar için doğruluk istatistiklerini karşılaştırarak, veri kümesi kalitesini yorumlayın ve modelin veri varyasyonlarına açık olup olmadığını anlayın.

Çapraz doğrulama, tahminlerin güvenilirliğini değerlendirebilirsiniz. Ayrıca veri kümesi için tahmin edilen sonuçları ve olasılıkları döndürür.

Çapraz doğrulama nasıl çalışır?

  1. Çapraz doğrulama, eğitim verilerini rastgele olarak katlama olarak da adlandırılan bir dizi bölüme böler.

    • Daha önce veri kümesi bölümlemediyebilirsiniz algoritma varsayılan olarak 10 katlanır.
    • Veri kümelerini farklı sayıda katlamaya bölmek için Bölümleme ve Örnek modülünü kullanabilir ve kaç katlamanın kullanılacalarını belirtebilirsiniz.
  2. Modül, doğrulama için kullanmak üzere verileri kat 1'de bir kenara ayarlar (buna bazen tutma katlama denir) ve modeli eğitmek için kalan katları kullanır.

    Örneğin, beş kat oluşturulursa, modül çapraz doğrulama sırasında beş model oluşturabilir, her model verilerin 4/5'i kullanılarak eğitilmiş ve kalan 1/5'te test edilmiştir.

  3. Modelin her kat için test etme sırasında birden çok doğruluk istatistiği değerlendirilir. Hangi istatistiklerin kullanıldıkları, değerlendiren modelin türüne bağlıdır. Sınıflandırma modellerini ve regresyon modellerini değerlendirmek için farklı istatistikler kullanılır.

  4. Tüm katlar için oluşturma ve değerlendirme işlemi tamamlandığında, Çapraz Doğrulama Modeli bir dizi performans ölçümü ve tüm veriler için puanlanmış sonuçlar üretir. Tek bir kat özellikle yüksek veya düşük doğruluk olup olmadığını görmek için bu ölçümleri gözden geçirmeniz gerekir

Çapraz doğrulamanın avantajları

Modeli değerlendirmenin farklı ve çok yaygın bir yolu, Verileri Böl'i kullanarak verileri bir eğitim ve test kümesine bölmek ve ardından modeli eğitim verisi üzerinde doğrulamaktır. Ancak çapraz doğrulama bazı avantajlar sunar:

  • Çapraz doğrulama daha fazla test verisi kullanır.

    Çapraz doğrulama, daha büyük bir veri alanı içinde belirtilen parametrelerle modelin performansını ölçür. Diğer bir ifadeyle çapraz doğrulama, bazı kısımlar yerine eğitim ve değerlendirme için eğitim veri kümelerinin tamamını kullanır. Buna karşılık, rastgele bölmeden oluşturulan verileri kullanarak modeli doğrularsanız, modeli genellikle kullanılabilir verilerin yalnızca %30'uzda veya daha az bir oranında değerlendirirsiniz.

    Ancak, çapraz doğrulama modeli daha büyük bir veri kümesi üzerinde birden çok kez eğittiği ve doğrulasa da, çok daha yoğun işlem gücü gerektirir ve rastgele bölmede doğrulamadan çok daha uzun sürer.

  • Çapraz doğrulama, modelin yanı sıra veri kümelerini de değerlendirir.

    Çapraz doğrulama yalnızca modelin doğruluğunu ölçmez, aynı zamanda veri kümesi temsili ve modelin veri değişimleri için ne kadar hassas olabileceği hakkında fikir verir.

Modeli Çapraz Doğrulamayı kullanma

Çapraz doğrulamayı kullanmanın iki ana yolu vardır.

Çok fazla veri kullanıyorsanız çapraz doğrulamanın çalışması uzun zaman alır. Bu nedenle modelinizi oluşturularak test etme aşamasının ilk aşamasında Modeli Çapraz Doğrula'ya sahip olabilir, model parametrelerinin ne kadar uygun olduğunu değerlendirebilir (hesaplama zamanlarının tolere edilebilir olduğu varsayılabilir) ve ardından Modeli Eğitma ve Modeli Değerlendirme modülleriyle modelinizi eğitip değerlendirin.

Basit çapraz doğrulama

Bu senaryoda, Modeli Çapraz Doğrula kullanarak modeli eğitip test etmek için her ikisi de kullanılır.

  1. Modeli Çapraz Doğrulama modülünü denemenize ekleyin. Bunu Machine Learning Studio'da (klasik), Machine Learning altındabulabilirsiniz.

  2. Bağlan veya regresyonmodelinin çıkışını seçin.

    Örneğin, sınıflandırma için İki Sınıf Bayes Noktası Makinesi kullanıyorsanız, modeli istediğiniz parametrelerle yapılandırın ve ardından bir bağlayıcıyı sınıflandırıcının Eğitilmemiş model bağlantı noktasından Modeli Doğrula'nın eşleşen bağlantı noktasına sürükleyin.

    İpucu

    Modelin eğitilmesi gerekir çünkü Modeli Çapraz Doğrula modeli değerlendirmenin bir parçası olarak otomatik olarak eğiter.

  3. Modeli Çapraz Doğrula'nınVeri Kümesi bağlantı noktası üzerinde, etiketlenmiş eğitim veri kümelerini bağlama.

  4. Modeli Çapraz Doğrula'nın Özellikler bölmesinde Sütun seçiciyi başlat'a tıklayın ve sınıf etiketini veya öngörülebilir değeri içeren tek sütunu seçin.

  5. Aynı veriler üzerinde yapılan başarılı çalıştırmalarda çapraz doğrulama sonuçlarını tekrarlamak için Rastgele çekirdek parametresi için bir değer ayarlayın.

  6. Denemeyi çalıştırın.

  7. Raporların açıklaması için Sonuçlar bölümüne bakın.

    Modelin bir kopyasını daha sonra yeniden kullanmak üzere almak için algoritmayı içeren modülün çıkışına sağ tıklayın (örneğin, İki Sınıf Bayes Noktası Makinesi) ve Eğitilen Model Olarak Kaydet'e tıklayın.

Parametre tarama ile çapraz doğrulama

Bu senaryoda, parametre taramasını yürüterek en iyi modeli belirlemek için Model Ayarlama Hiper Parametrelerini kullanır ve ardından modelin güvenilirliğini kontrol etmek için Modeli Çapraz Doğrular'ı kullanırsanız. Bu, en iyi modeli belirleyen Machine Learning ölçümler oluşturmanın en kolay yolu.

  1. Model eğitimi için veri kümesi ekleyin ve sınıflandırma veya regresyon modeli oluşturan makine öğrenmesi modüllerinden birini ekleyin.

  2. Modeli Ayarlama Hiperparametreleri modülünü denemenize ekleyin. Bunu eğitim kategorisinin Machine Learning altındabulabilirsiniz.

  3. Sınıflandırma veya regresyon modelini Tune Model Hyperparameters'ın Eğitilmemiş model girişine iliştirin.

  4. Modeli Çapraz Doğrulama modülünü denemenize ekleyin. Bunu Machine Learning Studio'da (klasik), Machine Learning altındabulabilirsiniz.

  5. Tune Model Hyperparameters'ın Eğitilmiş en iyi model çıkışını bulun ve Modeli Çapraz Doğrula'nın Eğitilmemiş modelgirişine bağlama.

  6. Bağlan verileri, Modeli Çapraz Doğrula'nın Eğitim veri kümesi girişine göre gösterir.

  7. Denemeyi çalıştırın.

  8. Sonuçları ve değerlendirme puanlarını gözden geçirdikten sonra, daha sonra yeniden kullanmak üzere en iyi modelin bir kopyasını almak için Modeli Ayarlama Hiperparametreleri modülüne sağ tıklayın, Eğitilen en iyi model'i seçin ve eğitilen Model Olarak Kaydet'e tıklayın.

Not

İsteğe bağlı doğrulama veri kümesi için Modeli Ayarlama Hiperparametreleri modülünde girdiyi kullanırsanız farklı sonuçlar elde edersiniz.

Bunun nedeni, bu seçeneği kullanarak statik eğitim veri kümesi ve test veri kümesi belirtme aşamasında olmasıdır. Bu nedenle çapraz doğrulama işlemi, verileri eğitim ve test için n gruba bölmek yerine belirtilen eğitim ve test veri kümelerini de kullanır. Ancak ölçümler n kat temelinde oluşturulur.

Sonuçlar

Tüm yinelemeler tamamlandıktan sonra Modeli Çapraz Doğrulama modelin kalitesini değerlendirmek için kullanabileceğiniz performans ölçümlerinin yanı sıra veri kümelerinin tamamı için puanlar oluşturur.

Puanlı sonuçlar

Modülün ilk çıktısı, tahmin edilen bazı değerler ve ilgili olasılıklarla birlikte her satır için kaynak verileri sağlar.

Bu sonuçları görüntülemek için denemede Modeli Çapraz Doğrula modülüne sağ tıklayın, Puanlanmış sonuçlar'ı seçin ve Görselleştir'e tıklayın.

Yeni sütun adı Description
Atamaları Katlama Çapraz doğrulama sırasında atanan her veri satırı katlamanın 0 tabanlı dizinini gösterir.
Puanlanmış Etiketler Bu sütun veri kümesi sonuna eklenir ve her satır için tahmin edilen değeri içerir
Puanlı Olasılıklar Bu sütun veri kümesi sonuna eklenir ve Puanlı Etiketler'de değerin tahmini olasılığını gösterir.

Değerlendirme sonuçları

İkinci rapor katlara göre gruplanır. Yürütme sırasında Modeli Çapraz Doğrula'nın eğitim verilerini rastgele n katlara (varsayılan olarak 10) bölüyor olduğunu unutmayın. Veri kümesi üzerinde yapılan her yinelemede , Çapraz Doğrulama Modeli doğrulama veri kümesi olarak bir kat kullanır ve modeli eğitmek için kalan n-1 katları kullanır. N modelin her biri, diğer tüm katlarda yer alan verilerde test edilir.

Bu raporda katlar, dizin değerine göre artan düzende listelenir. Başka bir sütunda sıralama yapmak için sonuçları bir veri kümesi olarak kaydedebilirsiniz.

Bu sonuçları görüntülemek için denemede Modeli Çapraz Doğrula modülüne sağ tıklayın, Katlama ile değerlendirme sonuçları'na tıklayın ve Görselleştir'e tıklayın.

Sütun adı Description
Katlama numarası Her kat için bir tanımlayıcı. 5 katlama oluşturduysanız, 0 ile 4 arasında numaralanmış 5 veri alt kümesi olur.
Katlanmış örnek sayısı Her katlama için atanan satır sayısı. Kabaca eşit olması gerekir.
Modelleme Modelde kullanılan ve API adıyla tanımlanan algoritma

Ayrıca, değerlendiren modelin türüne bağlı olarak her kat için aşağıdaki ölçümler dahil edilir.

  • Sınıflandırma modelleri: Duyarlık, geri çağırma, F puanı, AUC, ortalama günlük kaybı, eğitim günlüğü kaybı

  • Regresyon modelleri: Negatif günlük olasılığı, ortalama mutlak hata, kök ortalama hata karesi, göreli mutlak hata ve belirleme katsayısı

Örnekler

Makine öğrenmesinde çapraz doğrulamanın nasıl kullanıldıklarının örnekleri için bkz . Azure Yapay Zeka Galerisi:

Teknik notlar

  • Çapraz doğrulama için bunları kullanmadan önce veri kümelerini normalleştirmek en iyi yöntemdir.

  • Modeli Çapraz Doğrula modeli birden çok kez eğittiği ve doğrulası nedeniyle, modeli rastgele bölünmüş bir veri kümesi kullanarak doğrulamaya göre çok daha yoğun işlem gücü ve tamamlanması daha uzun sürer.

  • Belirtilen parametrelere göre modelin ne kadar uygun olduğunu kurmak için Modeli Çapraz Doğrula'nın kullanılması önerilir. En uygun parametreleri belirlemek için Model Ayarlama Hiperparametrelerini kullanın.

  • Modelin doğruluğunu ölçmek için çapraz doğrulamayı kullanırken veri kümesi eğitim ve test kümelerine bölünmeye gerek yoktur.

    Ancak, bir doğrulama veri kümesi yukarı akış sağlanırsa modül, n katlara bölmek yerine belirtilen eğitim ve test veri kümelerini kullanır. Diğer bir ifadeyle, modeli her parametre birleşimi için eğitmek için ilk veri kümesi kullanılır ve modeller doğrulama veri kümesinde değerlendirilir. Çapraz doğrulama ile parametre tarama kullanma bölümüne bakın.

  • Bu makale modüllerin eski sürümlerini kullanıyor olsa da çapraz doğrulama işleminin iyi bir açıklaması vardır: Bu makalede algoritmalarınızı en iyi duruma getirmek için parametreleri Machine Learning

Beklenen girişler

Ad Tür Description
Eğitilmemiş model ILearner arabirimi Veri kümesi üzerinde çapraz doğrulama için eğitilmemiş model
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Etiket sütunu herhangi biri ColumnSelection Doğrulama için kullanmak üzere etiketi içeren sütunu seçin
Rastgele çekirdek herhangi biri Tamsayı 0 Rastgele sayı oluşturucu için çekirdek değeri

Bu değer isteğe bağlıdır. Belirtilmezse

Çıkışlar

Ad Tür Description
Puanlı sonuçlar Veri Tablosu Puanlama sonuçları
Katlama ile değerlendirme sonuçları Veri Tablosu Değerlendirme sonuçları (katlama ve bütüne göre)

Özel durumlar

Özel durum Description
Hata 0035 Özel durum, verilen bir kullanıcı veya öğe için hiçbir özellik sağlanamıyorsa oluşur.
Hata 0032 Bağımsız değişken sayı değilse özel durum oluşur.
Hata 0033 Bağımsız değişken Infinity ise özel durum oluşur.
Hata 0001 Belirtilen bir veya daha fazla veri kümesi sütunu bulunamasa özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0006 Parametre belirtilen değerden büyük veya ona eşitse özel durum oluşur.
Hata 0008 Parametre aralıkta yoksa özel durum oluşur.
Hata 0013 Modüle geçirilen öğrenici geçersiz türe sahipse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Değerlendirme
Önereni Değerlendirme
A-Z Modül Listesi