İki Sınıflı Lojistik Regresyon bileşeni

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

İki (ve yalnızca iki) sonucu tahmin etmek için kullanılabilecek bir lojistik regresyon modeli oluşturmak için bu bileşeni kullanın.

Lojistik regresyon, birçok tür sorunu modellemek için kullanılan iyi bilinen bir istatistiksel tekniktir. Bu algoritma denetimli bir öğrenme yöntemidir; bu nedenle modeli eğitmek için sonuçları içeren bir veri kümesi sağlamanız gerekir.

Lojistik regresyon hakkında

Lojistik regresyon, bir sonucun olasılığını tahmin etmek için kullanılan ve sınıflandırma görevleri için özellikle popüler olan, istatistiklerde iyi bilinen bir yöntemdir. Algoritma, verileri lojistik bir işleve uydurarak bir olayın oluşma olasılığını tahmin eder.

Bu bileşende sınıflandırma algoritması, dichotomous veya ikili değişkenler için iyileştirilmiştir. birden çok sonucu sınıflandırmanız gerekiyorsa, Çok Sınıflı Lojistik Regresyon bileşenini kullanın.

Yapılandırma

Bu modeli eğitmek için etiket veya sınıf sütunu içeren bir veri kümesi sağlamanız gerekir. Bu bileşen iki sınıflı sorunlara yönelik olduğundan, etiket veya sınıf sütunu tam olarak iki değer içermelidir.

Örneğin, etiket sütunu olası "Evet" veya "Hayır" değerleriyle [Oylandı] olabilir. Veya olası "Yüksek" veya "Düşük" değerlerine sahip [Kredi Riski] olabilir.

  1. İki Sınıflı Lojistik Regresyon bileşenini işlem hattınıza ekleyin.

  2. Eğitmen modu oluştur seçeneğini ayarlayarak modelin nasıl eğitileceğini belirtin.

    • Tek Parametre: Modeli nasıl yapılandırmak istediğinizi biliyorsanız, bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz.

    • Parametre Aralığı: En iyi parametrelerden emin değilseniz, Modeli Ayarlama Hiper Parametreleri bileşenini kullanarak en uygun parametreleri bulabilirsiniz. Bazı değerler aralığı sağlarsınız ve eğitmen, en iyi sonucu veren değerlerin birleşimini belirlemek için ayarların birden çok bileşimini yineler.

  3. İyileştirme toleransı için modeli iyileştirirken kullanılacak eşik değerini belirtin. Yinelemeler arasındaki iyileştirme belirtilen eşiğin altına düşerse, algoritmanın bir çözümde yakınsanmış olduğu kabul edilir ve eğitim durdurulur.

  4. L1 normalleştirme ağırlığı ve L2 normalleştirme ağırlığı için, L1 ve L2 normalleştirme parametreleri için kullanılacak bir değer yazın. Her ikisi için de sıfır olmayan bir değer önerilir.
    Normalleştirme , aşırı katsayı değerlerine sahip modelleri cezalandırarak fazla uygunluğu önlemeye yönelik bir yöntemdir. Normalleştirme, hipotez hatasına katsayı değerleriyle ilişkili cezayı ekleyerek çalışır. Bu nedenle, aşırı katsayı değerlerine sahip doğru bir model daha fazla cezalı hale getirilir, ancak daha muhafazakar değerlere sahip daha az doğru bir model daha az cezaya neden olur.

    L1 ve L2 düzenlileştirmenin farklı etkileri ve kullanımları vardır.

    • L1, seyrek modellere uygulanabilir ve bu da yüksek boyutlu verilerle çalışırken yararlıdır.

    • Buna karşılık, seyrek olmayan veriler için L2 düzenlileştirme tercih edilir.

    Bu algoritma, L1 ve L2 normalleştirme değerlerinin doğrusal bir birleşimini destekler: eğer x = L1 ve y = L2ise, ardından ax + by = c normalleştirme terimlerinin doğrusal aralığını tanımlar.

    Dekont

    L1 ve L2 düzenlileştirmesi hakkında daha fazla bilgi edinmek ister misiniz? Aşağıdaki makalede, lojistik regresyon ve sinir ağı modelleri için kod örnekleriyle L1 ve L2 normalleştirmesinin farklı olduğu ve model uyumunu nasıl etkilediği hakkında bir tartışma sunulmaktadır: Machine Learning için L1 ve L2 Normalleştirmesi

    L1 ve L2 terimlerinin farklı doğrusal bileşimleri lojistik regresyon modelleri için geliştirilmiştir: örneğin, elastik net düzenlileştirme. Modelinizde etkili olan doğrusal bir birleşim tanımlamak için bu birleşimlere başvurmanızı öneririz.

  5. L-BFGS için Bellek boyutu için L-BFGS optimizasyonu için kullanılacak bellek miktarını belirtin.

    L-BFGS "sınırlı bellek Broyden-Fletcher-Goldfarb-Shanno" anlamına gelir. Parametre tahmini için popüler olan bir iyileştirme algoritmasıdır. Bu parametre, sonraki adımın hesaplaması için depolanması gereken geçmiş konumların ve gradyanların sayısını gösterir.

    Bu iyileştirme parametresi, bir sonraki adımı ve yönü hesaplamak için kullanılan bellek miktarını sınırlar. Daha az bellek belirttiğinizde eğitim daha hızlı ama daha az doğru olur.

  6. Rastgele sayı tohumu için bir tamsayı değeri yazın. Sonuçların aynı işlem hattının birden çok çalıştırması üzerinden yeniden üretilebilir olmasını istiyorsanız, bir tohum değeri tanımlamak önemlidir.

  7. İşlem hattına etiketli bir veri kümesi ekleyin ve modeli eğitin:

    • Eğitmen modu oluştur'u Tek Parametre olarak ayarlarsanız etiketli bir veri kümesini ve Modeli Eğitme bileşenini bağlayın.

    • Eğitmen modu oluştur'u Parametre Aralığı olarak ayarlarsanız etiketli bir veri kümesini bağlayın ve Modeli Ayarlama Hiper Parametreleri'ni kullanarak modeli eğitin.

    Dekont

    Modeli Eğitme'ye bir parametre aralığı geçirirseniz, yalnızca tek parametre listesindeki varsayılan değeri kullanır.

    Ayarlama Modeli Hiper Parametreleri bileşenine tek bir parametre değeri kümesi geçirirseniz, her parametre için bir ayar aralığı beklediğinde değerleri yoksayar ve öğrenci için varsayılan değerleri kullanır.

    Parametre Aralığı seçeneğini belirleyip herhangi bir parametre için tek bir değer girerseniz, diğer parametreler bir değer aralığında değişse bile, belirttiğiniz tek değer süpürme boyunca kullanılır.

  8. İşlem hattını gönderin.

Sonuçlar

Eğitim tamamlandıktan sonra:

  • Yeni veriler hakkında tahminde bulunmak için Eğitilen modeli ve yeni verileri Modeli Puanla bileşenine giriş olarak kullanın.

Sonraki adımlar

Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.