Artırmalı Karar Ağacı Regresyonu

, Artırılmış karar ağacı algoritmasını kullanarak regresyon modeli oluşturur

Kategori: model/gerileme Machine Learning/Başlat

Not

Için geçerlidir: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgili. Benzer sürükle ve bırak modülleri bir tasarımcıya Azure Machine Learning eklendi. İki sürümü karşılaştıran bu makalede daha fazla bilgi bulabilirsiniz.

Modüle genel bakış

Bu makalede, artırma kullanarak regresyon ağaçlarının bir listesini oluşturmak için Azure Machine Learning Studio (klasik) ' de, Artırılmış karar ağacı gerileme modülünün nasıl kullanılacağı açıklanır. Yükseltme , her ağacın önceki ağaçlara bağlı olduğu anlamına gelir. Algoritma, önünde olan ağaçların fazlalıklarını sunarak öğrenir. Bu nedenle, bir karar ağacı ' nın artması, daha az sayıda daha az bir riske karşı doğruluğu artırmaya eğilimlidir.

Bu regresyon yöntemi denetimli bir öğrenme yöntemidir ve bu nedenle etiketli bir veri kümesi gerektirir. Etiket sütunu sayısal değer içermelidir.

Not

Bu modülü yalnızca sayısal değişkenleri kullanan veri kümeleriyle kullanın.

Modeli tanımladıktan sonra modeli eğitme veya model hiper parametrelerini ayarla modüllerini kullanarak eğitme.

İpucu

Oluşturulan ağaçlar hakkında daha fazla bilgi edinmek istiyor musunuz? Model eğitilirken, model eğitimi modülünün çıktısına sağ tıklayın (veya model Hyperparameters modülünü ayarla ) ve her yinelemede oluşturulan ağacı görmek için Görselleştir ' i seçin. Her bir ağaç için bölünmenize gidebilir ve her bir düğüm için kurallara bakabilirsiniz.

Artırılmış regresyon ağaçları hakkında daha fazla bilgi

Yükseltme, ileri doğru, rastgele ormanlar ve benzeri modellerle birlikte ensebirlikte bulunan modeller oluşturmaya yönelik birkaç klasik yöntemden biridir. Azure Machine Learning Studio (klasik) sürümünde, artırılmış karar ağaçları, MART gradyanı artırma algoritmasının verimli bir uygulamasını kullanır. Gradyan artırma, regresyon sorunları için bir makine öğrenimi tekniğidir. Her bir regresyon ağacını, her adımdaki hatayı ölçmek ve bir sonraki adımda düzeltmek için önceden tanımlanmış bir kayıp işlevi kullanarak bir adım temelinde oluşturur. Bu nedenle tahmin modeli, daha zayıf tahmin modellerinin gerçekten bir şekilde ele alınabildiği bir şeydir.

Gerileme sorunlarında, artırma, bir dizi ağacı bir adım temelinde oluşturur ve sonra rastgele bir fark edici kayıp işlevi kullanarak en iyi ağacı seçer.

Daha fazla bilgi için şu makalelere bakın:

Gradyan artırma yöntemi, uygun bir kayıp işleviyle regresyon için azaltılarak sınıflandırma sorunları için de kullanılabilir. Sınıflandırma görevleri için artırılmış ağaçlar uygulamasıyla ilgili daha fazla bilgi için, bkz. Iki sınıf önceden artırılmış karar ağacı.

Artırılmış karar ağacı gerilemesini yapılandırma

  1. Denemenize öngörülü karar ağacı modülünü ekleyin. Bu modülü, regresyon kategorisinin altında Machine Learning, Initialize altında bulabilirsiniz.

  2. Model oluşturma modunu ayarlayarak modelin eğitilme şeklini belirleyin.

    • Tek parametre: modeli nasıl yapılandırmak istediğinizi biliyorsanız ve bağımsız değişken olarak belirli bir değer kümesi sağlamak için bu seçeneği belirleyin.

    • Parametre aralığı: en iyi parametrelerden emin değilseniz ve bir parametre süpürme çalıştırmak istiyorsanız bu seçeneği belirleyin. Yinelemek için bir değer aralığı seçin ve ayarlama modeli hiper parametreleri , en iyi sonuçları üreten hiper parametreleri belirlemek için, belirttiğiniz ayarların tüm olası birleşimlerinin üzerinde yinelenir.

  3. Ağaç başına en fazla yaprakları: herhangi bir ağaçta oluşturulabilecek maksimum Terminal düğümü sayısını (yaprakları) belirtin.

    Bu değeri artırarak ağacın boyutunu artırabilir ve daha fazla anlayışın ve daha uzun eğitim süresi riskinden daha iyi bir duyarlık elde edersiniz.

  4. Yaprak düğüm başına minimum örnek sayısı: bir ağaçta herhangi bir Terminal düğümü (yaprak) oluşturmak için gereken minimum durum sayısını belirtin.

    Bu değeri artırarak, yeni kurallar oluşturma eşiğini artırırsınız. Örneğin, varsayılan 1 değeri ile tek bir durum bile yeni bir kuralın oluşturulmasına neden olabilir. Değeri 5 ' e artırırsanız eğitim verilerinin aynı koşulları karşılayan en az 5 durum içermesi gerekir.

  5. Öğrenme oranı: öğrenirken adım boyutunu tanımlayan 0 ile 1 arasında bir sayı yazın. Öğrenme oranı, öğrenimi en iyi çözüm üzerinde ne kadar hızlı veya yavaş söylebileceğinizi belirler. Adım boyutu çok büyükse en iyi çözümü fazla gerçekleştirebilirsiniz. Adım boyutu çok küçükse, eğitimin en iyi çözüm üzerinde yakınsama işlemi daha uzun sürer.

  6. Oluşturulan ağaç sayısı: ensede oluşturmak için gereken karar ağacının toplam sayısını belirtin. Daha fazla karar ağacı oluşturarak daha iyi tedarik sağlayabilirsiniz, ancak eğitim süresi artar.

    Bu değer aynı zamanda eğitilen modeli görselleştirirken gösterilecek ağaç sayısını da denetler. tek bir ağacı görmek veya yazdırmak isterseniz, değeri 1 olarak ayarlayabilirsiniz. Bununla birlikte, bu, yalnızca bir ağacın oluşturulduğu (ilk parametre kümesini içeren ağaç) ve başka yineleme gerçekleştirilmediği anlamına gelir.

  7. Rastgele sayı çekirdek: rastgele çekirdek değeri olarak kullanılacak isteğe bağlı negatif olmayan bir tamsayı yazın. Bir çekirdek belirtmek, aynı verilere ve parametrelere sahip olan çalışmalarda reproducibility sağlar.

    Varsayılan olarak, rastgele çekirdek 0 olarak ayarlanır; Bu, ilk çekirdek değerin sistem saatinden elde ettiği anlamına gelir.

  8. Bilinmeyen kategorik düzeylerine Izin ver: eğitim ve doğrulama kümelerinde bilinmeyen değerler için bir grup oluşturmak üzere bu seçeneği belirleyin. Bu seçeneğin işaretini kaldırırsanız model yalnızca eğitim verilerinde bulunan değerleri kabul edebilir. Model, bilinen değerler için daha az kesin olabilir, ancak yeni (bilinmiyor) değerler için daha iyi tahminler sağlayabilir.

  9. Eğitim veri kümesi ve eğitim modüllerinden birini ekleyin:

    Not

    Modeli Eğiteetmekiçin bir parametre aralığı geçirirseniz, parametre aralığı listesindeki yalnızca ilk değeri kullanır.

    Tek bir parametre değerleri kümesini ayarlama modeli hiper parametreleri modülüne geçirirseniz, her parametre için bir dizi ayar beklerken, değerleri yoksayar ve öğrenici için varsayılan değerleri kullanır.

    Parametre aralığı seçeneğini belirleyip herhangi bir parametre için tek bir değer girerseniz, diğer parametreler bir değer aralığı boyunca değişse bile, bu tek değer tarama boyunca kullanılır.

  10. Denemeyi çalıştırın.

Sonuçlar

Eğitim tamamlandıktan sonra:

  • Her yinelemede oluşturulan ağacı görmek için model modülünü eğitme ' ye sağ tıklayın ve görselleştirmek Için eğitilen model ' i seçin. Model hiper parametrelerini ayarla' yı kullanırsanız, en iyi modeli görselleştirmek için modüle sağ tıklayın ve eğitimli en iyi modeli seçin.

    Her bir ağaca tıklayarak her bir düğümün kurallarını inceleyin ve her bir düğüm için kuralları görüntüleyin.

  • Puanlama için modeli kullanmak üzere, yeni giriş örneklerine ilişkin değerleri tahmin etmek için modeli puanalanına bağlayın.

  • Eğitilen modelin anlık görüntüsünü kaydetmek için eğitim modülünün eğitilen model çıktısına sağ tıklayın ve farklı kaydet' i seçin. Tasarruf ettiğiniz eğitilen modelin kopyası, denemenin art arda çalışmalarından güncellenmez.

Örnekler

Makine öğreniminde, artırılmış ağaçların nasıl kullanıldığı hakkında örnekler için Azure yapay zeka Galerisibakın:

  • Talep tahmini: belirli bir süre için yeniden Kiralama sayısını tahmin etmek için, önceden ücretli karar ağacı gerilemesini kullanır.

  • Twitter yaklaşım Analizi: tahmin edilen bir derecelendirme oluşturmak için gerileme kullanır.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

İpucu

Genel olarak, karar ağaçları Özellikler biraz ilişkili olduğunda daha iyi sonuç verir. Özelliklerin büyük ölçüde entropi varsa (diğer bir deyişle, bunlarla ilgili değildir), çok az bir bilgi paylaşır ve bunları bir ağaçta sıralamak, tahmine dayalı çok sayıda değer vermez.

Uygulama ayrıntıları

Ağaçların kendisi, her adımda, kayıp işlevinin degradesini yaklaştıran bir gerileme ağacı ve yeni ağaç kaybını en aza indirecek katlara sahip önceki ağaca eklenerek oluşturulur. Belirli bir örnek üzerinde MART tarafından üretilen ensebir örnek çıktısı, ağaç çıkışları toplamıdır.

  • İkili sınıflandırma sorunu için, çıktı bir ayar biçimi kullanılarak olasılığa dönüştürülür.

  • Gerileme sorunları için çıkış, işlevin öngörülen değeridir.

  • Derecelendirme sorunları için örnekler, ensede 'ın çıkış değerine göre sıralanır.

Modül parametreleri

Name Aralık Tür Varsayılan Açıklama
Ağaç başına en fazla yaprakları >= 1 Tamsayı 20 Ağaç başına düşen en fazla yaprakları sayısını belirtin
Yaprak düğüm başına minimum örnek sayısı >= 1 Tamsayı 10 Yaprak düğüm oluşturmak için gereken minimum durum sayısını belirtin
Öğrenme oranı Çift. Epsilon; 1.0] Float 0,2 İlk öğrenme oranını belirtin
Oluşturulan toplam ağaç sayısı >= 1 Tamsayı 100 Eğitim sırasında oluşturulabilecek maksimum ağaç sayısını belirtin
Rastgele sayı çekirdek herhangi biri Tamsayı Model tarafından kullanılan rastgele sayı Oluşturucu için bir çekirdek sağlayın. Varsayılan için boş bırakın.
Bilinmeyen kategorik düzeylerine izin ver herhangi biri Boole true Doğru ise, her kategorik sütun için ek bir düzey oluşturun. Test veri kümesindeki düzeyler eğitim veri kümesinde kullanılamıyor bu ek düzeye eşlenir.

Çıkışlar

Ad Tür Açıklama
Eğitilen model ILearner arabirimi Eğitilen regresyon modeli

Ayrıca bkz.

A-Z modül listesi
Regresyon