İki Sınıflı Artırmalı Karar Ağacı

Artırılmış bir karar ağacı algoritması kullanarak ikili bir sınıflandırıcı oluşturur

Kategori: model/sınıflandırmayı Machine Learning/Başlat

Not

Için geçerlidir: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgili. Benzer sürükle ve bırak modülleri bir tasarımcıya Azure Machine Learning eklendi. İki sürümü karşılaştıran bu makalede daha fazla bilgi bulabilirsiniz.

Modüle genel bakış

Bu makalede, bir makine öğrenimi modeli oluşturmak için Azure Machine Learning Studio (klasik) ' de Iki sınıf önceden artırılmış karar ağacı modülünün nasıl kullanılacağı açıklanır.

Artırılmış bir karar ağacı, ikinci ağacın ilk ağacın hatalarını düzelttiğinde, üçüncü ağaç birinci ve ikinci ağaçların hatalarını düzelttiğinde ve benzeri bir öğrenme yöntemidir. Tahmine dayalı olarak, tahminleri bir araya getiren tüm ağaçları temel alır. Daha fazla teknik ayrıntı için bu makalenin araştırma bölümüne bakın.

Genellikle, düzgün şekilde yapılandırıldığında, çok çeşitli makine öğrenimi görevlerinde en iyi performansa sahip olmanın en kolay yöntemi olan, artırılmış karar ağaçları vardır. Bununla birlikte, bunlar aynı zamanda daha fazla bellek yoğun öğrenipden biridir ve geçerli uygulama bellekte her şeyi barındırır. Bu nedenle, artırılmış bir karar ağacı modeli, bazı doğrusal öğrenilmelerin işleyebileceği çok büyük veri kümelerini işleyemeyebilir.

Algoritma seçme hakkında daha fazla bilgi için şu kaynaklara bakın:

Two-Class artırılmış karar ağacını yapılandırma

Bu modül, eğitimli olmayan bir sınıflandırma modeli oluşturur. Sınıflandırma denetimli bir öğrenme yöntemi olduğundan, modeli eğitebilmeniz için tüm satırlar için bir değer içeren etiketli bir veri kümesine ihtiyacınız vardır.

Modeli Eğit veya Modeli Ayarla Hiperparametreleri modüllerini kullanarak bu tür bir modeli eğitabilirsiniz.

  1. Azure Machine Learning Studio'da (klasik), Denemenize Artırıldı Karar Ağacı modülünü ekleyin.

  2. Eğitimci modu oluştur seçeneğini ayarerek modelin nasıl eğitilsin?

    • Tek Parametre: Modeli nasıl yapılandırmak istediğinizi biliyorsanız bağımsız değişken olarak belirli bir değer kümesi sebilirsiniz.

    • Parametre Aralığı: En iyi parametrelerden emin değilsanız, Modeli Ayarlama Hiper Parametreleri modülünü kullanarak en uygun parametreleri bulabilirsiniz. Bazı değerler sağlarsınız ve eğitmen en iyi sonucu üreten değerlerin birleşimini belirlemek için ayarların birden çok bileşimini tekrarlar.

  3. Ağaç başına en fazla yaprak sayısı için, herhangi bir ağaçta oluşturulacak en fazla terminal düğümü (yaprak) sayısını gösterir.

    Bu değeri artırarak ağacın boyutunu artırma ve fazla uygun olma ve daha uzun eğitim süresi riskiyle daha iyi duyarlık elde edersiniz.

  4. Yaprak düğüm başına en az örnek sayısı için, bir ağaçta herhangi bir terminal düğümü (yaprak) oluşturmak için gereken örnek sayısını gösterir.

    Bu değeri artırarak yeni kurallar oluşturma eşiğini artırıyor oluruz. Örneğin, varsayılan değer 1'de, tek bir durum bile yeni bir kuralın oluşturulmaya neden olabilir. Değeri 5'e artırdısanız, eğitim verileri aynı koşulları karşılar en az 5 olay içermesi gerekir.

  5. Öğrenme hızı için öğrenme sırasında adım boyutunu tanımlayan 0 ile 1 arasında bir sayı yazın.

    Öğrenme hızı, en uygun çözümde ne kadar hızlı veya yavaş bir şekilde yakınsanıyor olduğunu belirler. Adım boyutu çok büyükse, en uygun çözümü aşırı atlarsanız. Adım boyutu çok küçükse, eğitimin en iyi çözümde yakınsanması daha uzun sürer.

  6. Oluşturulacak ağaç sayısı için, grup içinde oluşturulacak karar ağaçlarının toplam sayısını girin. Daha fazla karar ağacı oluşturarak daha iyi tedarik sağlayabilirsiniz, ancak eğitim süresi artar.

    Bu değer aynı zamanda eğitilen modeli görselleştirirken gösterilecek ağaç sayısını da denetler. tek bir ağacı görmek veya yazdırmak istiyorsanız, değeri 1 olarak ayarlayın. Ancak bunu yaptığınızda, yalnızca bir ağaç oluşturulur (ilk parametre kümesini içeren ağaç) ve başka yineleme gerçekleştirilmez.

  7. Rastgele sayı çekirdek için isteğe bağlı olarak rastgele çekirdek değeri olarak kullanılacak negatif olmayan bir tamsayı yazın. Bir çekirdek belirtmek, aynı verilere ve parametrelere sahip olan çalışmalarda reproducibility sağlar.

    Rastgele çekirdek varsayılan olarak 0 olarak ayarlanır; Bu, başlangıçtaki çekirdek değerinin sistem saatinden elde ettiği anlamına gelir. Rastgele bir çekirdek kullanan art arda çalıştırılan çalıştırmalar farklı sonuçlara sahip olabilir.

  8. Eğitim ve doğrulama kümelerinde bilinmeyen değerler için bir grup oluşturmak üzere Bilinmeyen kategorik düzeylerine Izin ver seçeneğini belirleyin.

    Bu seçeneğin işaretini kaldırırsanız model yalnızca eğitim verilerinde bulunan değerleri kabul edebilir.

    Bilinmeyen değerlere izin verirseniz, model bilinen değerler için daha az kesin olabilir, ancak büyük olasılıkla yeni (bilinmiyor) değerler için daha iyi tahminler sağlayabilir.

  9. Modeli eğitme.

    • Tek parametre için bir görüntü oluşturma modu ayarlarsanız, etiketli bir veri kümesini ve model eğitimi modülünü bağlayın.

    • Parametre aralığına oluşturma , bir etiketli veri kümesini bağlama ve modeli Ayarla hiper parametrelerinikullanarak modeli eğitme.

    Not

    Modeli Eğiteetmekiçin bir parametre aralığı geçirirseniz, parametre aralığı listesindeki yalnızca ilk değeri kullanır.

    Tek bir parametre değerleri kümesini ayarlama modeli hiper parametreleri modülüne geçirirseniz, her parametre için bir dizi ayar beklerken, değerleri yoksayar ve öğrenici için varsayılan değerleri kullanır.

    Parametre aralığı seçeneğini belirleyip herhangi bir parametre için tek bir değer girerseniz, belirtilen tek değer, diğer parametrelerin bir değer aralığı üzerinde değişse bile, tarama boyunca kullanılır.

Sonuçlar

Eğitim tamamlandıktan sonra:

  • Her yinelemede oluşturulan ağacı görmek için Modeli Eğitma modülü'ne sağ tıklayın ve görselleştirilen model'i seçin. Model Ayarlama HiperParametreleri kullanıyorsanız,modüle sağ tıklayın ve en iyi modeli görselleştirmek için Eğitilen en iyi model'i seçin.

    Bölmelerde detaya inecek ve her düğümün kurallarını görmek için her bir ağacı tıklatın.

  • Modeli puanlama için kullanmak üzere, yeni giriş örneklerinin değerlerini tahminetmek için Modeli Puanlama 'ya bağlanın.

Örnekler

Makine öğrenmesinde artırlı karar ağaçlarının nasıl kullanıldıklarının örnekleri için bkz. Azure Yapay Zeka Galerisi:

  • Doğrudan pazarlama:Müşteri adaylığını tahmin etmek için İki Sınıflı Artırlı Karar Ağacı algoritmasını kullanır.

  • Uçuş gecikmesitahmini: Bu örnek, bir uçuşun gecikme olasılığı olup olmadığını belirlemek için İki Sınıflı Artırlı Karar Ağacı algoritmasını kullanır.

  • Kredi kartı riski:Bu örnek, riski tahmin etmek için İki Sınıflı Artırlı Karar Ağacı algoritmasını kullanır.

Teknik notlar

Bu bölümde uygulama ayrıntıları ve sık sorulan sorular yer almaktadır.

Kullanım ipuçları

  • Artırmış bir karar ağacı modelini eğitmek için birden çok veri örneği sağlamış olmak gerekir. Veri kümesi çok az satır içeriyorsa eğitim işlemi sırasında bir hata oluşturulur.

  • Verilerinizde eksik değerler varsa özellikler için göstergeler eklemeniz gerekir.

  • Genel olarak, özellikler bir şekilde ilgili olduğunda artırlı karar ağaçları daha iyi sonuçlar verir. Özelliklerin büyük bir entropi derecesi varsa (yani bunlar ilişkili değil), çok az karşılıklı bilgi paylaşır veya hiç paylaşmaz ve bunları bir ağaçta sıralamak, tahmine dayalı öneme sahip değildir. Böyle bir durum yoksa, rastgele ormanlar modelini denemeyi denemeyi deneyin.

    Model fazla çalışmaya açık olduğundan, özelliklerden çok daha fazla örneğinin olduğu durumda artırma da işe yarar.

  • Veri kümesi normalleştirin. Özelliklerin ele geçirilmesi basit, parametrik olmayan, daha küçüktür veya büyüktür karşılaştırması, normalleştirme veya monotonic olmayan dönüştürme işlevinin herhangi bir biçimi az etkili olabilir.

  • Özellikler, eğitimin önüne alınır ve kullanılabilir, böylece sürekli özellikler için bile yalnızca görece küçük bir eşik aday kümesi göz önünde bulundurulmalıdır.

Uygulama ayrıntıları

Artırılmış karar ağacı algoritması hakkında ayrıntılı bilgi için bkz. Greedy Işlev yaklaşık: bir gradyan arttırma makinesi.

Azure Machine Learning ' deki artırılmış karar ağacı algoritması aşağıdaki yükseltme yöntemini kullanır:

  1. Zayıf öğrenipleri boş bir şekilde kullanmaya başlayın.

  2. Her eğitim örneği için, her bir örnek için geçerli çıktıyı alın. Bu, ensede tüm zayıf öğreniplerin çıktılarının toplamıdır.

  3. Her örnek için kayıp işlevinin degradesini hesaplayın.

    Bu, görevin ikili bir sınıflandırma sorunu mu yoksa bir gerileme sorunu mı olduğuna bağlıdır.

    • İkili sınıflandırma modelinde, lojistik regresyonda çok benzer şekilde günlük kaybı kullanılır.

    • Regresyon modelinde, kare içinde kayıp kullanılır ve gradyan geçerli çıktı, hedeften daha fazla.

  4. Hedef işlev olarak tanımlanmış olan degradeyi kullanarak zayıf bir öğrenme uyacak şekilde örnekleri kullanın.

  5. Bu zayıf öğrenimi, öğrenme oranı tarafından belirtilen bir kuvvetle birlikte ekleyin ve isterseniz 2. adıma gidin.

    Bu uygulamada, adım 3 ' te hesaplanan gradyanlara göre zayıf öğrenenler, en az kare regresyon ağaçlardır. Ağaçlar aşağıdaki kısıtlamalara tabidir:

    • Bunlar en fazla sayıda ayrıla göre eğitilir.

    • Her yaprağın fazla sayıda örnek, fazla yerleştirme için en az sayıda örneğe sahiptir.

    • Her karar düğümü, bazı eşikle karşılaştırılan tek bir özelliktir. Bu özellik eşikten küçük veya bu değere eşitse, bir yol aşağı doğru gider ve eşikten büyükse, diğer yolun dışında olur.

    • Her yaprak düğüm sabit bir değerdir.

  6. Ağaç oluşturma algoritması, 3. Adımda hesaplanan gradyan açısından bölmenin kare kaybını en aza indiren özelliği ve eşiği doyumsuz olarak seçer. Bölme seçimi, yaprak başına en az eğitim örneği sayısına tabidir.

    Algoritma, maksimum yaprak sayısına ulaşana veya geçerli bir bölme kullanılabilir olana kadar tekrar tekrar bölünüyor.

Modül parametreleri

Name Aralık Tür Varsayılan Description
Ağaç başına en fazla yaprak sayısı >=1 Tamsayı 20 Ağaç başına izin verilen en fazla yaprak sayısını belirtin
Yaprak düğüm başına en az örnek sayısı >=1 Tamsayı 10 Yaprak oluşturmak için gereken en az servis sayısı belirtin
Öğrenme oranı [double. Epsilon;1.0] Float 0,2 İlk öğrenme oranını belirtme
Oluşturulmuş ağaç sayısı >=1 Tamsayı 100 Eğitim sırasında oluşturulacak en fazla ağaç sayısını belirtin
Rastgele sayı çekirdeği Herhangi biri Tamsayı Model tarafından kullanılan rastgele sayı oluşturucusunun çekirdeğini yapmak için bir değer yazın. Varsayılan değer için boş bırakın.
Bilinmeyen kategorik düzeylere izin ver Herhangi biri Boole Doğru True ise, her kategorik sütun için ek bir düzey oluşturulur. Test veri kümesindeki eğitim veri kümesinde kullanılamayan tüm düzeyler bu ek düzeyle eşleştirilir.

Çıktı

Ad Tür Description
Eğitilen model ILearner arabirimi Eğitilen ikili sınıflandırma modeli

Ayrıca bkz.

Sınıflandırmaya
Artırılmış karar ağacı gerileme
A-Z modül listesi