İki Sınıflı Artırmalı Karar Ağacı

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Artırılmış bir karar ağacı algoritması kullanarak ikili bir sınıflandırıcı oluşturur

kategori: Model/sınıflandırmayı Machine Learning/başlat

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Modüle genel bakış

bu makalede, bir makine öğrenimi modeli oluşturmak için Machine Learning Studio 'da (klasik), artırılmış karar ağaçları algoritmasını temel alan bir makine öğrenimi modeli oluşturmak için iki sınıf önceden artırılmış karar ağacı modülünün nasıl kullanılacağı açıklanır.

Artırılmış bir karar ağacı, ikinci ağacın ilk ağacın hatalarını düzelttiğinde, üçüncü ağaç birinci ve ikinci ağaçların hatalarını düzelttiğinde ve benzeri bir öğrenme yöntemidir. Tahmine dayalı olarak, tahminleri bir araya getiren tüm ağaçları temel alır. Daha fazla teknik ayrıntı için bu makalenin araştırma bölümüne bakın.

Genellikle, düzgün şekilde yapılandırıldığında, çok çeşitli makine öğrenimi görevlerinde en iyi performansa sahip olmanın en kolay yöntemi olan, artırılmış karar ağaçları vardır. Bununla birlikte, bunlar aynı zamanda daha fazla bellek yoğun öğrenipden biridir ve geçerli uygulama bellekte her şeyi barındırır. Bu nedenle, artırılmış bir karar ağacı modeli, bazı doğrusal öğrenilmelerin işleyebileceği çok büyük veri kümelerini işleyemeyebilir.

Two-Class artırılmış karar ağacını yapılandırma

Bu modül, eğitimli olmayan bir sınıflandırma modeli oluşturur. Sınıflandırma denetimli bir öğrenme yöntemi olduğundan, modeli eğitebilmeniz için tüm satırlar için bir değer içeren etiketli bir veri kümesine ihtiyacınız vardır.

Modeli eğitme ya da model hyperparameters modüllerini kullanarak bu tür modeli eğitebilirsiniz.

  1. Machine Learning Studio 'da (klasik), denemenize öngörülü karar ağacı modülünü ekleyin.

  2. Model oluşturma modunu ayarlayarak modelin eğitilme şeklini belirleyin.

    • Tek parametre: modeli nasıl yapılandırmak istediğinizi biliyorsanız bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz.

    • Parametre aralığı: en iyi parametrelerden emin değilseniz, model hiper parametrelerini ayarla modülünü kullanarak en iyi parametreleri bulabilirsiniz. Birkaç değer aralığı sağlarsınız ve en iyi sonucu üreten değerlerin birleşimini öğrenmek için eğitmen ayarların birden fazla birleşimine yinelenir.

  3. Ağaç başına en fazla yapraklarıiçin, herhangi bir ağaçta oluşturulabilecek maksimum Terminal düğümü sayısını (yaprakları) belirtin.

    Bu değeri artırarak ağacın boyutunu artırabilir ve daha fazla anlayışın ve daha uzun eğitim süresi riskinden daha iyi bir duyarlık elde edersiniz.

  4. Yaprak düğüm başına minimum örnek sayısıiçin, bir ağaçta herhangi bir Terminal düğümü (yaprak) oluşturmak için gereken durum sayısını belirtin.

    Bu değeri artırarak, yeni kurallar oluşturma eşiğini artırırsınız. Örneğin, varsayılan 1 değeri ile tek bir durum bile yeni bir kuralın oluşturulmasına neden olabilir. Değeri 5 ' e artırırsanız eğitim verilerinin aynı koşulları karşılayan en az 5 durum içermesi gerekir.

  5. Learning hıziçin, öğrenirken adım boyutunu tanımlayan 0 ile 1 arasında bir sayı yazın.

    Öğrenme oranı, öğrenimi en iyi çözüm üzerinde ne kadar hızlı veya yavaş söylebileceğinizi belirler. Adım boyutu çok büyükse en iyi çözümü fazla gerçekleştirebilirsiniz. Adım boyutu çok küçükse, eğitimin en iyi çözüm üzerinde yakınsama işlemi daha uzun sürer.

  6. Oluşturulan ağaç sayısıiçin, ensede birleştirmek üzere oluşturulacak karar ağacının toplam sayısını belirtin. Daha fazla karar ağacı oluşturarak daha iyi tedarik sağlayabilirsiniz, ancak eğitim süresi artar.

    Bu değer aynı zamanda eğitilen modeli görselleştirirken gösterilecek ağaç sayısını da denetler. tek bir ağacı görmek veya yazdırmak istiyorsanız, değeri 1 olarak ayarlayın. Ancak bunu yaptığınızda, yalnızca bir ağaç oluşturulur (ilk parametre kümesini içeren ağaç) ve başka yineleme gerçekleştirilmez.

  7. Rastgele sayı çekirdekiçin isteğe bağlı olarak rastgele çekirdek değeri olarak kullanılacak negatif olmayan bir tamsayı yazın. Bir çekirdek belirtmek, aynı verilere ve parametrelere sahip olan çalışmalarda reproducibility sağlar.

    Rastgele çekirdek varsayılan olarak 0 olarak ayarlanır; Bu, başlangıçtaki çekirdek değerinin sistem saatinden elde ettiği anlamına gelir. Rastgele bir çekirdek kullanan art arda çalıştırılan çalıştırmalar farklı sonuçlara sahip olabilir.

  8. Eğitim ve doğrulama kümelerinde bilinmeyen değerler için bir grup oluşturmak üzere Bilinmeyen kategorik düzeylerine Izin ver seçeneğini belirleyin.

    Bu seçeneğin işaretini kaldırırsanız model yalnızca eğitim verilerinde bulunan değerleri kabul edebilir.

    Bilinmeyen değerlere izin verirseniz, model bilinen değerler için daha az kesin olabilir, ancak büyük olasılıkla yeni (bilinmiyor) değerler için daha iyi tahminler sağlayabilir.

  9. Modeli eğitme.

    • Tek parametreiçin bir görüntü oluşturma modu ayarlarsanız, etiketli bir veri kümesini ve model eğitimi modülünü bağlayın.

    • Parametre aralığınaoluşturma , bir etiketli veri kümesini bağlama ve modeli Ayarla hiper parametrelerinikullanarak modeli eğitme.

    Not

    Modeli Eğiteetmekiçin bir parametre aralığı geçirirseniz, parametre aralığı listesindeki yalnızca ilk değeri kullanır.

    Tek bir parametre değerleri kümesini ayarlama modeli hiper parametreleri modülüne geçirirseniz, her parametre için bir dizi ayar beklerken, değerleri yoksayar ve öğrenici için varsayılan değerleri kullanır.

    Parametre aralığı seçeneğini belirleyip herhangi bir parametre için tek bir değer girerseniz, belirtilen tek değer, diğer parametrelerin bir değer aralığı üzerinde değişse bile, tarama boyunca kullanılır.

Sonuçlar

Eğitim tamamlandıktan sonra:

  • Her yinelemede oluşturulan ağacı görmek için model modülünü eğitme ' ye sağ tıklayın ve görselleştirmek Için eğitilen model ' i seçin. Model hiper parametrelerini ayarla' yı kullanırsanız, en iyi modeli görselleştirmek için modüle sağ tıklayın ve eğitimli en iyi modeli seçin.

    Her bir ağaca tıklayarak her bir düğümün kurallarını inceleyin ve her bir düğüm için kuralları görüntüleyin.

  • Puanlama için modeli kullanmak üzere, yeni giriş örneklerine ilişkin değerleri tahmin etmek için modeli puanalanına bağlayın.

Örnekler

Makine öğreniminde karar ağaçlarının nasıl kullanıldığı hakkında örnekler için Azure yapay zeka Galerisibakın:

  • Doğrudan pazarlama: müşteri appetliliği tahmin etmek Için iki sınıf, önceden maliyetli karar ağacı algoritmasını kullanır.

  • Uçuş gecikmesi tahmini: Bu örnek, bir uçuşın gecikip ertelenmeyeceğini anlamak Için Iki sınıf, artırılmış karar ağacı algoritmasını kullanır.

  • Kredi kartı riski: Bu örnek, riski tahmin etmek Için iki sınıf önceden artırılmış karar ağacı algoritmasını kullanır.

Teknik notlar

Bu bölüm uygulama ayrıntılarını ve sık sorulan soruları içerir.

Kullanım ipuçları

  • Artırılmış bir karar ağacı modelini eğitebilmeniz için birden çok veri örneği sağlamanız gerekir. Veri kümesi çok az satır içeriyorsa eğitim süreci sırasında bir hata oluşturulur.

  • Verilerinizde eksik değerler varsa, özellikler için göstergeler eklemeniz gerekir.

  • Genel olarak, artırılmış karar ağaçları Özellikler biraz ilişkili olduğunda daha iyi sonuçlar verir. Özelliklerin büyük ölçüde entropi varsa (diğer bir deyişle, bunlarla ilgili değildir), çok az bir bilgi paylaşır ve bir ağaçta sıralanmaları çok sayıda tahmine dayalı önem vermez. Böyle bir durum söz konusu değilse, rastgele bir orman modeli deneyebilirsiniz.

    Geliştirme Ayrıca, özelliklerden çok daha fazla örneğe sahip olduğunuzda da iyi bir şekilde çalışıyor.

  • Veri kümesini normalleştirin. Özelliklerin ele geçirilmesi basit, parametrik olmayan, daha küçüktür veya büyüktür karşılaştırması, normalleştirme veya monotonic olmayan dönüştürme işlevinin herhangi bir biçimi az etkili olabilir.

  • Özellikler, eğitimin önüne alınır ve kullanılabilir, böylece sürekli özellikler için bile yalnızca görece küçük bir eşik aday kümesi göz önünde bulundurulmalıdır.

Uygulama ayrıntıları

Artırılmış karar ağacı algoritması hakkında ayrıntılı bilgi için bkz. Greedy Işlev yaklaşık: bir gradyan arttırma makinesi.

Machine Learning ' deki artırılmış karar ağacı algoritması aşağıdaki yükseltme yöntemini kullanır:

  1. Zayıf öğrenipleri boş bir şekilde kullanmaya başlayın.

  2. Her eğitim örneği için, her bir örnek için geçerli çıktıyı alın. Bu, ensede tüm zayıf öğreniplerin çıktılarının toplamıdır.

  3. Her örnek için kayıp işlevinin degradesini hesaplayın.

    Bu, görevin ikili bir sınıflandırma sorunu mu yoksa bir gerileme sorunu mı olduğuna bağlıdır.

    • İkili sınıflandırma modelinde, lojistik regresyonda çok benzer şekilde günlük kaybı kullanılır.

    • Regresyon modelinde, kare içinde kayıp kullanılır ve gradyan geçerli çıktı, hedeften daha fazla.

  4. Hedef işlev olarak tanımlanmış olan degradeyi kullanarak zayıf bir öğrenmeuyacak şekilde örnekleri kullanın.

  5. Bu zayıf öğrenimi, öğrenme oranı tarafından belirtilen bir kuvvetle birlikte ekleyin ve isterseniz 2. adıma gidin.

    Bu uygulamada, adım 3 ' te hesaplanan gradyanlara göre zayıf öğrenenler, en az kare regresyon ağaçlardır. Ağaçlar aşağıdaki kısıtlamalara tabidir:

    • En fazla yaprak sayısına kadar eğitilmişler.

    • Her yaprak, fazla değere karşı koruma için en az örnek sayısına sahip.

    • Her karar düğümü, bazı eşiklerle karşılaştıran tek bir özelliktir. Bu özellik eşikten küçük veya ona eşitse bir yol aşağı gider ve eşikten büyükse diğer yola gider.

    • Her yaprak düğüm sabit bir değerdir.

  6. Ağaç oluşturma algoritması, 3. Adımda hesaplanan gradyan açısından bölmenin kare kaybını en aza indiren özelliği ve eşiği doyumsuz olarak seçer. Bölme seçimi, yaprak başına en az eğitim örneği sayısına tabidir.

    Algoritma, maksimum yaprak sayısına ulaşana veya geçerli bir bölme kullanılabilir olana kadar tekrar tekrar bölünüyor.

Modül parametreleri

Name Aralık Tür Varsayılan Description
Ağaç başına en fazla yaprak sayısı >=1 Tamsayı 20 Ağaç başına izin verilen en fazla yaprak sayısını belirtin
Yaprak düğüm başına en az örnek sayısı >=1 Tamsayı 10 Yaprak oluşturmak için gereken en az servis sayısı belirtin
Öğrenme oranı [double. Epsilon;1.0] Float 0,2 İlk öğrenme oranını belirtme
Oluşturulmuş ağaç sayısı >=1 Tamsayı 100 Eğitim sırasında oluşturulacak en fazla ağaç sayısını belirtin
Rastgele sayı çekirdeği Herhangi biri Tamsayı Model tarafından kullanılan rastgele sayı oluşturucusunun çekirdeğini yapmak için bir değer yazın. Varsayılan değer için boş bırakın.
Bilinmeyen kategorik düzeylere izin ver Herhangi biri Boole Doğru True ise, her kategorik sütun için ek bir düzey oluşturulur. Eğitim veri kümesinde mevcut olan test veri kümesi düzeyleri bu ek düzeye eşlenmiş olur.

Çıktı

Ad Tür Description
Eğitilmemiş model ILearner arabirimi Eğitilmemiş ikili sınıflandırma modeli

Ayrıca bkz.

Sınıflandırma
Artırmalı Karar Ağacı Regresyonu
A-Z Modül Listesi