Hızlı Orman Dağılım Dilimi Regresyonu

Bir quantile regresyon modeli oluşturur

Kategori: model/gerileme Machine Learning/Başlat

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede, belirtilen sayıda ölçü için değerleri tahmin edebilen bir regresyon modeli oluşturmak için Azure Machine Learning Studio (klasik) ' de hızlı orman Quantile gerileme modülünün nasıl kullanılacağı açıklanır.

Tek bir ortalama tahmin değeri almak yerine tahmin edilen değerin dağılımı hakkında daha fazla bilgi edinmek istiyorsanız, quantile gerileme yararlı olur. Bu yöntemde aşağıdakiler dahil birçok uygulama vardır:

  • Fiyatları tahmin etme

  • Alt geliştirmeyi değerlendirmek için öğrenci performansı tahmini veya büyüme grafikleri uygulama

  • Değişkenler arasında yalnızca zayıf bir ilişki olduğu durumlarda tahmine dayalı ilişkiler bulma

Bu regresyon algoritması denetimli bir öğrenme yöntemidir ve bu, etiket sütunu içeren etiketli bir veri kümesi gerektirdiği anlamına gelir. Bir gerileme algoritması olduğundan, etiket sütunu yalnızca sayısal değerler içermelidir.

Quantile gerileme hakkında daha fazla bilgi

Birçok farklı gerileme türü vardır. En basit anlamda, regresyon, bir modeli sayısal bir vektör olarak ifade edilen hedefe ekleme anlamına gelir. Ancak İstatistikçilerin, gerileme için giderek daha fazla gelişmiş yöntem geliştirmiştir.

Quantile 'nın en basit tanımı, bir veri kümesini eşit boyutlu gruplara ayıran bir değerdir; Bu nedenle, quantile değerleri gruplar arasındaki sınırları işaretler. İstatistiksel olarak konuşmak, quantiles, rastgele bir değişkenin kümülatif dağıtım işlevinin (CDF) tersidir düzenli aralıklarla gerçekleştirilen değerlerdir.

Doğrusal regresyon modelleri tek bir tahmin kullanarak sayısal bir değişkenin değerini tahmin etmeye çalışır, Ortalama, bazen aralığın veya hedef değişkenin tüm dağıtımının tahmin edilmesi gerekir. Bu amaçla Bayeme gerileme ve quantile gerileme gibi teknikler geliştirilmiştir.

Quantile gerileme, tahmin edilen değerin dağıtımını anlamanıza yardımcı olur. Bu modülde kullanılan gibi ağaç tabanlı quantile regresyon modelleri, parametrik olmayan dağıtımları tahmin etmek için kullanılabilecekleri ek avantaja sahip olur.

Ek uygulama ayrıntıları ve kaynakları için Teknik notlar bölümüne bakın.

Fast_Forest Quantile gerileme yapılandırma

Bu modülü kullanarak regresyon modelinin özelliklerini yapılandırır ve ardından eğitim modüllerindenbirini kullanarak eğitebilirsiniz.

Yapılandırma adımları, sabit bir parametre kümesi sağlayıp sağlamaktan veya bir parametre süpürme ayarlamanıza bakılmaksızın önemli ölçüde bağımlıya farklılık gösterir.

Sabit parametreler kullanarak bir quantile regresyon modeli oluşturma

Modeli nasıl yapılandırmak istediğinizi bildiğiniz varsayılarak bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz. Modeli eğitedığınızda modeli eğitme' yi kullanın.

  1. Hızlı orman Quantile regresyon modülünü Studio 'daki denemenize (klasik) ekleyin.

  2. Tek parametre için bir eğitmen modu oluşturma seçeneğini ayarlayın.

  3. Ağaç sayısı için, en yüksek ağaç sayısını, en fazla bir şema içinde oluşturulabilecek şekilde yazın. Daha fazla ağaç oluşturursanız, genellikle daha uzun eğitim süresi masrafında daha fazla doğruluk doğurur.

  4. Yaprakları için, herhangi bir ağaçta oluşturulabilecek en fazla yaprakları veya Terminal düğümlerini yazın.

  5. Bir yaprak oluşturmak için gereken en az eğitim örneği sayısı için, bir ağaçta herhangi bir Terminal düğümü (yaprak) oluşturmak için gereken en az örnek sayısını belirtin.

    Bu değeri artırarak, yeni kurallar oluşturma eşiğini artırırsınız. Örneğin, varsayılan 1 değeri ile tek bir durum bile yeni bir kuralın oluşturulmasına neden olabilir. Değeri 5 ' e artırırsanız eğitim verilerinin aynı koşulları karşılayan en az 5 durum içermesi gerekir

  6. Bagging kesri için, her bir ölçü grubu oluşturulurken kullanılacak örneklerin kesirlerini temsil eden 0 ile 1 arasında bir sayı belirtin. Örnekler, değiştirme ile rastgele seçilir.

  7. Özellik kesri için, belirli bir ağaç oluşturulurken kullanılacak toplam özelliklerin kesirini belirten 0 ile 1 arasında bir sayı yazın. Özellikler her zaman rastgele seçilir.

  8. Bölünmüş kesir için, ağacın her bölünmesi içinde kullanılacak özelliklerin kesirini temsil eden 0 ile 1 arasında bir sayı yazın. Kullanılan özellikler her zaman rastgele seçilir.

  9. Quantile örnek sayısı için, satışların tahmin edildiğinde değerlendirilecek durum sayısını yazın.

  10. Quantiles 'in tahmin edilebileceği için, modelin eğmesini ve tahmin oluşturmasını istediğiniz quantiles 'nin virgülle ayrılmış bir listesini yazın.

    Örneğin, kuvaryansı tahmin eden bir model oluşturmak istiyorsanız, yazmanız gerekir 0.25, 0.5, 0.75 .

  11. İsteğe bağlı olarak, model tarafından kullanılan rastgele sayı oluşturucusunun çekirdek olması için rastgele sayı temel değeri için bir değer yazın. Varsayılan değer 0 ' dır, yani rastgele bir çekirdek seçilir.

    Aynı verilerdeki art arda yapılan çalışmalarla ilgili sonuçları yeniden oluşturmanız gerekiyorsa bir değer sağlamalısınız.

  12. Bilinmeyen değerler için bir grup oluşturmak üzere Bilinmeyen kategorik düzeylerine Izin ver seçeneğini belirleyin.

    Bu seçeneğin işaretini kaldırırsanız model yalnızca eğitim verilerinde bulunan değerleri kabul edebilir.

    Bu seçeneği belirlerseniz, model bilinen değerler için daha az kesin olabilir, ancak yeni (bilinmiyor) değerler için daha iyi tahminler sağlayabilir.

  13. Eğitim veri kümesini bağlayın, tek bir etiket sütunu seçin ve eğitme modelibağlayın.

  14. Denemeyi çalıştırın.

Bir quantile regresyon modeli oluşturmak için bir parametre süpürme kullanma

Model için en uygun parametrelerden emin değilseniz, bir parametre tarama yapılandırabilir ve bağımsız değişken olarak bir dizi değer sağlayabilirsiniz. Modeli eğitedığınızda, model hiper parametrelerini ayarla modülünü kullanın.

  1. Hızlı orman Quantile regresyon modülünü Studio 'daki denemenize (klasik) ekleyin.

  2. Parametre aralığına bir çöp modu oluştur seçeneğini ayarlayın.

    En iyi parametrelerden emin değilseniz bir parametre tarama önerilir. Birden çok değer belirterek ve modeli eğitebilmek için model hiper parametrelerini ayarla modülünü kullanarak, verileriniz için en uygun parametre kümesini bulabilirsiniz.

    Bir parametre süpürme seçtikten sonra, ayarlanabilir her özellik için tek bir değer veya birden çok değer ayarlayabilirsiniz. Örneğin, ağaç sayısını gidermeye karar verebilir, ancak her bir ağacın derlenme şeklini kontrol eden diğer değerleri rastgele değiştirebilirsiniz.

    • Tek bir değer yazarsanız, diğer değerler değişse bile, bu değer süpürme yinelemelerinin tamamında kullanılır.

    • Kullanılacak ayrık değerlerin virgülle ayrılmış bir listesini yazın. Bu değerler diğer özelliklerle birlikte kullanılır.

    • Bir dizi sürekli değer tanımlamak için Aralık oluşturucusunu kullanın.

    Eğitim süreci sırasında, ayar modeli hiper parametreleri modülü, en iyi modeli oluşturmak için değerlerin çeşitli birleşimlerine göre yinelenir.

  3. Ağaç başına düşen en fazla yaprakları için, her bir ağaçta izin vermek üzere ayrılan yapraların veya Terminal düğümlerinin toplam sayısını yazın.

  4. Oluşturulan ağaç sayısı için, ensebir kez oluştururken gerçekleştirilecek yineleme sayısını yazın. Daha fazla ağaç oluşturarak, daha iyi eğitim süresi masrafına göre daha fazla kapsam edinebilirsiniz.

  5. Yaprak başına düğüm başına minimum örnek sayısı için, yaprak düğüm oluşturmak için kaç durum gerektiğini belirtin.

    Bu değeri artırarak, yeni kurallar oluşturma eşiğini artırırsınız. Örneğin, varsayılan 1 değeri ile tek bir durum bile yeni bir kuralın oluşturulmasına neden olabilir. Değeri 5 ' e artırırsanız eğitim verilerinin aynı koşulları karşılayan en az 5 durum içermesi gerekir.

  6. Bagging kesir aralığı içinde her bir ölçü grubu oluşturulurken kullanılacak örneklerin kesirini yazın. Örnekler, değiştirme ile rastgele seçilir.

    Her kesir 0 ile 1 arasında bir sayı olmalıdır. Virgül kullanarak birden çok kesri ayırın.

  7. Özellik kesri Için aralıkta, her bir ölçü grubu oluşturulurken kullanılacak toplam özelliklerin kesirini yazın. Özellikler rastgele seçilir.

    Her kesir 0 ile 1 arasında bir sayı olmalıdır; birden çok kesri virgül kullanarak ayırın.

  8. Bölünen kesir aralığı içinde her bir ölçü grubunda kullanılacak bazı özellikler bölümünü belirtin. Kullanılan gerçek Özellikler rastgele seçilir.

    Her kesir 0 ile 1 arasında bir sayı olmalıdır; birden çok kesri virgül kullanarak ayırın.

  9. Maliyetlerinizi tahmin etmek için kullanılan örnek sayısında, satışların tahmin edilmesi sırasında kaç örnek değerlendirildiğini belirtin. Kullanılabilir örnek sayısından daha büyük bir sayı yazarsanız, tüm örnekler kullanılır.

  10. Gerekli quantile değerlerinde, modelin eğmesini istediğiniz quantiles 'in virgülle ayrılmış bir listesini yazın. Örneğin, kutaşları tahmin eden bir model oluşturmak isterseniz, ' 0,25, 0,5, 0,75 yazın

  11. Rastgele sayı çekirdek' da, model tarafından kullanılan rastgele sayı oluşturucusunun temel aldığı bir değer yazın. Bir çekirdek kullanımı, yinelenen çalıştırmaları yeniden oluşturmak için faydalıdır.

    Varsayılan değer 0 ' dır, yani rastgele bir çekirdek seçilir.

  12. Eğitim veya doğrulama kümelerinde bilinmeyen değerler için bir grup oluşturmak üzere kategorik özellikler için bilinmeyen değerlere Izin ver seçeneğini belirleyin.

    Bu seçeneğin işaretini kaldırırsanız model yalnızca eğitim verilerinde bulunan değerleri kabul edebilir.

    Bu seçeneği belirlerseniz, model bilinen değerler için daha az kesin olabilir, ancak yeni (bilinmiyor) değerler için daha iyi tahminler sağlayabilir.

  13. Eğitim veri kümesini bağlayın, etiket sütununu seçin ve ayar modeli hiper parametreleri modülünü bağlayın.

    Not

    Eğitim modelikullanmayın. Bir parametre aralığı yapılandırırsanız ancak eğitme modelikullanarak eğitedıysanız, parametre aralığı listesindeki yalnızca ilk değeri kullanır.

  14. Denemeyi çalıştırın.

Sonuçlar

Eğitim tamamlandıktan sonra:

Örnekler

Bu modülün nasıl kullanılacağına ilişkin örnekler için Azure yapay zeka Galerisibakın:

  • Quantile gerileme: Otomatik fiyat veri kümesini kullanarak bir quantile regresyon modeli oluşturmayı ve yorumlanmasını gösterir.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Uygulama ayrıntıları

Azure Machine Learning 'daki hızlı orman Quantile regresyon modülü, karar ağaçları kullanılarak rastgele orman quantile gerileme uygulamasıdır. Rastgele ormanlar, karar ağaçlarında ortaya çıkabilecek fazla sığdırmayı önlemek için yararlı olabilir. Karar ağacı, her iç düğümde, girişin özelliklerinden birinin değerine bağlı olarak iki alt düğümden hangilerinin devam etmesi gerektiğini belirleyen ikili ağaç benzeri akış grafiğidir.

Her bir yaprak düğümünde bir değer döndürülür. İç düğümlerde, karar ' ' x ≤ v ' testine dayalıdır; burada x, giriş örneğindeki özelliğin değeridir ve v ise bu özelliğin olası değerlerinden biridir. Gerileme ağacı tarafından üretilebilen işlevler, tüm parça temelinde sabit işlevlerdir.

Rastgele bir ormanda, bir veya daha sonra eğitim verilerinin rastgele örnek bir alt kümesini seçmek ve sonra her bir veri alt kümesine bir karar ağacına uyması için Bagging kullanılarak ağaçların bir kopyası oluşturulur. Tüm ağaçların çıkışının ortalamasını alan rastgele orman algoritmasından farklı olarak, hızlı orman Quantile gerileme , ölçü ve dağıtım çıkışları için belirtilen ağaçların tüm tahmin edilen etiketlerini tutar ve böylece Kullanıcı verilen örnek için quantile değerlerini görüntüleyebilir.

Quantile gerileme hakkında daha fazla bilgi için şu kitaplara ve makalelere göz atın:

Modül parametreleri

Ad Tür Aralık İsteğe Bağlı Description Varsayılan
Eğitmen modu oluşturma CreateLearnerMode Liste: tek parametreli parametre aralığı| Gerekli Tek parametre Gelişmiş Learner seçenekleri oluşturma
Ağaç sayısı Tamsayı Mode: Single parametresi 100 Oluşturulacak ağaç sayısını belirtin
Yaprakları sayısı Tamsayı Mode: Single parametresi 20 Ağaç başına düşen en fazla yaprakları sayısını belirtin. Varsayılan sayı 20 ' dir
Yaprak oluşturmak için gereken en düşük eğitim örneği sayısı Tamsayı Mode: Single parametresi 10 Bir yaprak oluşturmak için gereken en düşük eğitim örneği sayısını gösterir
İlişkilendirme kesri Float Mode: Single parametresi 0.7 Her ağaç için kullanılacak eğitim verilerinin kesirlerini belirtir
Özellik kesri Float Mode: Single parametresi 0.7 Her ağaç için kullanılmak üzere özelliklerin (rastgele seçilen) kesirini belirtir
Kesri Böl Float Mode: Single parametresi 0.7 Her bölme için kullanılmak üzere özelliklerin (rastgele seçilen) kesirini belirtir
Quantile örnek sayısı Tamsayı En fazla: 2147483647 Mode: Single parametresi 100 Her düğümde, maliyetlerini tahmin etmek için kullanılan örneklerin sayısını belirtir
Tahmin edilecek quantiles Dize Mode: Single parametresi "0,25; 0,5; 0.75" Tahmin edilecek quantile belirtir
Rastgele sayı çekirdek Tamsayı İsteğe Bağlı Model tarafından kullanılan rastgele sayı Oluşturucu için bir çekirdek sağlayın. Varsayılan için boş bırakın.
Bilinmeyen kategorik düzeylerine izin ver Boole Gerekli true Doğru ise, her kategorik sütun için ek bir düzey oluşturun. Test veri kümesindeki düzeyler eğitim veri kümesinde kullanılamıyor bu ek düzeye eşlenir.
Ağaç başına en fazla yaprakları ParameterRangeSettings [16; 128] Mode: parametre aralığı k 32; 64 Ağaç başına izin verilen en fazla bırakımı sayısı için Aralık belirtin
Oluşturulan ağaç sayısı ParameterRangeSettings [1; 256] Mode: parametre aralığı k 32; 64 Eğitim sırasında oluşturulabilecek maksimum ağaç sayısı için aralığı belirtin
Yaprak düğüm başına minimum örnek sayısı ParameterRangeSettings [1; 10] Mode: parametre aralığı 1 e ( Bir yaprak oluşturmak için gereken minimum servis talebi sayısı aralığını belirtin
Bagging kesri aralığı ParameterRangeSettings [0,25; 1.0] Mode: parametre aralığı 0,25; 0,5; 0,75 Her ağaç için kullanılacak eğitim verilerinin kesri aralığını belirtir
Özellik kesri aralığı ParameterRangeSettings [0,25; 1.0] Mode: parametre aralığı 0,25; 0,5; 0,75 Her ağaç için kullanılmak üzere özelliklerin kesiri aralığını belirtir (rastgele seçilir)
Bölünen kesir aralığı ParameterRangeSettings [0,25; 1.0] Mode: parametre aralığı 0,25; 0,5; 0,75 Her bölme için kullanılacak özelliklerin (rastgele seçilen) kesiri aralığını belirtir
Quantiles 'i tahmin etmek için kullanılan örnek sayısı Tamsayı Mode: parametre aralığı 100 Quantiles 'i tahmin etmek için kullanılan örnek sayısı
Gerekli quantile değerleri Dize Mode: parametre aralığı "0,25; 0,5; 0.75" Parametre tarama sırasında gerekli olan quantile değeri

Çıkışlar

Ad Tür Description
Eğitilen model ILearner arabirimi Tren genel modeline veya çapraz Validate model modüllerine bağlı olabilecek, eğitilen bir quantile bir gerileme modeli.

Ayrıca bkz.

Regresyon