Share via


Özellik seçimi'veri madenciliği

Özellik seçimi herhangi bir veri madenciliği ürünü için bir gerekliliktir.Bir veri ne zaman yaparsınız? çünkü olan araştırma modeli, dataset sık modelini oluşturmak için gerekli olandan daha fazla bilgi içerir.Örneğin, bir DataSet'i customers özelliklerini açıklamak 500 sütunlar içerebilir, ancak belki de bu sütun yalnızca 50 belirli bir modeli oluşturmak için kullanılan.Modeli oluşturulurken gereksiz sütunları tutmak, daha fazla cpu ve bellek eğitim sürecinde gerekli olan ve tamamlanmış modeli için daha fazla depolama alanı gereklidir.

Kaynaklar bir sorun olmasa bile, genellikle keşfedilen desenleri, kalitesi aşağıdaki nedenlerle düşmesine çünkü gereksiz sütunları kaldırmak istediğiniz:

  • Bazı sütunlar, gürültülü veya yedek.Bu parazit, verilerden anlamlı desenleri bulmasını zorlaştırır;

  • Kalite desenleri bulmak için çoğu veri madenciliği algoritmaları çok daha büyük gerektiren eğitim verileri küme yüksek boyutlu veri küme üzerinde.Ancak eğitim veri bazı veri madenciliği uygulamalarında çok küçük.

Özellik seçimi yardımcı olur, çok az değer ya da yüksek değeri çok az veri sahip olmanın çok fazla veri kalmadan bu sorunu çözdü.

Analysis Services veri madenciliği, özellik seçimi

Genel olarak, özellik seçimi her öznitelik için bir puan hesaplama ve en iyi Skorlar olan öznitelikleri'ı seçerek çalışır.Üst skorları için eşik ayarlayabilirsiniz.Özellik seçimi, model, modelinde kullanılma olasılığı en yüksek olan bir dataset nesnesindeki öznitelikleri otomatik olarak seçmek için eğitilmiş önce her zaman yapılır.

Analysis Services birden çok özellik seçimi yöntemleri sağlar.En yüksek değeri olan öznitelikleri seçme yöntem model ve oluşabilecek herhangi bir parametre kullanılan algoritma bağlıdır küme model üzerinde.Özellik seçimi girişleri, öngörülebilir öznitelikleri veya bir sütun durumları için uygulanır.Yalnızca özniteliklerde ve algoritma seçer durumları modeli oluşturma işlemine dahil edilir ve tahmin için kullanılan.Özellik seçimi dikkate öngörülebilir sütunlar için tahmin kullanılır ancak Öngörüler modelinde mevcut genel istatistikleri dayanır.

Not

Özellik seçimi modelinde kullanılan sütunlar etkiler ve depolama araştırma yapısı üzerinde hiçbir etkisi yoktur.Araştırma modeli bırakın sütunları yapısı içinde kullanılabilir durumdadır ve araştırma yapısı sütunlardaki verileri önbelleğe alınır.

Özellik seçimi yöntemleri tanımı

Birlikte çalıştığınız veri ve analiz için seçtiğiniz algoritma türüne bağlı özellik seçimi uygulamak için birçok yol vardır.sql Server Analysis Services öznitelikleri Skor birkaç popüler ve tanınmış yöntemleri sağlar.Herhangi bir algoritma veya veri küme içinde uygulanan yöntem, veri türleri ve sütun kullanım bağlıdır.

The interestingness score is used to rank and sort attributes in columns that contain nonbinary continuous numeric data.

Kesikli ve discretized veri içeren sütunlar için aralarından seçim yapabileceğiniz Shannon'ın entropi ve iki Bayesian puanlar; Ancak, model sürekli sütunlar içeriyorsa, interestingness puanı tutarlılığı sağlamak için tüm giriş sütunları değerlendirmek için kullanılır.

Bu bölümde, her özellik seçimi yöntem açıklanmaktadır.

İnterestingness puanı

Bazı yararlı bilgiyi bildirir, ilginç bir özellik.Ne yararlı olduğunu gösteren tanım senaryoya göre değiştiğinden, veri madenciliği endüstri için çeşitli şekillerde geliştirmiştir ölçü interestingness.Örneğin, novelty outlier algılama, ancak yeteneği yakından ilişkili öğeler arasında ayırt etmek için ilginç olabilir veya discriminating Ağırlık, sınıflandırma için daha ilginç olabilir.

sql Server Analysis Services'daki kullanılan interestingness ölçü entropi tabanlı, öznitelikler rasgele dağıtımları ile daha yüksek entropi ve alt bilgi kazanmak; olması anlamına gelir. Bu nedenle, bu tür öznitelikleri daha az ilginç.Entropi herhangi belirli bir öznitelik için diğer öznitelikleri entropi gibi karşılaştırılır:

Interestingness(attribute) =-(m - Entropy(Attribute)) * (m - Entropy(Attribute))

Merkezi entropi veya m, tüm özellik, entropi anlamına gelir küme.Entropi, çıkarılarak tarafından hedef özniteliği öznitelik sağlar ne kadar bilgi merkezi entropi değerlendirebilirsiniz.

Varsayılan olarak kullanılan bu puanı her sütun süreklilik sürekli sayısal veriler içerir.

Shannon'ın entropi

Shannon'ın entropi bir rasgele değişken için belirli bir sonuca belirsizliğini ölçer.Örneğin, bir para kurtul, entropi, kafaları gelmeye olasılığının bir işlev olarak temsil edilebilir.

Analysis Services Shannon'ın entropi hesaplamak için aşağıdaki formülü kullanır:

h(x) = ∑ - P(xi) log(P(xi))

Bu skor yöntem kesikli ve discretized öznitelikleri için kullanılabilir.

k2 önceki ile Bayesian

Analysis Services Bayesian ağlar üzerinde temel alan iki özellik seçimi puanları sağlar.Bayesian ağı bir yöneltilen veya acyclic grafik durumları arasında geçişler ve bildiren, bazı durumlar her zaman geçerli durumu önce olan, bazı durumları posterior ve grafik mu yani değil yinelemek veya döngü.Tanım gereği Bayesian ağlar önceden bilgi kullanılsın.Ancak, sonraki durumları bir olasılıklar hesaplamada kullanmak için hangi önceki durum soru algoritma tasarımı, performansı ve doğruluk için önemlidir.

Bayesian ağ öğrenme k2 algoritması Cooper ve Herskovits tarafından geliştirilmiştir ve veri madenciliği de sık sık kullanılır.Ölçeklenebilir ve çok sayıda değişken analiz edebilirsiniz ancak girdi olarak kullanılan değişkenler üzerinde sipariş gerektirir.Daha fazla bilgi için bkz: Öğrenme Bayesian ağlar Chickering, Geiger ve Heckerman.

Bu skor yöntem kesikli ve discretized öznitelikleri için kullanılabilir.

Tekdüzen önceki ile Bayesian Dirichlet eşdeğeri

Bayesian Dirichlet eşdeğer (bde) Skor Bayesian analiz bir dataset verilen ağ değerlendirmek için de kullanır.Skor yöntem bde Heckerman tarafından geliştirilmiştir ve Cooper ve Herskovits tarafından geliştirilen bd ölçüsüne bağlıdır.Dirichlet dağılımı da ağdaki her değişkenin koşullu olasılık açıklar ve öğrenme için yararlı birçok özelliklere sahip bir ÇOKTERİMLİ dağılım bilinir.

Bayesian Dirichlet eşdeğer Tekdüzen önceki (bdeu) yöntem ile özel bir durum Dirichlet dağılımı, matematik sabiti, sabit veya Tekdüzen önceki durumları dağıtımını oluşturmak için kullanılır, varsayar.bde puanı da eşdeğer yapıları ayırt etmek için veri bekleniyor olamaz anlamına gelir olasılığını eşdeğerlik varsayar.Başka bir deyişle, skoru a sonra b skoru ile aynı , b sonra ayapıları verilere göre ayırt edemez ve causation olamaz sonuçlandı.

Bayesian ağlar ve uygulaması, bu Skor yöntemleri hakkında daha fazla bilgi için bkz: Öğrenme Bayesian ağlar.

Özellik seçimi Analysis Services algoritmaları tarafından kullanılan yöntemler

Aşağıdaki tablo özellik seçimi destekler algoritmaları kullanılan algoritma ve özellik seçimi davranışını denetlemek için ayarladığınız parametreleri özellik seçimi yöntemleri listeler:

Algoritma

Analiz yöntemi

Açıklamalar

Önbelleğin Bayes

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Microsoft Naïve Bayes algoritması öznitelikleri yalnızca kesikli veya discretized kabul eder; Bu nedenle, interestingness puanı kullanamazsınız.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Naive Bayes algoritması Teknik Başvurusu.

Karar ağaçları

İnterestingness puanı

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Tüm sütunları ikili olmayan sürekli değer içermiyorsa, interestingness puanı tutarlılığı sağlamak için tüm sütunlar için kullanılır.Aksi halde, varsayılan özellik seçimi yöntemi kullanılır, ya da modeli oluşturulurken belirtilen yöntem.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft karar ağaçlar algoritması Teknik Başvurusu.

Neural ağ

İnterestingness puanı

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Microsoft Neural ağları algoritması, verileri sürekli sütunları içeren sürece her iki yöntem kullanabilirsiniz.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Neural ağ algoritması Teknik Başvurusu.

Logistic regresyon

İnterestingness puanı

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Microsoft Logistic regresyon algoritması Microsoft Neural ağ algoritması dayanmasına rağmen özellik seçimi davranışını denetlemek için logistic regresyon modeli özelleştirme yapılamaz; Bu nedenle, seçim özellik öznitelik için en uygun yöntem için her zaman varsayılan.

Tüm öznitelikleri kesikli veya discretized, bdeu varsayılandır.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Logistic regresyon algoritması Teknik Başvurusu.

Kümeleme

İnterestingness puanı

Microsoft Kümeleme algoritması, kesikli veya discretized veri kullanabilir.Ancak, interestingness puanı puanı her öznitelik bir mesafe hesaplanır ve sürekli bir sayı gösterilir, çünkü kullanılmalıdır.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Kümeleme algoritması Teknik Başvurusu.

Doğrusal regresyon

İnterestingness puanı

Sadece sürekli sütunları desteklediğinden Microsoft doğrusal regresyon algoritması, interestingness puanı yalnızca kullanabilirsiniz.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft doğrusal regresyon algoritması Teknik Başvurusu.

İlişkilendirme kuralları

Kümeleme sırası

Kullanılmıyor

Özellik seçimi bu algoritmalar ile çağrılır.

Ancak, algoritma davranışını denetlemek ve MINIMUM_SUPPORT ve MINIMUM_PROBABILIITY parametreleri değeri ayarlayarak gerekirse giriş veri boyutunu azaltın.

Daha fazla bilgi için bkz: Microsoft ilişkilendirme algoritması Teknik Başvurusu ve Microsoft Teknik Başvurusu algoritması kümeleme sırası.

Zaman serisi

Kullanılmıyor

Özellik seçimi saat serisi modeller için geçerli değildir.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft zaman Series algoritması Teknik Başvurusu.

Özellik seçimi davranışını denetlemek

Özellik seçimi aşağıdaki parametreleri kullanarak açık olduğunda, özellik seçimi destekler algoritmaları denetleyebilirsiniz.İzin girdileri sayısı için varsayılan bir değer her algoritması vardır ve bu varsayılanı geçersiz kılar ve öznitelik sayısını belirtin.

MAXIMUM_INPUT_ATTRIBUTES

Bir modeli belirtilen sayıdan daha fazla sütun içeriyorsa, MAXIMUM_INPUT_ATTRIBUTES parametresi, algoritma, uninteresting için hesaplar sütunları yoksayar.

MAXIMUM_OUTPUT_ATTRIBUTES

Benzer şekilde, bir modeli belirtilen sayıdan daha öngörülebilir sütunlar içeriyorsa, MAXIMUM_OUTPUT_ATTRIBUTES parametresi, algoritma, uninteresting için hesaplar sütunları yoksayar.

MAXIMUM_STATES

Bir modeli içinde belirtilen çok daha fazla servis taleplerini içerir, MAXIMUM_STATES parametresi, en az popüler durumları gruplanmış ve eksik olarak işlem görür.Bu parametrelerden biri ise küme 0, özellik seçimi işlem saat ve performansı etkileyen devre dışı bırakılır.