Azure Machine Learning Studio (klasik) içinde örnek veri kümelerini kullanma

Uygulama hedefi:  İçin geçerlidir. Machine Learning Studio (klasik)  için geçerlidir. Azure Machine Learning

Azure Machine Learning Studio (klasik) içinde yeni bir çalışma alanı oluşturduğunuzda, varsayılan olarak bir dizi örnek veri kümesi ve denemeleri eklenir. Bu örnek veri kümelerinin birçoğu Azure yapay zeka Galerisiörnek modeller tarafından kullanılır. Diğer bir deyişle, makine öğreniminde genellikle kullanılan çeşitli veri türlerine örnek olarak dahildir.

Bu veri kümelerinden bazıları Azure Blob depolama alanında kullanılabilir. Bu veri kümeleri için, aşağıdaki tablo doğrudan bir bağlantı sağlar. Bu veri kümelerini, verileri Içeri aktarma modülünü kullanarak denemeleri uygulamanızda kullanabilirsiniz.

Bu örnek veri kümelerinin geri kalanı, kayıtlı veri kümeleri altında çalışma alanınızda bulunur. Bunu, Machine Learning Studio (klasik) ' de deneme tuvalinin solunda bulunan modül paletinde bulabilirsiniz. Deneme Tuvalinize sürükleyerek bu veri kümelerinden herhangi birini kendi denemenize göre kullanabilirsiniz.

Veri kümeleri

Veri kümesi adı Veri kümesi açıklaması
Yetişkin Census geliri Ikili sınıflandırma veri kümesi > 100 ' nin ayarlanmış bir gelir dizini ile 16 yaşın üzerinde çalışan yetişkinler kullanılarak 1994 Census veritabanının bir alt kümesi.

Kullanım: Bir kişinin 50 bin üzerinde bir yıl boyunca mi olduğunu tahmin etmek için demografik kullanan kişileri sınıflandırın.

Ilgili araştırma: Kohavi, R., Becker, B., (1996). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Havaalanı kodları veri kümesi ABD Havaalanı kodları.

Bu veri kümesi her bir ABD Havaalanı için bir satır içerir. Bu, Havaalanı KIMLIK numarası ve adı şehir ve eyalet ile birlikte sağlar.
Otomobil fiyat verileri (ham) , Bir sigorta riski puanı ve bu fiyat dahil olmak üzere, marka ve model bazında otomobil hakkında bilgiler.

Risk puanı başlangıçta otomatik fiyatla ilişkilendirilir. Daha sonra, söz konusu bir işlemdeki bir işlem için, symboling olarak bilinen bir işlemde gerçek risk için ayarlanır. + 3 değeri, otomatik olarak riskli olduğunu ve büyük olasılıkla güvenli olduğunu belirten-3 değerini gösterir.

Kullanım: Gerileme veya çok sayıda sınıflandırma kullanarak, özellik ile risk Puanını tahmin edin.

Ilgili araştırma: Schliyoya, J.C. (1987). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Bisiklet Kiralama UCı veri kümesi Washington DC 'de Bisiklet Kiralama ağını tutan büyük Bıkespaylaşma şirketinin gerçek verilerine dayanan UCı Bisiklet Kiralama veri kümesi.

Veri kümesinde, toplam 17.379 satır için her günün her bir saati için bir satır (2011 ve 2012) bulunur. Saatlik Bisiklet salonları aralığı 1 ile 977 arasındadır.
Bill Gates RGB resmi Genel olarak kullanılabilir görüntü dosyası CSV verilerine dönüştürüldü.

Görüntüyü dönüştürme kodu, K-bit kümeleme modeli ayrıntısı kullanılarak renk satışlarının bir yolu olarak sağlanır.
Kan bağış verileri Hsin-Chu City, Tayvan, kanlı bir hizmet merkezinin kan bağış yapan veritabanından alınan verilerin bir alt kümesi.

Bağış yapan veriler, son bağandan itibaren ayları, sıklığı veya toplam bağış sayısını, son bağandan itibaren geçen süreyi ve kanlı miktarı içerir.

Kullanım: Amaç, bir sınıflandırmanın 2007 Mart 'ta mi yoksa, 1 ' de hedef dönemde bir bağış yapana ve 0 ' ın bir bağış yapana sahip olup olmadığını sınıflandırma aracılığıyla tahmin etmek için kullanılır.

Ilgili araştırma: Yeh, I.C., (2008). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi

Yeh, I-Cheng, Yang, King-ocg ve dişli, Tao-Tatçi, "System ile uzman sistemleri, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Breakst kanseri verileri Makine öğrenimi belgelerinde sık görülen, Onkolombiya gy ile ilgili üç veri kümelerinden biri. Tanılama bilgilerini yaklaşık 300 dokulu örnek için laboratuvar analizinden özelliklerle birleştirir.

Kullanım: , Bazıları doğrusal ve bazıları kategorik olan 9 özniteliğe göre Cancer türünü sınıflandırın.

Ilgili araştırma: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Breakst Cancer özellikleri Veri kümesi, her biri 117 özellik tarafından tanımlanan, 10. Özellikler özeldir ve anlamları veri kümesi oluşturucuları (Siemens sağlık) tarafından ortaya çıkarmaz.
Breakst Cancer bilgileri Veri kümesi, X-Ray görüntüsünün her şüpheli bölgesi için ek bilgiler içerir. Her örnek, Breakst Cancer özellikleri veri kümesindeki karşılık gelen satır numarası hakkında bilgi (örneğin, etiket, hasta ID, tüm görüntüye göre düzeltme eki koordinatları) sağlar. Her hasta birkaç örnek içerir. Cancer olan hastalar için bazı örnekler pozitif ve bazıları negatiftir. Cancer olmayan hastalar için tüm örnekler negatiftir. Veri kümesinde 102K örnekleri bulunur. Veri kümesi taraflı, noktaların% 0,6 ' i pozitif, geri kalanı negatif. Veri kümesi Siemens sağlık hizmeti tarafından kullanılabilir hale getirilir.
CRM uygulama paylaşılan etiketleri KDD Fin2009 müşteri ilişkisi tahmin sınamasına ait Etiketler (orange_small_train_appetency. Etiketler).
Paylaşılan CRM dalgalanması etiketleri KDD Fin2009 müşteri ilişkisi tahmin sınamasına ait Etiketler (orange_small_train_churn. Etiketler).
CRM veri kümesi paylaşıldı Bu veriler, KDD Fin2009 müşteri ilişkisi tahmin Challenge (orange_small_train.data.zip) ' den gelir.

Veri kümesi, Fransız telekomünikasyon şirketi turuncu 'dan 50K müşterileri içerir. Her müşterinin 230 anonim özelliği vardır, bunlar sayısal ve 40 kategorik olan 190 ' dir. Özellikler çok seyrek.
Paylaşılan CRM satış etiketleri KDD Fin2009 müşteri ilişkisi tahmin sınamasına ait Etiketler (orange_large_train_upselling. Etiketler).
Gerileme verileri Energy-Efficiency 12 farklı bina şekline dayanan bir sanal enerji profilleri koleksiyonu. Binalar sekiz özelliğe göre farklılaştırılabilir. Bu, GLA, alan dağıtımını ve yönlendirmeyi içerir.

Kullanım: İki gerçek değerli yanıtlardan biri olarak enerji verimliliği derecelendirmesini tahmin etmek için regresyon veya sınıflandırma kullanın. Çok sınıf sınıflandırması için, yanıt değişkenini en yakın tamsayıya yuvarlar.

Ilgili araştırma: Xifara, A. & Tsanas, A. (2012). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Uçuş gecikmeleri verileri Passenger, ABD 'nin ulaşım bölümünün (zamanında) geçiş Bakanlığı veri koleksiyonundan alınan zaman içindeki performans verilerini alır.

Veri kümesi 2013 April-October zaman dilimini kapsamaktadır. Azure Machine Learning Studio (klasik) yüklenmeden önce veri kümesi şu şekilde işlenir:
  • Veri kümesi, kıst ABD 'de yalnızca 70 ortalamanızı havaalanları kapsayacak şekilde filtrelenmiştir
  • İptal edilen fışıkları 15 dakikadan uzun bir süre gecikti olarak etiketlendi
  • Ayrılan fışıkların ölçeği filtrelendi
  • Şu sütunlar seçildi: Year, month, DayofMonth, DayOfWeek, taşıyıcı, Originairportıd, Destairportıd, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Iptal edildi
Uçuş süresi performansı (ham) Uçak kayıt kayıtları, 2011 Ekim ayının Birleşik Devletler dahilinde.

Kullanım: Uçuş gecikmelerini tahmin edin.

Ilgili araştırma: , ABD https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time 'Den taşıma.
Orman verileri tetikleyen Sıcaklık ve nem dizini ve rüzgar hızı gibi hava durumu verilerini içerir. Veriler, Kuzey Doğu Portekiz 'nin bir alanından alınır ve ormanın kayıtlarıyla birleştirilir.

Kullanım: Bu zor bir gerileme görevidir ve bu, hedefin, ormanın yazılan alanını tahmin etmek için tasarlanmıştır.

Ilgili araştırma: Cortez, P. & moraa, A. (2008). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi

[Cortez ve morao, 2007] P. Cortez ve. Morasıs. Bir veri araştırma yaklaşımı, türüdür verisi kullanılarak ateşlenir. J. netes, a. F. Santos ve J. ve ADO eds., yapay zeka 'daki yeni eğilimler, 6. EPıA 2007-yapay zeka 'daki Portekizce Konferansı, Aralık, Guimarães, Portekiz, PP. 512-523, 2007. APPIA, ıSBN-13 978-989-95618-0-9. Şurada bulunabilir: http://www.dsi.uminho.pt/~pcortez/fires.pdf .
Alman kredi kartı UCı veri kümesi Alman. Data dosyasını kullanarak UCı Statgünlüğü (Almanya kredi kartı) veri kümesi (Statlog + Almanya + kredi + veri).

Veri kümesi, bir öznitelik kümesiyle tanımlanan kişileri, düşük veya yüksek kredi riskleri olarak sınıflandırır. Her örnek bir kişiyi temsil eder. Hem sayısal hem de kategorik ve bir ikili etiketi (kredi risk değeri) 20 özellik vardır. Yüksek kredi risk girişlerinde etiket = 2, düşük kredi risk girişlerinde etiket = 1 vardır. Düşük riskli bir örneği yüksek olarak sınıflandırın maliyeti 1 ' dir, ancak yüksek riskli örnek 5 ' i yanlış sınıflandırma maliyeti 5 ' tir.
IMDB film başlıkları Veri kümesi Twitter 'da derecelendirilen filmler hakkında bilgiler içerir: ıMDB film KIMLIĞI, film adı, tarz ve üretim yılı. Veri kümesinde 17K filmler vardır. Veri kümesi "S" kağıdına tanıtılmıştı. Çizeneler, T. de Pessemier ve L. Maronlar. MovieTweetings: Twitter 'Dan toplanan bir film derecelendirmesi veri kümesi. Öneren sistemleri için Crowdsour, ve ınsan hesaplamasında Workshop, RecSys 2013. "
Iris iki sınıf verisi Bu, büyük olasılıkla, model tanıma belgelerinde bulunan en iyi bilinen veritabanıdır. Veri kümesi görece küçüktür, bu da üç Iris tarafından bulunan her türlü Petal ölçümünden 50 örnek içerir.

Kullanım: Iris türünü ölçülerden tahmin edin.

Ilgili araştırma: Fisher, R.A. (1988). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Film arası Veri kümesi, film arası doldurulabilir veri kümesinin genişletilmiş bir sürümüdür. Veri kümesi, filmler için 170K derecelendirmesine sahiptir ve Twitter 'daki iyi yapılandırılmış ara kaynaklardan ayıklanır. Her örnek bir tweet temsil eder ve bir tanımlama grubu: Kullanıcı KIMLIĞI, ıMDB film KIMLIĞI, derecelendirme, zaman damgası, bu tweet için sık kullanılanlar sayısı ve bu tweet yeniden dengelendirme sayısı. DataSet, öneren Systems Challenge 2014 için bir. diyor, S. Çizms, B. Loni ve D. Tikk tarafından kullanılabilir hale getirilir.
Çeşitli otomobil 'leri için MPG verileri Bu veri kümesi, Carnegie Mellon University 'in StatLib kitaplığı tarafından sağlanmış olan veri kümesinin kısmen değiştirilmiş bir sürümüdür. Veri kümesi 1983 American Istatistiksel Ilişki Exposition 'da kullanıldı.

Veriler, her galon için mil cinsinden çeşitli otomobil 'leri için yakıt tüketimini listeler. Ayrıca, silindir sayısı, motor öteleme, horseüs, toplam ağırlık ve hızlandırma gibi bilgileri de içerir.

Kullanım: Üç değerli farklı özniteliğe ve beş sürekli özniteliğe göre yakıt ekonomisi tahmin edin.

Ilgili araştırma: StatLib, Carnegie Mellon University, (1993). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Pima Indians diabetes Ikili sınıflandırma veri kümesi Ulusal şekilde diabetes ve digestive ve Kidney Dimevsimses veritabanı veri kümesi. Veri kümesi Pima Hint mirasın kadın hastalarını odaklanmak üzere filtrelenmiştir. Veriler, düzeylerdeki ve yaşam stili faktörlerinin yanı sıra, Levels gibi tıbbi verileri içerir.

Kullanım: Konunun diabtes (ikili sınıflandırma) olup olmadığını tahmin edin.

Ilgili araştırma: Sigilto, V. (1990). UCı Machine Learning deposu https://archive.ics.uci.edu/ml ". Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi
Restoran müşteri verileri Demografik ve Tercihler dahil olmak üzere müşteriler hakkında bir meta veri kümesi.

Kullanım: Bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanarak bir öneren sistemi eğitme ve test edin.

Ilgili araştırma: Bache, K. ve Lichman, M. (2013). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi.
Restoran özellik verileri Restoran ve bunların özellikleri (yiyecek türü, dinleme stili ve konum gibi) için bir meta veri kümesi.

Kullanım: Bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanarak bir öneren sistemi eğitme ve test edin.

Ilgili araştırma: Bache, K. ve Lichman, M. (2013). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi.
Restoran derecelendirmeleri Kullanıcılar tarafından, 0 ' dan 2 ' ye kadar bir ölçeğe göre restoranlar için verilen derecelendirmeleri içerir.

Kullanım: Bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanarak bir öneren sistemi eğitme ve test edin.

Ilgili araştırma: Bache, K. ve Lichman, M. (2013). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi.
Çelik benzetilmiş çok sınıflı veri kümesi Bu veri kümesi, çelik benzetilmiş denemelerinden bir dizi kayıt içerir. Bu, ortaya çıkan çelik türlerin fiziksel özniteliklerini (Width, kalınlığı, Type (bobin, sheet, vb.) içerir.

Kullanım: İki sayısal Sınıf özniteliği tahmin edin; sertlik veya güç. Ayrıca, öznitelikler arasında bağıntıları analiz edebilirsiniz.

Çelik dereceleri, SAE ve diğer kuruluşlar tarafından tanımlanan bir küme standardını izler. Belirli bir ' sınıf ' (sınıf değişkeni) arıyor ve gereken değerleri anlamak istiyorsunuz.

Ilgili araştırma: Sterling, D. & Buntine, W. (NA). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu ve bilgisayar bilimi

Bir çelik için faydalı bir kılavuza buradan ulaşabilirsiniz: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Telescope verileri Hem bir Monte Carlo işlemi kullanılarak hem de benzetilen yüksek enerji gama parçacık, arka plan gürültüsünü ile birlikte kayıt.

Benzetim amacı, taban tabanlı atmosfer Cherenkov gama Telescopes doğruluğunu geliştirmesiydi. Bu işlem, istenen sinyal (Cherenkov Radiation showers) ve arka plan gürültüsü (hadronic showers tarafından başlatılan ve üst atmoson küredeki cosmik ışınları) arasında ayrım yapmak için istatistiksel yöntemler kullanılarak yapılır.

Veriler, kamera merkezine yönlendirilmekte olan uzun eksen ile bir elongeçişli küme oluşturmak için önceden işlenir. Bu elipsin özellikleri (genellikle Teplas parametreleri olarak adlandırılır), ayırt edici için kullanılabilecek görüntü parametrelerinin arasındadır.

Kullanım: Bir hediyeleri partisi görüntüsünün sinyal veya arka plan paraziti temsil ettiğini tahmin edin.

Notlar: Bir arka plan olayını sinyal olarak sınıflandırırken bir sinyal olayını arka plan olarak sınıflandırmadan daha kötü olduğundan, bu veriler için basit sınıflandırma doğruluğu anlamlı değildir. Farklı sınıflandırıcımaların karşılaştırılması için ROC grafiğinin kullanılması gerekir. Bir arka plan olayını sinyal olarak kabul etmenin olasılığı Şu eşiklerden birinin altında olmalıdır: 0,01, 0,02, 0,05, 0,1 veya 0,2.

Ayrıca, arka plan olayı sayısının (hadronic showers için h) yeterince tahmin edilir olduğunu unutmayın. Gerçek ölçümlerde h veya gürültü sınıfı olayların çoğunu temsil eder.

Ilgili araştırma: Bock, R.K. (1995). UCı Machine Learning deposu https://archive.ics.uci.edu/ml . Irvine, CA: California Üniversitesi, bilgi Okulu
Hava durumu veri kümesi NOAA 'den saatlik Land tabanlı hava durumu gözlemlerini (201304 ile 201310 arasında Birleşik veriler).

Hava durumu verileri, April-October 2013 zaman dilimini kapsayan Havaalanı hava durumu istasyonlarından gerçekleştirilen gözlemleri kapsamaktadır. Azure Machine Learning Studio (klasik) yüklenmeden önce veri kümesi şu şekilde işlenir:
  • Hava durumu istasyonu kimlikleri ilgili Havaalanı kimliklerine eşlendi
  • 70 ortalamanızı Havaalanı ile ilişkilendirilmemiş Hava durumu istasyonları filtrelendi
  • Tarih sütunu ayrı yıl, ay ve gün sütunlarına bölündü
  • Şu sütunlar seçildi: Airportıd, Year, ay, gün, saat, saat dilimi, ufuk koşulu, görünürlük, dalgalı Thertype, DryBulbFarenheit, Dronblik, WetBulbFarenheit, Wetbulbgrat, DewPointFarenheit, Dewpointsanti, Relativenem, WIN,,,.
Vikipedi SP 500 veri kümesi Veriler https://www.wikipedia.org/ , XML verileri olarak depolanan her bir S&P 500 şirketinin makalelerine bağlı olarak Vikipden () türetilir.

Azure Machine Learning Studio (klasik) yüklenmeden önce veri kümesi şu şekilde işlenir:
  • Belirli bir şirkete ait metin içeriğini Ayıkla
  • Wiki biçimlendirmesini kaldır
  • Alfasayısal olmayan karakterleri kaldır
  • Tüm metni küçük harfe Dönüştür
  • Bilinen şirket kategorileri eklendi

Bazı şirketlerde bir makalenin bulunamadığını, bu nedenle kayıt sayısının 500 ' den küçük olduğunu unutmayın.
direct_marketing.csv Veri kümesi, müşteri verileri ve doğrudan posta kampanyasına olan yanıtları hakkında göstergeler içerir. Her satır bir müşteriyi temsil eder. Veri kümesi, Kullanıcı demografları ve geçmiş davranışı ve üç etiket sütunu (ziyaret, dönüştürme ve harcamayı) hakkında dokuz özellik içerir. Web sitesini ziyaret eden bir müşterinin pazarlama kampanyadan sonra ziyaret edildiğini gösteren bir ikili sütundur. Dönüştürme bir müşterinin bir şeyi satın aldığını gösterir. Harcama, harcanan tutardır. Veri kümesi, Minetatdata e-posta Analizi ve veri araştırma sınaması için Kevin Teplstrom tarafından kullanılabilir hale getirilir.
lyrl2004_tokens_test.csv RCV1-v2 Rebilgisayarlarda Haberler veri kümesindeki test örneklerinin özellikleri. Veri kümesinde, 50.000 1k haber makaleleri ve kimlikleri (veri kümesinin ilk sütunu) birlikte bulunur. Her makale simgeleştirilmiş, soluk ve stemmed 'dir. Veri kümesi David tarafından kullanılabilir hale getirilir. D. Lewis.
lyrl2004_tokens_train.csv RCV1-v2 yeniden bilgisayarları \ \ çalışanlar haber veri kümesindeki eğitim örneklerinin özellikleri. Veri kümesinde, kendi kimlikleri (veri kümesinin ilk sütunu) ile birlikte 23K haberleri makaleleri vardır. Her makale simgeleştirilmiş, soluk ve stemmed 'dir. Veri kümesi David tarafından kullanılabilir hale getirilir. D. Lewis.
network_intrusion_detection.csv
KDD Fin1999 bilgi bulma ve veri araştırma araçları yarışmasının (kddcup99.html) veri kümesi.

Veri kümesi, Azure Blob depolama (network_intrusion_detection.csv) ' de indirildi ve depolandı ve hem eğitim hem de test veri kümelerini içerir. Eğitim veri kümesinde, Etiketler dahil olmak üzere yaklaşık 126K satır ve 43 sütun vardır. Üç sütun etiket bilgisinin bir parçasıdır ve sayısal ve dize/kategorik özelliklerden oluşan 40 sütun, modeli eğitmek için kullanılabilir. Test verilerinde, eğitim verileriyle aynı 43 sütunlu, yaklaşık 22.5 K test örnekleri vardır.
rcv1-v2.topics.qrels.csv RCV1-v2 Rebilgisayarlarda Haberler veri kümesindeki haber makalelerine yönelik konu atamaları. Bir haber makalesi, birkaç konuya atanabilir. Her satırın biçimi " < Konu adı > < belge kimliği > 1" dir. Veri kümesi, 2.6/konu atamalarını içerir. Veri kümesi David tarafından kullanılabilir hale getirilir. D. Lewis.
student_performance.txt Bu veriler, KDD Fin2010 öğrenci performansı değerlendirme zorluğuyla (öğrenci performansı değerlendirmesi) gelir. Kullanılan veriler Algebra_2008_2009 eğitim kümesidir (Stamper, J., Niculescu-mizil, A., Riur, S., Gordon, G.J., & Koednik, K.R. (2010). Algeköşeli ı 2008-2009. KDD Fin2010 eğitim veri madenciliği zorluğuyla sınama veri kümesi. downloads.jsp'de bulun.

Veri kümesi, Azure Blob depolama (student_performance.txt) olarak indirildi ve depolandı ve bir öğrenci eğitim sisteminden günlük dosyaları içeriyor. Sağlanan özellikler sorun KIMLIĞI ve kısa açıklaması, öğrenci KIMLIĞI, zaman damgası ve sorunu doğru şekilde çözmeden önce kaç tane deneme yaptığını içerir. Özgün veri kümesinde 8.9 d kayıtları vardır; Bu veri kümesi, ilk 100K satırına örneklenir. Veri kümesinde, farklı türlerde 23 sekmeyle ayrılmış sütun vardır: sayısal, kategorik ve zaman damgası.

Sonraki adımlar