Použití ukázkových datových sad v nástroji Machine Learning Studio (classic)

PLATÍ PRO:Platí pro. Machine Learning Studio (classic) Se nevztahuje na.Azure Machine Learning

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Při vytváření nového pracovního prostoru v nástroji Machine Learning Studio (classic) je ve výchozím nastavení zahrnuta řada ukázkových datových sad a experimentů. Mnohé z těchto ukázkových datových sad používají ukázkové modely v galerii Azure AI. Další jsou zahrnuté jako příklady různých typů dat, které se obvykle používají ve strojovém učení.

Některé z těchto datových sad jsou k dispozici ve službě Azure Blob Storage. Pro tyto datové sady poskytuje následující tabulka přímý odkaz. Tyto datové sady můžete použít v experimentech pomocí modulu Importovat data .

Zbývající z těchto ukázkových datových sad jsou dostupné ve vašem pracovním prostoru v části Uložené datové sady. Tento postup najdete na paletě modulů vlevo od plátna experimentu v nástroji Machine Learning Studio (classic). Libovolnou z těchto datových sad můžete použít ve vlastním experimentu přetažením na plátno experimentu.

Datové sady

Název datové sady Popis datové sady
Datová sada binární klasifikace příjmu pro dospělé Podmnožina databáze census v roce 1994 využívající pracovní dospělé ve věku 16 let s upraveným indexem příjmů > 100.

Použití: Klasifikovat lidi pomocí demografických údajů, abyste předpověděli, jestli osoba získá více než 50 tisíc za rok.

Související výzkum: Kohavi, R., Becker, B., (1996). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Datová sada kódů letiště Kódy letiště USA.

Tato datová sada obsahuje jeden řádek pro každé letiště USA a poskytuje číslo ID a název letiště spolu s místem a státem.
Údaje o cenách automobilů (raw) Informace o automobilech podle značky a modelu, včetně ceny, funkcí, jako je počet válců a MPG, a také skóre rizika pojištění.

Skóre rizika je zpočátku spojeno s automatickou cenou. Pak se upraví pro skutečné riziko v procesu známém jako symboly. Hodnota +3 označuje, že auto je rizikové a hodnota -3, která je pravděpodobně bezpečná.

Použití: Predikce skóre rizika podle funkcí pomocí regrese nebo vícevariátové klasifikace

Související výzkum: Schlimmer, J.C. (1987). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Datová sada UCI pro pronájem kol Datová sada UCI Bike Rental, která je založená na skutečných datech od společnosti Capital Bikeshare, která udržuje síť pro pronájem kol ve Washington DC.

Datová sada má jeden řádek pro každou hodinu každého dne v roce 2011 a 2012 pro celkem 17 379 řádků. Rozsah hodinových půjčování kol je od 1 do 977.
Bill Gates RGB Image Veřejně dostupný soubor obrázku převedený na data CSV

Kód pro převod obrázku je k dispozici v kvantování barev pomocí stránky podrobností modelu clusteringu K-Means .
Údaje o darování krve Podmnožina dat z databáze dárců krve v Centru pro transfuzi krve Hsin-Chu City, Tchaj-wanu.

Údaje o dárcích zahrnují měsíce od posledního daru) a četnost nebo celkový počet darů, čas od posledního daru a množství darovaných krve.

Použití: Cílem je předpovědět prostřednictvím klasifikace, zda dárci darovali krev v březnu 2007, kde 1 indikuje dárci během cílového období a 0 nedůrci.

Související výzkum: Yeh, I.C., (2008). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang a Ting, Tao-Ming, "Zjišťování znalostí v modelu RFM pomocí Bernoulli sekvence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Data o rakovině prsu Jedna ze tří datových sad souvisejících s rakovinou poskytovaná onkologickým institutem, která se často objevuje v literaturě strojového učení. Kombinuje diagnostické informace s funkcemi z laboratorní analýzy asi 300 vzorků tkáně.

Použití: Klasifikujte typ rakoviny na základě 9 atributů, z nichž některé jsou lineární a některé jsou kategorické.

Související výzkum: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Funkce rakoviny prsu Datová sada obsahuje informace o podezřelých oblastech 102K (kandidáti) na x-ray obrázky, které jsou popsané 117 funkcemi. Funkce jsou proprietární a jejich význam není odhalen tvůrci datových sad (Siemens Healthcare).
Informace o rakovině prsu Datová sada obsahuje další informace pro každou podezřelou oblast x-ray obrázku. Každý příklad poskytuje informace (například popisek, ID pacienta, souřadnice opravy vzhledem k celému obrázku) o odpovídajícím čísle řádku v datové sadě Funkcí rakoviny prsu. Každý pacient má řadu příkladů. U pacientů s rakovinou jsou některé příklady pozitivní a některé jsou negativní. Pro pacienty, kteří nemají rakovinu, jsou všechny příklady negativní. Datová sada obsahuje 102K příkladů. Datová sada je zkreslená, 0,6 % bodů je pozitivní, zbytek je záporný. Datová sada byla zpřístupněna společností Siemens Healthcare.
Sdílené popisky appetency CRM Popisky z výzvy predikce vztahů zákazníků KDD Cup 2009 (orange_small_train_appetency.labels).
Sdílené popisky změn CRM Popisky z výzvy predikce vztahů zákazníka KDD Cup 2009 (orange_small_train_churn.labels).
Sdílená datová sada CRM Tato data pocházejí z výzvy predikce vztahů zákazníků KDD Cup 2009 (orange_small_train.data.zip).

Datová sada obsahuje 50 tisíc zákazníků z francouzské telekomunikační společnosti Orange. Každý zákazník má 230 anonymizovaných funkcí, z nichž 190 jsou číselné a 40 jsou kategorické. Funkce jsou velmi řídké.
Sdílené popisky upsellingu CRM Popisky z výzvy predikce vztahů zákazníka KDD Cup 2009 (orange_large_train_upselling.labels).
Energy-Efficiency regresní data Kolekce simulovaných energetických profilů na základě 12 různých obrazců budov. Budovy jsou odlišeny osmi funkcemi. Patří sem oblast glazování, distribuce oblasti glazování a orientace.

Použití: Pomocí regrese nebo klasifikace můžete předpovědět hodnocení energetické účinnosti na základě jedné ze dvou odpovědí skutečných hodnot. U klasifikace s více třídami je zaokrouhlená proměnná odpovědi na nejbližší celé číslo.

Související výzkum: Xifara, A. & Tsanas, A. (2012). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Data zpoždění letů Údaje o výkonu letu cestujících pořízené ze shromažďování dat TranStats amerického ministerstva dopravy (on-Time).

Datová sada pokrývá časové období April-October 2013. Před nahráním do nástroje Machine Learning Studio (Classic) se datová sada zpracovala takto:
  • Datová sada byla filtrována tak, aby pokrývala pouze 70 nejrušnějších letiští v kontinentální USA.
  • Zrušené lety byly označeny jako zpožděné o více než 15 minut.
  • Rozbíhající se lety byly odfiltrovány
  • Byly vybrány následující sloupce: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Výkon při letu v čase (Raw) Záznamy o příletech a odletech letů letadla v rámci USA od října 2011.

Použití: Predikce zpoždění letu

Související výzkum: Od amerického oddělení dopravy https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Data požárů doménové struktury Obsahuje data o počasí, jako jsou indexy teploty a vlhkosti a rychlost větru. Údaje pocházejí z oblasti severovýchodu Portugalska v kombinaci se záznamy lesních požárů.

Použití: Jedná se o obtížnou regresní úlohu, kde je cílem předpovědět spálenou oblast lesních požárů.

Související výzkum: Cortez, P., & Morais, A. (2008). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais, 2007] P. Cortez a A. Morais. Přístup k dolování dat k predikci lesních požárů pomocí meteorologických dat. V J. Neves, M. F. Santos a J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. K dispozici na adrese: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Datová sada UCI pro německou platební kartu Datová sada UCI Statlog (německá platební karta) (Statlog+German+Credit+Data) pomocí souboru german.data.

Datová sada klasifikuje osoby popsané sadou atributů jako nízká nebo vysoká úvěrové rizika. Každý příklad představuje osobu. Existuje 20 funkcí, číselných i kategorických a binárních popisků (hodnota úvěrového rizika). Položky s vysokým úvěrovém rizikem mají popisek = 2, položky nízkého úvěrového rizika mají popisek = 1. Náklady na špatně klasifikující příklad nízkého rizika jako vysoký je 1, zatímco náklady na nesprávnou klasifikaci vysoce rizikového příkladu jsou 5.
Názvy filmů IMDB Datová sada obsahuje informace o filmech, které byly hodnoceny na Twitteru tweety: ID filmu IMDB, název filmu, žánr a produkční rok. V datové sadě je 17 tisíc filmů. Datová sada byla zavedena v dokumentu "S. Dooms, T. De Pessemier a L. Martens. MovieTweetings: datová sada hodnocení filmů shromážděná z Twitteru. Workshop o Crowdsourcingu a human computation for Recommender Systems, CrowdRec at RecSys 2013."
Iris – data o dvou třídách To je možná nejznámější databáze, která se nachází v literaturě pro rozpoznávání vzorů. Datová sada je relativně malá, která obsahuje 50 příkladů každé z měření okvětních lístků ze tří odrůd iris.

Použití: Predikce typu duhovky z měření

Související výzkum: Fisher, R.A. (1988). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science
Video Tweety Datová sada je rozšířená verze datové sady Movie Tweetings. Datová sada má 170 tisíc hodnocení filmů extrahovaných z dobře strukturovaných tweetů na Twitteru. Každá instance představuje tweet a je řazenou kolekcí členů: ID uživatele, ID videa IMDB, hodnocení, časové razítko, počet oblíbených položek pro tento tweet a počet retweetů tohoto tweetu. Datovou sadu zpřístupnil A. Said, S. Dooms, B. Loni a D. Tikk for Recommender Systems Challenge 2014.
Data MPG pro různé automobily Tato datová sada je mírně upravená verze datové sady, kterou poskytuje knihovna StatLib univerzity Carnegieho Mellona. Datová sada byla použita v roce 1983 Americké statistické asociace expozice.

Data uvádějí spotřebu paliva pro různé automobily v mílích na galon. Obsahuje také informace, jako je počet válců, posunutí motoru, výkon koně, celková hmotnost a zrychlení.

Použití: Predikce úspory paliva na základě tří vícehodnotových diskrétních atributů a pěti spojitých atributů

Související výzkum: StatLib, Carnegie Mellon University, (1993). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science
Pima Indians Diabetes Binary Classification dataset Podmnožina dat z databáze National Institute of Diabetes and Digest and Ledvin. Datová sada byla filtrována tak, aby se zaměřila na ženské pacienty indického dědictví Pima. Data zahrnují lékařské údaje, jako jsou hladiny glukózy a inzulínu, a také faktory životního stylu.

Použití: Predikujte, zda má subjekt diabetes (binární klasifikaci).

Související výzkum: Sigillito, V. (1990). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI ". Irvine, CA: University of California, School of Information and Computer Science
Zákaznická data restaurace Sada metadat o zákaznících, včetně demografických údajů a předvoleb.

Použití: Tuto datovou sadu použijte v kombinaci s dalšími dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Data o funkcích restaurace Sada metadat o restauracích a jejich funkcích, jako je například typ jídla, styl stravování a poloha.

Použití: Tuto datovou sadu použijte v kombinaci s dalšími dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Hodnocení restaurace Obsahuje hodnocení od uživatelů do restaurací ve velkém měřítku od 0 do 2.

Použití: Tuto datovou sadu použijte v kombinaci s dalšími dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Ocelová žíhání datová sada s více třídami Tato datová sada obsahuje řadu záznamů ze zkušebních žíhání oceli. Obsahuje fyzické atributy (šířka, tloušťka, typ (cívka, list atd.) výsledných typů oceli.

Použití: Predikce libovolného ze dvou atributů číselné třídy; hardness or strength. Můžete také analyzovat korelace mezi atributy.

Ocelové známky se řídí nastaveným standardem definovaným SAE a dalšími organizacemi. Hledáte konkrétní známku (proměnnou třídy) a chcete porozumět potřebným hodnotám.

Související výzkum: Sterling, D. & Buntine, W. (NA). Úložiště https://archive.ics.uci.edu/mlstrojového učení UCI . Irvine, CA: University of California, School of Information and Computer Science

Užitečné vodítko ke známkám oceli najdete tady: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Data teleskopu Záznam vysokoenergetických shluků gama částic spolu s šumem na pozadí simulovanými pomocí procesu Monte Carlo.

Záměrem simulace bylo zlepšit přesnost atmosférických vesmírných černokovových gama teleskopů. To se provádí pomocí statistických metod k rozlišení požadovaného signálu (cherenkovské sprchy) a šumu na pozadí (hadronické sprchy iniciované vesmírnými paprsky v horní atmosférě).

Data byla předem zpracována tak, aby vytvořila prohloucený cluster s dlouhou osou, která je zaměřena na střed kamery. Charakteristiky těchto tří teček (často označované jako Parametry Hillas) jsou mezi parametry obrázku, které lze použít k diskriminaci.

Použití: Předpovědět, jestli obraz sprchy představuje signál nebo šum na pozadí.

Poznámky: Jednoduchá přesnost klasifikace pro tato data není smysluplná, protože klasifikace události na pozadí jako signál je horší než klasifikace události signálu jako pozadí. Pro porovnání různých klasifikátorů by se měl použít graf ROC. Pravděpodobnost přijetí události pozadí jako signál musí být nižší než jedna z následujících prahových hodnot: 0,01, 0,02, 0,05, 0,1 nebo 0.2.

Všimněte si také, že počet událostí na pozadí (h, pro hadronické sprchy) je podceňován. Ve skutečných měřeních představuje třída h nebo šum většinu událostí.

Související výzkum: Bock, R.K. (1995). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information
Datová sada počasí Hodinová pozorování počasí na základě země z NOAA (sloučená data z 201304 do roku 201310).

Data o počasí se týkají pozorování z letištních meteorologické stanice, která pokrývá časové období April-October 2013. Před nahráním do nástroje Machine Learning Studio (classic) se datová sada zpracovala takto:
  • ID meteorologické stanice byly namapovány na odpovídající ID letiště.
  • Meteorologické stanice, které nejsou spojené s 70 nejrušnějšími letišti, byly vyfiltrovány
  • Sloupec Datum byl rozdělen do samostatných sloupců Rok, Měsíc a Den.
  • Byly vybrány následující sloupce: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Viditelnost, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedie SP 500 Dataset Data jsou odvozena z Wikipedie (https://www.wikipedia.org/) na základě článků každé společnosti S&P 500 uložené jako data XML.

Před nahráním do nástroje Machine Learning Studio (classic) se datová sada zpracovala takto:
  • Extrahování textového obsahu pro každou konkrétní společnost
  • Odebrání formátování wikiwebu
  • Odebrání nealnumerických znaků
  • Převod veškerého textu na malá písmena
  • Byly přidány známé kategorie společnosti.

Všimněte si, že u některých společností nebyl nalezen článek, takže počet záznamů je menší než 500.
direct_marketing.csv Datová sada obsahuje zákaznická data a informace o jejich odpovědi na kampaň přímé korespondence. Každý řádek představuje zákazníka. Datová sada obsahuje devět funkcí pro demografické údaje uživatelů a chování v minulosti a tři sloupce popisků (návštěva, převod a útrata). Návštěva je binární sloupec, který označuje, že zákazník navštívil poté, co marketingovou kampaň navštívil. Převod označuje zákazníka, který něco zakoupil. Výdaje jsou částky, které byly vynaloženy. Datovou sadu zpřístupnil Kevin Hillstrom pro MineThatData E-Mail Analytics and Data Mining Challenge.
lyrl2004_tokens_test.csv Funkce testovacích příkladů v datové sadě zpráv RCV1-V2 Datová sada zpráv. Datová sada obsahuje 781K novinových článků spolu s JEJICH ID (první sloupec datové sady). Každý článek je tokenizován, zamknut a zastaven. Datová sada byla zpřístupněna Davidem. D. Lewis.
lyrl2004_tokens_train.csv Funkce trénovacích příkladů v datové sadě zpráv RCV1-V2 Datová sada zpráv. Datová sada obsahuje 23K příspěvků spolu s JEJICH ID (první sloupec datové sady). Každý článek je tokenizován, zamknut a zastaven. Datová sada byla zpřístupněna Davidem. D. Lewis.
network_intrusion_detection.csv
Datová sada z KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Datová sada byla stažena a uložena ve službě Azure Blob Storage (network_intrusion_detection.csv) a zahrnuje jak trénovací, tak testovací datové sady. Trénovací datová sada obsahuje přibližně 126K řádků a 43 sloupců včetně popisků. Tři sloupce jsou součástí informací o popisku a 40 sloupců, které se skládají z číselných a řetězcových/kategorických funkcí, jsou k dispozici pro trénování modelu. Testovací data mají přibližně 22,5K testovacích příkladů se stejnými 43 sloupci jako v trénovacích datech.
rcv1-v2.topics.qrels.csv Zadání témat pro články s novinkami v datové sadě zpráv RCV1-V2 K několika tématům je možné přiřadit příspěvek. Formát každého řádku je "<id dokumentu názvu><tématu> 1". Datová sada obsahuje přiřazení témat 2.6M. Datová sada byla zpřístupněna Davidem. D. Lewis.
student_performance.txt Tato data pocházejí z úkolu hodnocení výkonu studentů KDD Cup 2010 (hodnocení výkonu studentů). Použitá data jsou trénovací sada Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Výzva k datové sadě z KDD Cupu 2010 – Výzva k dolování vzdělávacích dat Najdete ho na webu downloads.jsp.

Datová sada byla stažena a uložena ve službě Azure Blob Storage (student_performance.txt) a obsahuje soubory protokolů ze systému pro výuku studentů. Zadané funkce zahrnují ID problému a jeho stručný popis, ID studenta, časové razítko a počet pokusů, které student udělal před řešením problému správným způsobem. Původní datová sada obsahuje 8,9M záznamů; Tato datová sada byla vzorek dolů na prvních 100 tisíc řádků. Datová sada obsahuje 23 sloupců oddělených tabulátorem různých typů: číselné, kategorické a časové razítko.

Další kroky