Usare i set di dati di esempio in Azure Machine Learning Studio

Quando si crea una nuova area di lavoro in Azure Machine Learning, per impostazione predefinita è inclusa una serie di set di dati e di esperimenti di esempio. Molti di questi set di dati di esempio vengono usati dai modelli di esempio in Azure Cortana Intelligence Gallery. Altri sono inclusi come esempi di diversi tipi di dati usati in genere per l'apprendimento automatico.

Alcuni di questi set di dati sono disponibili nell'archivio BLOB di Azure. La tabella seguente include un collegamento diretto per questi set di dati. È possibile usare questi set di dati negli esperimenti tramite il modulo Import Data (Importazione dati).

I restanti set di dati di esempio sono disponibili nell'area di lavoro in Saved Datasets (Set di dati salvati) nella tavolozza del modulo a sinistra dell'area di disegno dell'esperimento quando si apre o si crea un nuovo esperimento in Machine Learning Studio. Per usare uno qualsiasi di questi set di dati in un esperimento personalizzato, trascinarlo all'area di disegno dell'esperimento.

Nota

Prova gratuita di Azure Machine Learning

Non è necessaria una carta di credito o una sottoscrizione di Azure. Per iniziare >.

Nome del set di dati Descrizione del set di dati
Adult Census Income Binary Classification dataset Subset del database relativo al censimento del 1994, che usa adulti lavoratori di età superiore ai 16 anni con un indice di reddito adeguato > 100.

Utilizzo: classificare le persone usando i dati demografici per prevedere se una persona ha un guadagno superiore a 50.000 dollari all'anno.

Ricerca correlata: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Airport Codes Dataset Codici degli aeroporti degli Stati Uniti.

Questo set di dati contiene una riga per ogni aeroporto degli Stati Uniti, contenente il nome e il numero ID dell'aeroporto, la città e lo stato.
Automobile price data (Raw) Informazioni sulle automobili in base a marchio e modello, inclusi il prezzo, funzionalità quali il numero di cilindri e il consumo di carburante, oltre a un punteggio relativo al rischio assicurativo.

Il punteggio di rischio viene inizialmente associato al prezzo dell'automobile e quindi viene adeguato in base al rischio effettivo in un processo noto agli attuari come simbolizzazione. Un valore pari a +3 indica che l'automobile è rischiosa e un valore pari a -3 indica che è probabilmente sicura.

Utilizzo: prevedere il punteggio di rischio in base alle funzionalità, usando la regressione o la classificazione multivariata.

Ricerca correlata: Schlimmer, J.C. (1987). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Bike Rental UCI dataset Set di dati UCI relativo al noleggio di biciclette basato su dati reali della società Capital Bikeshare che gestisce una rete di noleggio di biciclette a Washington DC.

Il set di dati comprende una riga per ogni ora di ogni giorno del 2011 e del 2012, per un totale di 17.379 righe. Il numero di biciclette noleggiate su base oraria è compreso tra 1 e 977.
Bill Gates RGB Image File di immagine pubblicamente disponibile convertito in dati in formato CSV.

Il codice per la conversione dell'immagine è disponibile nella pagina descrittiva del modello di quantizzazione dei colori tramite clustering K-Means.
Blood donation data Sottoinsieme di dati dal database di donatori di sangue del Blood Transfusion Service Center di Hsin-Chu City, Taiwan.

I dati relativi al donatore includono i mesi trascorsi dopo l'ultima donazione, la frequenza o il numero totale di donazioni, il tempo trascorso dopo l'ultima donazione e la quantità di sangue donata.

Utilizzo: l'obiettivo consiste nel prevedere tramite classificazione se il donatore abbia donato sangue nel mese di marzo 2007; 1 indica un donatore nel periodo in esame e 0 un non donatore.

Ricerca correlata: Yeh, I.C., (2008). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence", Expert Systems with Applications, 2008, http://dx.doi.org/10.1016/j.eswa.2008.07.018
Book Reviews from Amazon Revisioni di libri in Amazon, estratte dal sito Amazon dai ricercatori della University of Pennsylvania (sentiment). Vedere il documento di ricerca “Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification” di John Blitzer, Mark Dredze e Fernando Pereira; Association of Computational Linguistics (ACL), 2007.

Il set di dati originale ha 975.000 revisioni con classificazioni 1, 2, 3, 4 o 5. Le revisioni sono in inglese e vanno dal 1997 al 2007. Il set di dati è stato ridotto a 10.000 revisioni.
Breast cancer data Uno dei tre set di dati relativi al tumore fornito dall'istituto oncologico e usato spesso nella letteratura di Machine Learning. Combina informazioni diagnostiche con funzionalità relative ad analisi di laboratorio effettuate su circa 300 campioni di tessuto.

Utilizzo: classificare il tipo di tumore, in base a 9 attributi, alcuni dei quali lineari e altri categorici.

Ricerca correlata: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Breast Cancer Features Il set di dati contiene le informazioni relative a 102.000 aree sospette (candidati) di radiografie, ognuna descritta mediante 117 caratteristiche. Le caratteristiche sono proprietarie e il loro significato non è stato rivelato dagli autori del set di dati (Siemens Healthcare).
Breast Cancer Info Il set di dati contiene informazioni aggiuntive su ogni area sospetta di una radiografia. Per ogni esempio vengono fornite le informazioni, ad esempio etichetta, ID paziente, coordinate della lesione in relazione all'intera immagine, sul numero di riga corrispondente nel set di dati delle caratteristiche del tumore al seno. Per ogni paziente sono disponibili diversi esempi. Per i pazienti in cui è stato riscontrato un tumore, alcuni esempio sono positivi ed altri sono negativi. Per i pazienti sani, tutti gli esempi sono negativi. Il set di dati contiene 102.000 esempi. Al set di dati è stata applicata la compensazione: lo 0,6% dei punti è positivo, mentre il resto è negativo. Il set di dati è stato messo a disposizione da Siemens Healthcare.
CRM Appetency Labels Shared Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train_appetency.labels).
CRM Churn Labels Shared Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train_churn.labels).
CRM Dataset Shared Questi dati vengono dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train.data.zip).

Il set di dati contiene 50.000 clienti della società di telecomunicazioni francese Orange. Ogni cliente dispone di 230 elementi resi anonimi, 190 dei quali numerici e 40 categorici. Gli elementi sono molto sparsi.
CRM Upselling Labels Shared Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_large_train_upselling.labels).
Energy Efficiency Regression data Raccolta di profili energetici simulati, basati su 12 forme di edifici diverse. Gli edifici si differenziano in base a 8 caratteristiche specifiche, ad esempio il numero di finestre e la distribuzione e l'orientamento delle finestre.

Utilizzo: usare la regressione o la classificazione per prevedere il livello di efficienza energetica in base a una delle due risposte con valori reali. Per la classificazione a più classi, la variabile di risposta verrà arrotondata al valore Integer più vicino.

Ricerca correlata: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Flight Delays Data Dati relativi alle prestazioni nel tempo dei voli passeggeri ottenuti dalla raccolta dati TranStats del Dipartimento dei trasporti degli Stati Uniti (On-Time).

Il set di dati copre il periodo aprile-ottobre 2013. Prima del caricamento in Azure Machine Learning Studio, il set di dati è stato elaborato come segue:
  • Il set di dati è stato filtrato in modo da coprire solo i 70 aeroporti più trafficati degli Stati Uniti continentali
  • I voli cancellati sono stati etichettati in modo da indicare un ritardo superiore a 15 minuti
  • I voli deviati sono stati esclusi
  • Sono state selezionate le colonne seguenti: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Flight on-time performance (Raw) Record degli arrivi e delle partenze dei voli all'interno degli Stati Uniti da ottobre 2011.

Utilizzo: prevedere i ritardi dei voli.

Ricerca correlata: dal Ministero dei Trasporti statunitense http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Forest fires data Contiene dati climatici, ad esempio temperatura, indici di umidità e velocità del vento, relativi a un'area nella parte nordorientale del Portogallo, combinati con record relativi agli incendi nei boschi.

Utilizzo: si tratta di un'attività di regressione complessa, il cui scopo consiste nel prevedere l'area bruciata degli incendi boschivi.

Ricerca correlata: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

[Cortez e Morais, 2007] P. Cortez e A. Morais. Approccio di data mining per la previsione degli incendi nei boschi usando i dati meteorologici. In J. Neves, M. F. Santos e J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, dicembre, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponibile all'indirizzo: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
German Credit Card UCI dataset Set di dati UCI Statlog (German Credit Card) (Statlog+German+Credit+Data), con l'uso del file german.data.

Il set di dati classifica le persone, descritte da un set di attributi, come rischi di credito alti o bassi. Ogni esempio rappresenta una persona. Sono presenti 20 variabili, sia numeriche che relative alle categorie, nonché un'etichetta binaria (il valore del rischio di credito). Le voci che rappresentano un rischio di credito elevato hanno l'etichetta 2, quelle che rappresentano un rischio di credito hanno l'etichetta 1. Classificare erroneamente un cliente come a basso rischio mentre è ad alto rischio implica costi cinque volte più alti.
IMDB Movie Titles Il set di dati contiene informazioni sui film che sono stati valutati nei tweet di Twitter: ID del film nel database IMDB, nome, genere e anno di produzione del film. Il set di dati contiene 17.000 film. Il set di dati è stato introdotto nel documento di S. Dooms, T. De Pessemier e L. Martens. "MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
Iris two class data Si tratta probabilmente del database più conosciuto disponibile nella letteratura relativa al riconoscimento di schemi. Il set di dati è relativamente piccolo, perché contiene 50 esempi di misurazione di ogni petalo di tre varietà di iris.

Utilizzo: prevedere il tipo di iris in base alle misurazioni.

Ricerca correlata: Fisher, R.A. (1988). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Movie Tweets Il set di dati è una versione estesa di quello relativo ai tweet sui film. Il set di dati contiene 170.000 valutazioni di film, estratti da tweet ben strutturati pubblicati su Twitter. Ogni istanza rappresenta un tweet ed è una tupla: ID utente, ID del film nel database IMDB, valutazione, data e ora, numero di preferenze per questo tweet e numero di retweet. Il set di dati è stato messo a disposizione da A. Said, S. Dooms, B. Loni e D. Tikk per Recommender Systems Challenge 2014.
MPG data for various automobiles Questo set di dati è una versione leggermente modificata del set di dati disponibile nella raccolta StatLib della Carnegie Mellon University. Il set di dati è stato usato presso la American Statistical Association Exposition del 1983.

I dati elencano il consumo di carburante per diverse automobili, in miglia per gallone, oltre a informazioni quali numero di cilindri, cilindrata, potenza, peso totale e accelerazione.

Utilizzo: prevedere il risparmio di carburante in base a 3 attributi discreti multivalore e 5 attributi continui.

Ricerca correlata: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Pima Indians Diabetes Binary Classification dataset Sottoinsieme di dati del database del National Institute of Diabetes and Digestive and Kidney Diseases. Il set di dati è stato filtrato in modo da evidenziare solo i pazienti di genere femminile di etnia Pima. I dati includono dati medici quali i livelli di glucosio e di insulina, oltre a fattori relativi allo stile di vita.

Utilizzo: prevedere se il soggetto è diabetico (classificazione binaria).

Ricerca correlata: Sigillito, V. (1990). UCI Machine Learning Repository http://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Restaurant customer data Set di metadati relativi ai clienti, inclusi dati demografici e preferenze.

Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione.

Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Restaurant feature data Set di metadati relativi ai ristoranti e alle rispettive caratteristiche, ad esempio tipo di cibo, stile del ristorante e ubicazione.

Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione.

Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Restaurant ratings Include le valutazioni assegnate dagli utenti ai ristoranti in una scala da 0 a 2.

Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione.

Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Steel Annealing multi-class dataset Questo set di dati include una serie di record relativi a tentativi di ricottura di acciaio, con gli attributi fisici (larghezza, spessore e tipo, ad esempio spirale, lamina e così via) dei tipi di acciaio risultanti.

Utilizzo: prevedere uno dei due attributi numerici della classe, ovvero durezza o forza. È anche possibile analizzare le correlazioni tra gli attributi.

Le designazioni dell'acciaio sono basate su uno standard definito da SAE e da altre organizzazioni. Si cerca una 'designazione' specifica (variabile della classe) e si vogliono comprendere i valori necessari.

Ricerca correlata: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Una guida utile alle designazioni dell'acciaio è disponibile qui: http://www.outokumpu.com/SiteCollectionDocuments/Outokumpu-steel-grades-properties-global-standards.pdf
Telescope data Record di esplosioni di particelle gamma a energia elevata insieme alla radiazione di fondo, simulate entrambe tramite un processo Monte Carlo.

Lo scopo della simulazione consiste nel migliorare la precisione dei telescopi gamma Cherenkov posizionati a terra, usando metodi statistici per rilevare la differenza tra il segnale desiderato (pioggia di radiazioni Cherenkov) e la radiazione di fondo (piogge adroniche generate da raggi cosmici nella parte superiore dell'atmosfera).

I dati sono stati pre-elaborati in modo da creare un cluster allungato il cui asse longitudinale è orientato verso il centro della fotocamera. Le caratteristiche di questa ellissi, spesso definite parametri Hillas, si trovano tra i parametri dell'immagine che possono essere usati per la discriminazione.

Utilizzo: prevedere se l'immagine di una pioggia rappresenta un segnale o radiazioni di fondo.

Note: la semplice precisione della classificazione non è significativa per questi dati, poiché la classificazione di un evento di fondo come segnale è ritenuta peggiore della classificazione di un evento di segnale come evento di fondo. Per un confronto dei diversi classificatori, è consigliabile usare il grafico ROC. La probabilità di accettazione di un evento di fondo come un segnale deve essere inferiore a una delle soglie seguenti: 0,01 , 0,02 , 0,05 , 0,1 oppure 0,2.

Si noti anche che il numero di eventi di fondo (h per piogge adroniche) è sottostimato, mentre nelle misurazioni reali la classe h o noise rappresenta la maggior parte degli eventi.

Ricerca correlata: Bock, R.K. (1995). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Weather Dataset Le osservazioni meteo sono su base oraria e al suolo e vengono fornite dalla NOAA (dati uniti dal mese di aprile al mese di ottobre 2013).

I dati relativi al meteo riguardano le osservazioni effettuate dalle stazioni meteo degli aeroporti nel periodo aprile-ottobre 2013. Prima del caricamento in Azure Machine Learning Studio, il set di dati è stato elaborato come segue:
  • Gli ID delle stazioni meteo sono stati mappati agli ID degli aeroporti corrispondenti
  • Le stazioni meteo non associate ai 70 aeroporti più trafficati sono state escluse
  • La colonna Date è stata suddivisa in colonne Year, Month e Day distinte
  • Sono state selezionate le seguenti colonne: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500 Dataset I dati sono tratti da articoli di Wikipedia (http://www.wikipedia.org/)su ognuna delle società incluse nell'indice S&P 500, archiviati come dati XML.

Prima del caricamento in Azure Machine Learning Studio, il set di dati è stato elaborato come segue:
  • Estrazione del contenuto di testo per ogni specifica società
  • Rimozione della formattazione wiki
  • Rimozione dei caratteri non alfanumerici
  • Conversione di tutto il testo in minuscolo
  • Aggiunta delle categorie di società note

Tenere presente che per alcune società non sono stati trovati articoli, dunque il numero dei record è inferiore a 500.
direct_marketing.csv Il set di dati contiene i dati dei clienti e le indicazioni sulle risposte ottenute in seguito a una campagna di mailing diretto. Ogni riga rappresenta un cliente. Il set di dati contiene 9 caratteristiche sui dati personali degli utenti e sui comportamenti passati, oltre a tre 3 colonne con etichetta (visita, conversione e spesa). La visita è una colonna binaria usata per indicare che un cliente è stato visitato dopo la campagna di marketing, la conversione indica che il cliente ha effettuato un acquisto e la spesa corrisponde all'importo speso. Il set di dati è stato messo a disposizione da Kevin Hillstrom per MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Caratteristiche degli esempi di test nel set di dati relativi alle notizie RCV1-V2 Reuters. Il set di dati contiene 781.000 articoli, a ognuno dei quali è associato un ID (prima colonna del set di dati). Ogni articolo è stato analizzato per identificare token, parole non significative e sottoposto a stemming. Il set di dati è stato messo a disposizione da David. D. Lewis.
lyrl2004_tokens_train.csv Funzionalità degli esempi di training nel set di dati relativi alle notizie RCV1-V2 Reuters. Il set di dati contiene 23.000 articoli, a ognuno dei quali è associato un ID (prima colonna del set di dati). Ogni articolo è stato analizzato per identificare token, parole non significative e sottoposto a stemming. Il set di dati è stato messo a disposizione da David. D. Lewis.
network_intrusion_detection.csv
Set di dati dalla KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Questo set di dati è stato scaricato e memorizzato nell'archiviazione BLOB di Azure (network_intrusion_detection.csv) e include set di dati sia di training che di test. Il set di dati di training contiene circa 126K righe e 43 colonne, comprese le etichette. Tre colonne fanno parte delle informazioni sulle etichette e 40 colonne, composte da funzioni numeriche, stringa o categoriali, sono disponibili per il training del modello. I dati di test contengono circa 225.000 esempi di test con le stesse 43 colonne nei dati di training.
rcv1-v2.topics.qrels.csv Assegnazioni degli argomenti per gli articoli del set di dati relativo alle notizie RCV1-V2 Reuters. Un articolo può essere assegnato a più argomenti. Il formato di ogni riga è "<nome argomento> <ID documento> 1". Il set di dati contiene 2,6 milioni di assegnazioni di argomenti. Il set di dati è stato messo a disposizione da David. D. Lewis.
student_performance.txt Questi dati provengono dalla competizione KDD Cup 2010 Student performance evaluation (student performance evaluation). Il set di dati usato è il training set Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Set di dati di competizione dalla KDD Cup 2010 dedicata al data mining in ambito didattico. Il training è disponibile in downloads.jsp o algebra_2008_2009.zip.

Il set di dati è stato scaricato e memorizzato Archiviazione BLOB di Azure (student_performance.txt) e contiene i file di log provenienti dal sistema relativo alle lezioni private per gli studenti. Le funzionalità fornite includono: ID del problema e breve descrizione, ID dello studente, timestamp e numero di tentativi effettuati dallo studente prima di risolvere il problema nel modo corretto. Il set di dati originale contiene 8,9 milioni di record e questo set di dati è stato ridotto alle prime 100.000 righe. Nel set di dati sono presenti 23 colonne separate da tabulazioni, di vari tipi: numerico, categorico e timestamp.