Set di dati pubblici per test e prototipiPublic data sets for testing and prototyping

In questo elenco di set di dati pubblici è possibile trovare dati da usare per prototipi e test di servizi e soluzioni di archiviazione e analisi.Browse this list of public data sets for data that you can use to prototype and test storage and analytics services and solutions.

Dati del governo e di enti pubblici degli Stati UnitiU.S. Government and agency data

Origine datiData source Informazioni sui datiAbout the data Informazioni sui fileAbout the files
Dati del governo degli Stati UnitiUS Government data Oltre 190.000 set di dati riguardanti agricoltura, clima, consumatori, ecosistemi, istruzione, energia, finanza, sanità, enti locali, produzione, mari e oceani, pubblica sicurezza, scienza e ricerca negli Stati Uniti.Over 190,000 data sets covering agriculture, climate, consumer, ecosystems, education, energy, finance, health, local government, manufacturing, maritime, ocean, public safety, and science and research in the U.S. File di diverse dimensioni e vari formati, tra cui HTML, XML, CSV, JSON, Excel e molti altri.Files of various sizes in various formats including HTML, XML, CSV, JSON, Excel, and many others. È possibile filtrare i set di dati disponibili in base al formato di file.You can filter available data sets by file format.
Dati di censimento degli Stati UnitiUS Census data Dati statistici sulla popolazione degli Stati Uniti.Statistical data about the population of the U.S. I set di dati sono disponibili in vari formati.Data sets are in various formats.
Dati di scienze della Terra della NASAEarth science data from NASA Oltre 32.000 raccolte di dati riguardanti agricoltura, atmosfera, biosfera, clima, criosfera, dimensioni umane, idrosfera, superficie terrestre, oceani, interazioni Terra-Sole e altro ancora.Over 32,000 data collections covering agriculture, atmosphere, biosphere, climate, cryosphere, human dimensions, hydrosphere, land surface, oceans, sun-earth interactions, and more. I set di dati sono disponibili in vari formati.Data sets are in various formats.
Ritardi nei voli e altri dati sui trasporti delle compagnie aereeAirline flight delays and other transportation data "Il Bureau of Transportation Statistics (BTS) del Dipartimento dei trasporti degli Stati Uniti tiene traccia delle prestazioni rispetto agli orari previsti dei voli nazionali gestiti dai grandi vettori aerei."The U.S. Department of Transportation's (DOT) Bureau of Transportation Statistics (BTS) tracks the on-time performance of domestic flights operated by large air carriers. Informazioni di riepilogo sul numero di voli puntuali, in ritardo, annullati o deviati sono riportate... in tabelle di riepilogo pubblicate nel sito Web".Summary information on the number of on-time, delayed, canceled, and diverted flights appears ... in summary tables posted on this website." I file sono disponibili in formato CSV.Files are in CSV format.
Incidenti stradali mortali: Fatality Analysis Reporting System (FARS) degli Stati UnitiTraffic fatalities - US Fatality Analysis Reporting System (FARS) "FARS è un censimento a livello nazionale che fornisce a NHTSA, Congresso e pubblico americano dati annuali sugli incidenti stradali mortali nel traffico di veicoli a motore"."FARS is a nationwide census providing NHTSA, Congress, and the American public yearly data regarding fatal injuries suffered in motor vehicle traffic crashes." "È possibile creare online dati personalizzati sugli incidenti mortali usando il sistema di query FARS"Create your own fatality data run online by using the FARS Query System. oppure scaricare tutti i dati FARS dal 1975 a oggi dal sito FTP".Or download all FARS data from 1975 to present from the FTP Site."
Dati su sostanze chimiche tossiche: Toxicity ForeCaster (ToxCast™) dell'agenzia per la protezione dell'ambienteToxic chemical data - EPA Toxicity ForeCaster (ToxCast™) data "I dati high-throughput più aggiornati disponibili al pubblico dell'EPA sulla tossicità di migliaia di sostanze chimiche."EPA's most updated, publicly available high-throughput toxicity data on thousands of chemicals. Questi dati vengono generati tramite l'iniziativa di ricerca ToxCast dell'EPA".This data is generated through the EPA's ToxCast research effort." I set di dati sono disponibili in vari formati, tra cui fogli di calcolo, pacchetti R e file di database MySQL.Data sets are available in various formats including spreadsheets, R packages, and MySQL database files.
Dati su sostanze chimiche tossiche: NIH Tox21 Data Challenge 2014Toxic chemical data - NIH Tox21 Data Challenge 2014 "La sfida Tox21 Data Challenge 2014 è stata progettata per consentire agli scienziati di comprendere il potenziale delle sostanze chimiche e dei composti sottoposti a test tramite l'iniziativa Toxicology in the 21st Century per interrompere i percorsi biologici in modi che potrebbero determinare effetti tossici"."The 2014 Tox21 data challenge is designed to help scientists understand the potential of the chemicals and compounds being tested through the Toxicology in the 21st Century initiative to disrupt biological pathways in ways that may result in toxic effects." I set di dati sono disponibili in formato SMILES e SDF.Data sets are available in SMILES and SDF formats. Includono "dati sulle attività di analisi e sulle strutture chimiche della raccolta di circa 10.000 composti (Tox21 10K) di Tox21".The data provides "assay activity data and chemical structures on the Tox21 collection of ~10,000 compounds (Tox21 10K)."
Dati su biotecnologia e genomi del National Center for Biotechnology Information (NCBI)Biotechnology and genome data from the NCBI Più set di dati riguardanti geni, genomi e proteine.Multiple data sets covering genes, genomes, and proteins. I set di dati sono in formato di testo, XML, BLAST e di altro tipo.Data sets are in text, XML, BLAST, and other formats. È disponibile un'app BLAST.A BLAST app is available.

Altri dati statistici e scientificiOther statistical and scientific data

Origine datiData source Informazioni sui datiAbout the data Informazioni sui fileAbout the files
Dati relativi ai taxi di New York CityNew York City taxi data "I record relativi alle corse dei taxi includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista"."Taxi trip records include fields capturing pick-up and drop-off dates/times, pick-up and drop-off locations, trip distances, itemized fares, rate types, payment types, and driver-reported passenger counts." I set di dati sono disponibili in file CSV per singolo mese.Data sets are in CSV files by month.
Set di dati di Microsoft Research: analisi scientifica dei dati per la ricercaMicrosoft Research data sets - "Data Science for Research" Più set di dati riguardanti l'interazione uomo-computer, audio/video, data mining/recupero informazioni, posizione geospaziale, elaborazione del linguaggio naturale e robotica/visione artificiale.Multiple data sets covering human-computer interaction, audio/video, data mining/information retrieval, geospatial/location, natural language processing, and robotics/computer vision. I set di dati sono disponibili in vari formati, compressi per il download.Data sets are in various formats, zipped for download.
Dati pubblici su genomiPublic genome data "Un set di dati eterogeneo su genomi umani completi è disponibile gratuitamente per uso pubblico allo scopo di migliorare qualsiasi studio genomico". Il fornitore, Complete Genomics, è un'azienda privata a scopo di lucro."A diverse data set of whole human genomes are freely available for public use to enhance any genomic study..." The provider, Complete Genomics, is a private for-profit corporation. I set di dati, dopo l'estrazione, sono in formato di testo UNIX.Data sets, after extraction, are in UNIX text format. Sono disponibili anche strumenti di analisi.Analysis tools are also available.
Dati di Open Science Data CloudOpen Science Data Cloud data "Open Science Data Cloud offre alla comunità scientifica risorse per l'archiviazione, la condivisione e l'analisi di set di dati scientifici a livello di terabyte e petabyte"."The Open Science Data Cloud provides the scientific community with resources for storing, sharing, and analyzing terabyte and petabyte-scale scientific datasets." I set di dati sono disponibili in vari formati.Data sets are in various formats.
Dati sul clima globale: WorldcLIMGlobal climate data - WorldcLIM "WorldClim è un set di livelli di dati sul clima globale a griglia con risoluzione spaziale di circa 1 km2."WorldClim is a set of global climate layers (gridded climate data) with a spatial resolution of about 1 km2. Questi dati possono essere usati per la mappatura e la modellazione spaziale".These data can be used for mapping and spatial modeling." I file contengono dati geospaziali.These files contain geospatial data. Per altre informazioni, vedere Data format (Formato dei dati).For more info, see Data format.
Dati sulla società umana: The GDELT ProjectData about human society - The GDELT Project "The GDELT Project è il database aperto relativo alla società umana più grande e completo e con la risoluzione più elevata che sia mai stato creato"."The GDELT Project is the largest, most comprehensive, and highest resolution open database of human society ever created." I file di dati non elaborati sono disponibili in formato CSV.The raw data files are in CSV format.
Dati di stima dei clic per annunci pubblicitari per l'apprendimento automatico di CriteoAdvertising click prediction data for machine learning from Criteo "Il più grande set di dati per l'apprendimento automatico mai rilasciato al pubblico"."The largest ever publicly released ML dataset." Per altre informazioni, vedere Criteo's 1 TB Click Prediction Dataset (Set di dati di stima dei clic di 1 TB di Criteo).For more info, see Criteo's 1 TB Click Prediction Dataset.
Set di dati di text mining ClueWeb09 di Lemur ProjectClueWeb09 text mining data set from The Lemur Project "Il set di dati ClueWeb09 è stato creato per supportare la ricerca sul recupero informazioni e le tecnologie per il linguaggio umano correlate."The ClueWeb09 dataset was created to support research on information retrieval and related human language technologies. È costituito da circa 1 miliardo di pagine Web in 10 lingue raccolte nei mesi di gennaio e febbraio 2009".It consists of about 1 billion web pages in 10 languages that were collected in January and February 2009." Vedere Dataset Information (Informazioni sul set di dati).See Dataset Information.

Dati di servizi onlineOnline service data

Origine datiData source Informazioni sui datiAbout the data Informazioni sui fileAbout the files
GitHub ArchiveGitHub archive "Il progetto GitHub Archive ha lo scopo di registrare la sequenza temporale pubblica [degli eventi] di GitHub, archiviarla e renderla facilmente accessibile per analisi aggiuntive"."GitHub Archive is a project to record the public GitHub timeline [of events], archive it, and make it easily accessible for further analysis." Scaricare gli archivi di eventi con codifica JSON in formato Gzip (con estensione gz) da un client Web.Download JSON-encloded event archives in .gz (Gzip) format from a web client.
Dati sull'attività di GitHub del progetto GHTorrentGitHub activity data from The GHTorrent project "Il progetto GHTorrent è un'iniziativa che ha lo scopo di creare un mirror di dati offline, scalabile e disponibile per query offerto tramite l'API REST GitHub."The GHTorrent project [is] an effort to create a scalable, queriable, offline mirror of data offered through the GitHub REST API. GHTorrent monitora la sequenza temporale pubblica degli eventi di GitHub.GHTorrent monitors the GitHub public event time line. Per ogni evento, recupera il contenuto e le dipendenze, in modo esauriente".For each event, it retrieves its contents and their dependencies, exhaustively." I dump del database MySQL sono in formato CSV.MySQL database dumps are in CSV format.
Dump dei dati di Stack OverflowStack Overflow data dump "Si tratta di un dump, reso anonimo, di tutti contenuti creati dagli utenti nella rete Stack Exchange [che include Stack Overflow]"."This is an anonymized dump of all user-contributed content on the Stack Exchange network [including Stack Overflow]." "Ogni sito [come Stack Overflow] viene formattato come archivio separato costituito da file XML compressi tramite 7-Zip, con compressione bzip2."Each site [such as Stack Overflow] is formatted as a separate archive consisting of XML files zipped via 7-zip using bzip2 compression. L'archivio di ogni sito include post, utenti, voti, commenti, cronologia dei post e relativi collegamenti".Each site archive includes Posts, Users, Votes, Comments, PostHistory, and PostLinks."