Set di dati pubblici per test e prototipi

In questo elenco di set di dati pubblici è possibile trovare dati da usare per prototipi e test di servizi e soluzioni di archiviazione e analisi.

Dati del governo e di enti pubblici degli Stati Uniti

Origine dati Informazioni sui dati Informazioni sui file
Dati del governo degli Stati Uniti Oltre 190.000 set di dati riguardanti agricoltura, clima, consumatori, ecosistemi, istruzione, energia, finanza, sanità, enti locali, produzione, mari e oceani, pubblica sicurezza, scienza e ricerca negli Stati Uniti. File di diverse dimensioni e vari formati, tra cui HTML, XML, CSV, JSON, Excel e molti altri. È possibile filtrare i set di dati disponibili in base al formato di file.
Dati di censimento degli Stati Uniti Dati statistici sulla popolazione degli Stati Uniti. I set di dati sono disponibili in vari formati.
Dati di scienze della Terra della NASA Oltre 32.000 raccolte di dati riguardanti agricoltura, atmosfera, biosfera, clima, criosfera, dimensioni umane, idrosfera, superficie terrestre, oceani, interazioni Terra-Sole e altro ancora. I set di dati sono disponibili in vari formati.
Ritardi nei voli e altri dati sui trasporti delle compagnie aeree "Il Bureau of Transportation Statistics (BTS) del Dipartimento dei trasporti degli Stati Uniti tiene traccia delle prestazioni rispetto agli orari previsti dei voli nazionali gestiti dai grandi vettori aerei. Informazioni di riepilogo sul numero di voli puntuali, in ritardo, annullati o deviati sono riportate... in tabelle di riepilogo pubblicate nel sito Web". I file sono disponibili in formato CSV.
Incidenti stradali mortali: Fatality Analysis Reporting System (FARS) degli Stati Uniti "FARS è un censimento a livello nazionale che fornisce a NHTSA, Congresso e pubblico americano dati annuali sugli incidenti stradali mortali nel traffico di veicoli a motore". "È possibile creare online dati personalizzati sugli incidenti mortali usando il sistema di query FARS oppure scaricare tutti i dati FARS dal 1975 a oggi dal sito FTP".
Dati su sostanze chimiche tossiche: Toxicity ForeCaster (ToxCast™) dell'agenzia per la protezione dell'ambiente "I dati high-throughput più aggiornati disponibili al pubblico dell'EPA sulla tossicità di migliaia di sostanze chimiche. Questi dati vengono generati tramite l'iniziativa di ricerca ToxCast dell'EPA". I set di dati sono disponibili in vari formati, tra cui fogli di calcolo, pacchetti R e file di database MySQL.
Dati su sostanze chimiche tossiche: NIH Tox21 Data Challenge 2014 "La sfida Tox21 Data Challenge 2014 è stata progettata per consentire agli scienziati di comprendere il potenziale delle sostanze chimiche e dei composti sottoposti a test tramite l'iniziativa Toxicology in the 21st Century per interrompere i percorsi biologici in modi che potrebbero determinare effetti tossici". I set di dati sono disponibili in formato SMILES e SDF. Includono "dati sulle attività di analisi e sulle strutture chimiche della raccolta di circa 10.000 composti (Tox21 10K) di Tox21".
Dati su biotecnologia e genomi del National Center for Biotechnology Information (NCBI) Più set di dati riguardanti geni, genomi e proteine. I set di dati sono in formato di testo, XML, BLAST e di altro tipo. È disponibile un'app BLAST.

Altri dati statistici e scientifici

Origine dati Informazioni sui dati Informazioni sui file
Dati relativi ai taxi di New York City "I record relativi alle corse dei taxi includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista". I set di dati sono disponibili in file CSV per singolo mese.
Set di dati di Microsoft Research: analisi scientifica dei dati per la ricerca Più set di dati riguardanti l'interazione uomo-computer, audio/video, data mining/recupero informazioni, posizione geospaziale, elaborazione del linguaggio naturale e robotica/visione artificiale. I set di dati sono disponibili in vari formati, compressi per il download.
Dati pubblici su genomi "Un set di dati eterogeneo su genomi umani completi è disponibile gratuitamente per uso pubblico allo scopo di migliorare qualsiasi studio genomico". Il fornitore, Complete Genomics, è un'azienda privata a scopo di lucro. I set di dati, dopo l'estrazione, sono in formato di testo UNIX. Sono disponibili anche strumenti di analisi.
Dati di Open Science Data Cloud "Open Science Data Cloud offre alla comunità scientifica risorse per l'archiviazione, la condivisione e l'analisi di set di dati scientifici a livello di terabyte e petabyte". I set di dati sono disponibili in vari formati.
Dati sul clima globale: WorldcLIM "WorldClim è un set di livelli di dati sul clima globale a griglia con risoluzione spaziale di circa 1 km2. Questi dati possono essere usati per la mappatura e la modellazione spaziale". I file contengono dati geospaziali. Per altre informazioni, vedere Data format (Formato dei dati).
Dati sulla società umana: The GDELT Project "The GDELT Project è il database aperto relativo alla società umana più grande e completo e con la risoluzione più elevata che sia mai stato creato". I file di dati non elaborati sono disponibili in formato CSV.
Dati di stima dei clic per annunci pubblicitari per l'apprendimento automatico di Criteo "Il più grande set di dati per l'apprendimento automatico mai rilasciato al pubblico". Per altre informazioni, vedere Criteo's 1 TB Click Prediction Dataset (Set di dati di stima dei clic di 1 TB di Criteo).
Set di dati di text mining ClueWeb09 di Lemur Project "Il set di dati ClueWeb09 è stato creato per supportare la ricerca sul recupero informazioni e le tecnologie per il linguaggio umano correlate. È costituito da circa 1 miliardo di pagine Web in 10 lingue raccolte nei mesi di gennaio e febbraio 2009". Vedere Dataset Information (Informazioni sul set di dati).

Dati di servizi online

Origine dati Informazioni sui dati Informazioni sui file
GitHub Archive "Il progetto GitHub Archive ha lo scopo di registrare la sequenza temporale pubblica [degli eventi] di GitHub, archiviarla e renderla facilmente accessibile per analisi aggiuntive". Scaricare gli archivi di eventi con codifica JSON in formato Gzip (con estensione gz) da un client Web.
Dati sull'attività di GitHub del progetto GHTorrent "Il progetto GHTorrent è un'iniziativa che ha lo scopo di creare un mirror di dati offline, scalabile e disponibile per query offerto tramite l'API REST GitHub. GHTorrent monitora la sequenza temporale pubblica degli eventi di GitHub. Per ogni evento, recupera il contenuto e le dipendenze, in modo esauriente". I dump del database MySQL sono in formato CSV.
Dump dei dati di Stack Overflow "Si tratta di un dump, reso anonimo, di tutti contenuti creati dagli utenti nella rete Stack Exchange [che include Stack Overflow]". "Ogni sito [come Stack Overflow] viene formattato come archivio separato costituito da file XML compressi tramite 7-Zip, con compressione bzip2. L'archivio di ogni sito include post, utenti, voti, commenti, cronologia dei post e relativi collegamenti".