Otevřené datové sady Azure

Zvyšte přesnost modelů strojového učení pomocí veřejně dostupných datových sad. Ušetřete čas na zjišťování a přípravu dat pomocí kurátorovaných datových sad, které jsou připravené k použití v projektech strojového učení.

Doprava

Datová sada Description
TartanAir: Datová sada simulace AirSim Data autonomních vozidel AirSim generovaná k řešení souběžné lokalizace a mapování (SLAM).
NYC Taxi & Limousine Komise - žluté taxi jízdy záznamy Žluté záznamy o jízdě taxi zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášené řidičem.
NYC Taxi & Limousine Komise - green taxi trip records Mezi záznamy o jízdě zeleným taxíkem patří vyzvednutí a odkládací data/časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášené řidičem.
NYC Taxi & Limousine Komise - For-Hire Vozidlo (FHV) záznamy o jízdě Záznamy o cestě For-Hire vozidla zahrnují číslo základní licence dispečinku a ID polohy vyzvednutí, času a zóny taxi.

Stav a genomika

Datová sada Description
COVID-19 Data Lake Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
Otevřená datová sada pro výzkum COVID-19 Datová sada metadat a úplného znění pro vědecké články související s COVID-19 a koronavirem, která je optimalizovaná pro strojovou čitelnost a zpřístupněná globální komunitě výzkumných pracovníků
Genomics Data Lake Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete získat přístup zdarma a integrovat je do pracovních postupů a aplikací analýzy genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Práce a ekonomika

Datová sada Description
Statistika pracovních sil v USA Statistika pracovní síly USA poskytuje statistické údaje o pracovní síle, míře zapojení pracovní síly a civilním svéprávném obyvatelstvu podle věku, pohlaví, rasy a etnických skupin v USA.
Pracovní doba a výdělky v USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Pracovní doba a výdělky v jednotlivých státech USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Statistika nezaměstnanosti v jednotlivých oblastech USA Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Index spotřebitelských cen v USA Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času.
Index cen výrobců v USA – průmysl Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času.
Index výrobních cen v USA – komodity Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své komodity, v průběhu času.

Populace a bezpečnost

Datová sada Description
Obyvatelstvo USA podle okresu Informace o obyvatelstvu jednotlivých okresů USA podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z let 2000 a 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Obyvatelstvo USA podle směrovacího čísla Informace o obyvatelstvu USA pro jednotlivá PSČ podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z roku 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Boston Safety Data Prohlédněte si data o nahlášených voláních na linku 311 ve městě Boston. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
Data o bezpečnosti v Chicagu Prohlédněte si data o nahlášených voláních na linku 311 ve městě Chicago. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
New York City Safety Data Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. ™Je uložený ve formátu Parquet a každý den aktualizován.
Bezpečnostní data v San Francisku Volání o zásah hasičů a případy 311 v San Francisku. Tato datová sada obsahuje historické záznamy shromážděné od roku 2015 až do současnosti.
Bezpečnostní data Seattlu Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.

Doplňkové a běžné datové sady

Datová sada Description
Diabetes Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení.
OJ Sales Simulated Data Tato datová sada je odvozena z datové sady Dominick's OJ a zahrnuje extra simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů na Azure Machine Learning.
Databáze MNIST ručně psaných číslic Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí.
Datová sada doporučení Microsoft News Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení pro zprávy. Slouží jako srovnávací datová sada pro doporučení pro zprávy a usnadňuje výzkum v systémech doporučení a doporučení.
Svátcích Data o celosvětových svátcích pocházející z balíčku PyPI holidays a z Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099.
Ruština otevřená řeč na text Ruština Open STT je rozsáhlá otevřená řeč na textovou datovou sadu pro ruský jazyk.