Otevřené datové sady Azure

Vylepšete přesnost modelů strojového učení pomocí veřejně dostupných datových sad. Ušetřete čas při zjišťování a přípravě dat pomocí kurátorovaných datových sad, které jsou připravené k použití v projektech strojového učení.

Doprava

Datová sada Description
TartanAir: AirSim Simulation Dataset Data autonomních vozidel AirSim generovaná k řešení simultánní lokalizace a mapování (SLAM).
NEWC Taxi & Limousine Commission – yellow taxi trip records Záznamy o jízdách žlutým taxíkem zahrnují data a časy vyzvednutí a vyjetí, místa vyzvednutí a vyjetí, jízdné, jízdné rozdálené, typy sazeb, typy plateb a počty cestujících hlášené řidiči.
NEWC Taxi & Limousine Commission – green taxi trip records Záznamy o jízdách zeleným taxíkem zahrnují data a časy vyzvednutí a vyjetí, místa vyzvednutí a vyjetí, jízdné, jízdné rozdálené, typy sazeb, typy plateb a počty cestujících nahlášené řidiči.
NEWC Taxi & Limousine Commission - For-Hire Trip Records (FHV) Záznam For-Hire jízd vozidel zahrnuje číslo základní licence dispečerů a datum vyzvednutí, čas a ID místa v zóně taxislužby.

Stav a genomika

Datová sada Description
COVID-19 Data Lake Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
COVID-19 Open Research Dataset Datová sada metadat a úplného znění pro vědecké články související s COVID-19 a koronavirem, která je optimalizovaná pro strojovou čitelnost a zpřístupněná globální komunitě výzkumných pracovníků
Genomics Data Lake Datové jezero Genomics poskytuje různé veřejné datové sady, ke které máte zdarma přístup a které můžete integrovat do svých aplikací a pracovních postupů analýzy genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Práce a ekonomika

Datová sada Description
Statistika pracovních sil v USA Statistika pracovní síly USA poskytuje statistické údaje o pracovní síle, míře zapojení pracovní síly a civilním svéprávném obyvatelstvu podle věku, pohlaví, rasy a etnických skupin v USA.
Pracovní doba a výdělky v USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Pracovní doba a výdělky v jednotlivých státech USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Statistika nezaměstnanosti v jednotlivých oblastech USA Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Index spotřebitelských cen v USA Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času.
Index cen výrobců v USA – průmysl Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času.
Index výrobních cen v USA – komodity Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své komodity, v průběhu času.

Populace a bezpečnost

Datová sada Description
Obyvatelstvo USA podle okresu Informace o obyvatelstvu jednotlivých okresů USA podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z let 2000 a 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Obyvatelstvo USA podle směrovacího čísla Informace o obyvatelstvu USA pro jednotlivá PSČ podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z roku 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Boston Safety Data Prohlédněte si data o nahlášených voláních na linku 311 ve městě Boston. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
Chicago Safety Data Prohlédněte si data o nahlášených voláních na linku 311 ve městě Chicago. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
Bezpečnostní data města New York Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Jsou ™ uložené ve formátu Parquet a aktualizují se každý den.
Bezpečnostní data San Francisca Volání o zásah hasičů a případy 311 v San Francisku. Tato datová sada obsahuje historické záznamy shromážděné od roku 2015 až do současnosti.
Seattle Safety Data Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.

Doplňkové a běžné datové sady

Datová sada Description
Diabetes Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení.
OJ Sales Simulated Data Tato datová sada je odvozená z datové sady OJ Odyka a zahrnuje další simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů na Azure Machine Learning.
Databáze MNIST ručně psaných číslic Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí.
Datová sada doporučení microsoft news Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení pro zprávy. Slouží jako srovnávací datová sada pro doporučení zpráv a usnadňuje výzkum v systémech doporučení pro zprávy a doporučovací systémy.
Svátcích Data o celosvětových svátcích pocházející z balíčku PyPI holidays a z Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099.
Ruština – otevřená řeč na text Russian Open STT je rozsáhlá otevřená datová sada pro převod řeči na text pro ruštinu.