Azure Open Datasets

Förbättra noggrannheten för dina maskininlärningsmodeller med offentligt tillgängliga datamängder. Spara tid på dataidentifiering och förberedelse med hjälp av curated datasets som är redo att användas i maskininlärningsprojekt.

Transport

Datamängd Beskrivning
TartanAir: Datauppsättning för AirSim-simulering AirSim Autonomous vehicle data generated to solve Simultaneous Localization and Mapping (SLAM).
NYC Taxi & Taxi Commission – reseposter för gul taxi De gula taxiresorna innehåller datum/tider för upphämtning och avlämning, upphämtnings- och avlämningplatser, reseavstånd, specificerade biljettpris, pristyper, betalningstyper och förarrapporterade passagerare.
NYC Taxi & Commission – green taxi trip records Den gröna taxins färdposter innehåller datum/tider för upphämtning och avlämning, upphämtnings- och avlämningplatser, reseavstånd, specificerade biljettpris, pristyper, betalningstyper och förarrapporterade passagerare.
NYC Taxi & Commission - For-Hire Vehicle (FHV) trip records Färdposterna For-Hire för fordon innehåller registreringsnumret för den avsändande baslicensen och upphämtningsdatum, tid och taxizonens plats-ID.

Hälsa och genomik

Datamängd Beskrivning
COVID-19 Data Lake COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
COVID-19 Open Research Dataset En datamängd med vetenskapliga fulltextartiklar och metadata om COVID-19 och coronaviruset som optimerats för maskinläsning och gjorts tillgängliga för forskning globalt.
Genomics Data Lake Genomics Data Lake tillhandahåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, data om varianter och metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Arbets- och ekonomi

Datamängd Beskrivning
US Labor Force Statistics (statistik om arbetskraft i USA) Amerikansk arbetskraftsstatistik om arbetskraft, arbetskraftsdeltagande och civil icke-institutionell befolkning efter ålder, kön, ras och etniska grupper. i USA.
US National Employment Hours and Earnings (arbetstimmar och inkomst i USA på nationell nivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US State Employment Hours and Earnings (arbetstimmar och inkomst i USA på delstatsnivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US Local Area Unemployment Statistics (statistik om arbetslöshet i USA på lokal nivå) De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
US Consumer Price Index Konsumentprisindex är ett mått på den genomsnittliga förändringen över tid av de priser som betalas av urbana konsumenter för en varukorg med konsumtionsvaror och tjänster.
US Producer Price Index – Bransch Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter erhåller.
US Producer Price Index – Råvaror Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter tar för sina varor.

Befolkning och säkerhet

Datamängd Beskrivning
Befolkning i USA efter delstat Befolkning i USA efter kön och ras för varje delstat i USA från Decennial Census 2000 och 2010. Den här datamängden hämtas från United States Census Bureau.
Befolkning i USA efter postnummer Befolkning efter kön och ras för varje postnummer i USA från Decennial Census 2010. Den här datamängden hämtas från United States Census Bureau.
Säkerhetsdata för Boston Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Säkerhetsdata i Chicago Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Säkerhetsdata för New York City Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Itâ™ som lagras i Parquet-format och uppdateras dagligen.
Säkerhetsdata för San Francisco Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid.
Säkerhetsdata för Seattle Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid

Kompletterande och vanliga datauppsättningar

Datamängd Beskrivning
Diabetes Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer.
OJ Sales Simulated Data Den här datamängden härleds från Dataset of The Dataset och innehåller extra simulerade data med målet att tillhandahålla en datauppsättning som gör det enkelt att träna tusentals modeller samtidigt på Azure Machine Learning.
MNIST-databas med handskrivna siffror MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek.
Microsoft News rekommendation för datauppsättning Microsoft News Dataset (MIND) är en storskalig datamängd för nyhetsrekommendation. Den fungerar som en benchmark-datamängd för nyhetsrekommendation och underlättar forskning i system för nyhetsrekommendationer och rekommendationer.
Helgdagar Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.
Ryska öppna tal till text Ryska Open STT är en storskalig datauppsättning med öppet tal till text för det ryska språket