Azure Open Datasets

A gépi tanulási modellek pontosságának javítása nyilvánosan elérhető adatkészletekkel. Időt takaríthat meg az adatfelderítéssel és -előkészítéssel a gépi tanulási projektekben használható, összepárosített adatkészletek használatával.

Szállítás

Adathalmaz Leírás
TartanAir: AirSim Simulation-adatkészlet Az egyidejű honosítás és leképezés (SLAM) megoldásához létrehozott AirSim autonóm járművek adatai.
NYC Taxi & Fogusine Commission – sárga taxiút-rekordok A sárga taxis utazás rekordjai közé tartozik a fel- és lekért dátumok/időpontok, a fel- és lehozási helyek, az út távolsága, a tételekre vonatkozó díjak, a díjtípusok, a fizetési típusok és a sofőr által bejelentett utasszám.
NYC Taxi & Fogusine Commission – zöld taxis utazás rekordjai A zöld taxis utazás rekordjai közé tartozik a fel- és lekért dátumok és időpontok, a fel- és lehozási helyek, az út távolsága, a tételekre vonatkozó díjak, a díjtípusok, a fizetési típusok és a sofőr által bejelentett utasszám.
NYC Taxi & Commission - For-Hire Vehicle (FHV) trip records A For-Hire járműút-rekordok tartalmazzák a kiszállítási alaplicenc számát, valamint a szállítás dátumát, idejét és a taxizóna helyazonosítóját.

Állapot és genomika

Adathalmaz Leírás
COVID-19 Data Lake A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
COVID-19 Open Research Dataset A COVID–19-cel és a koronavírussal összefüggő tudományos cikkek teljes szövege és azok metaadatainak adatkészletei optimalizálva vannak gépi olvasásra, és felhasználhatja őket a kutatói közösség világszerte.
Genomics Data Lake A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyekhez ingyenesen hozzáférhet, és integrálhatja őket a genomics-elemzési munkafolyamataiba és alkalmazásaiba. Az adatkészlet genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.

Munkaerő és közgazdaságt igénye

Adathalmaz Leírás
USA munkaerőpiaci statisztika A US Labor Force Statistics munkaerő-statisztikákat, munkaerő-foglalkoztatottsági arányokat, valamint a nem intézményi civil lakosság kor, nem, valamint faji és etnikai hovatartozás szerinti adatait tartalmazza. az Egyesült Államokban.
USA országos foglalkoztatási munkaidő és keresetek A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA-beli államokra vonatkozó foglalkoztatási munkaidő és keresetek A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA helyi munkanélküliségi statisztika A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
Egyesült Államok fogyasztói árindexe A fogyasztói árindex (CPI) méri a lakosság által megvásárolt áruk, igénybe vett szolgáltatások árának átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindex – ipar A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindexe – árucikkek A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.

Népesség és biztonság

Adathalmaz Leírás
Az Egyesült Államok lakossága megye szerint Az amerikai lakosság megyénkénti eloszlása nem és faji hovatartozás alapján a 2000-es és a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Az Egyesült Államok lakossága irányítószám szerint Az amerikai lakosság irányítószám szerinti eloszlása nem és faji hovatartozás alapján a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Boston – Biztonsági adatok Olvasási adatok a Bostonban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
Chicago biztonsági adatai Olvasási adatok a Chicagóban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
New York város biztonsági adatai Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. A ™ a Parquet formátumban van tárolva, és naponta frissül.
San Francisco biztonsági adatai Tűzoltósági riasztások és 311-es esetek San Franciscóban. Az adatkészlet a 2015-től mostanáig összegyűlt rekordokat tartalmazza.
Seattle biztonsági adatai A Seattle-i tűzoltóság segélyhívásra reagáló intézkedései. Az adatkészlet naponta frissül, és a 2010-től mostanáig összegyűlt rekordokat tartalmazza

Kiegészítő és gyakori adatkészletek

Adathalmaz Leírás
Cukorbetegség A diabétesz adatkészlet 442 mintát tartalmaz 10 jellemzővel, így ideális választás ahhoz, hogy megismerkedjünk a gépi tanulási algoritmusokkal.
AZ ÉRTÉKESÍTÉSI szimulált adatok Ez az adatkészlet a Domink ÁLTAL tartalmazott, DEM-adatkészletből származik, és további szimulált adatokat tartalmaz azzal a céllal, hogy olyan adatkészletet biztosítsunk, amely megkönnyíti több ezer modell egyidejű betanítása Azure Machine Learning.
Kézzel írt számjegyek MNIST-adatbázisa A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek egységesített méretűek és az azonos méretű képek közepére vannak rendezve.
A Microsoft News javaslati adatkészlete A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet hírajavat-kutatásokhoz. Referenciaadatkészletként szolgál a híra javaslathoz, és elősegíti a híra javaslatokkal és ajánlási rendszerekkel kapcsolatos kutatásokat.
Munkaszüneti A PyPI szabadnapos csomagja és a Wikipedia alapján készült nyilvános szabadnapi adatok, 38 országra vagy régióra vonatkozóan, 1970. és 2099 között.
Az orosz nyílt beszédet írott szövegre Az orosz open STT egy nagy méretű, nyílt beszédfelismerési adatkészlet az orosz nyelvhez