Zestawy danych licencji Azure Open

Zwiększ dokładność modeli uczenia maszynowego przy użyciu publicznie dostępnych zestawów danych. Oszczędzaj czas na odnajdywaniu i przygotowywaniu danych, korzystając z przygotowanych zestawów danych, które są gotowe do użycia w projektach uczenia maszynowego.

Transport

Zestaw danych Opis
TartanAir: Zestaw danych symulacji AirSim Dane pojazdów autonomicznych AirSim generowane w celu rozwiązania jednoczesnej lokalizacji i mapowania (SLAM).
NYC Taxi & Limousine Commission — rekordy przejazdów żółtymi taksówkami Rekordy przejazdów żółtymi taksówkami obejmują daty/godziny rozpoczęcia i zakończenia podróży, lokalizacje rozpoczęcia i zakończenia podróży, odległości przejazdów, opłaty za przejazdy, typy stawek, typy płatności i liczby pasażerów zgłoszone przez kierowcy.
NYC Taxi & Limousine Commission — rekordy przejazdów zielonymi taksówkami Rekordy dotyczące przejazdów zielonymi taksówkami obejmują daty/godziny rozpoczęcia i zakończenia podróży, lokalizacje rozpoczęcia i zakończenia podróży, odległości podróży, opłaty za przejazdy, typy stawek, typy płatności i liczby pasażerów zgłoszone przez kierowcy.
NYC Taxi & Limousine Commission — rekordy podróży For-Hire Vehicle (FHV) Rekordy For-Hire podróży pojazdami obejmują numer licencji podstawowej wysyłki oraz datę rozpoczęcia podróży, czas i identyfikator lokalizacji strefy taksówek.

Kondycja i genomika

Zestaw danych Opis
COVID-19 Data Lake Kolekcja usługi COVID-19 Data Lake zawiera zestawy danych związane z chorobą COVID-19, pochodzące z różnych źródeł, obejmujące dane śledzenia testowania i wyników pacjentów, politykę utrzymania dystansu społecznego, przepustowość szpitali, mobilność itp.
Otwarty zestaw danych badań dotyczących coVID-19 Zestaw danych obejmujący pełne teksty i metadane artykułów naukowych dotyczących epidemii COVID-19 i koronawirusa, zoptymalizowany pod kątem odczytu przez maszyny i udostępniony do użytku przez globalną społeczność badaczy.
Genomics Data Lake Genomics Data Lake udostępnia różne publiczne zestawy danych, do których można uzyskać bezpłatny dostęp i które można zintegrować z przepływami pracy i aplikacjami analizy genomiki. Zestawy danych obejmują sekwencje genów, informacje o odmianie oraz metadane podmiotu/próbki w formatach plików BAM, FASTA, VCF i CSV.

Praca i ekonomia

Zestaw danych Opis
US Labor Force Statistics (Statystyki dotyczące siły roboczej w USA) US Labor Force Statistics (Statystyki dotyczące siły roboczej w USA) dostarczają statystyk dotyczących siły roboczej — zasób siły roboczej, odsetek ludności aktywnej zawodowo oraz populacja z wyłączeniem wojskowych i osób przebywających w instytucjach, z podziałem według wieku, płci, rasy i pochodzenia etnicznego. w Stanach Zjednoczonych.
US National Employment Hours and Earnings (Liczba przepracowanych godzin i zarobki w skali kraju w USA) Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
US State Employment Hours and Earnings (Liczba przepracowanych godzin i zarobki w skali stanów w USA) Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w USA) Zestawy danych programu US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w Stanach Zjednoczonych) dostarczają miesięcznych i rocznych danych dotyczących zatrudnienia, bezrobocia i zasobu siły roboczej w poszczególnych regionach i okręgach spisowych, stanach, hrabstwach, obszarach metropolitalnych i wielu miastach w Stanach Zjednoczonych.
Amerykański wskaźnik cen towarów i usług konsumpcyjnych Wskaźnik cen towarów i usług konsumpcyjnych (CPI) mierzy średnią zmianę w czasie cen zakupu rynkowego koszyka towarów i usług konsumpcyjnych dla konsumentów mieszkających w miastach.
Amerykański wskaźnik cen dóbr produkcyjnych — przemysł Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.
Amerykański wskaźnik cen dóbr produkcyjnych — towary Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.

Populacja i bezpieczeństwo

Zestaw danych Opis
Populacja amerykańska według hrabstwa Populacja USA według płci i rasy dla każdego amerykańskiego hrabstwa, na podstawie spisów ludności z roku 2000 i 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Populacja amerykańska według kodu pocztowego Populacja USA według płci i rasy dla każdego amerykańskiego kodu pocztowego, na podstawie spisu ludności z roku 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Dane dotyczące bezpieczeństwa w Bostonie Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Bostonie. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Dane dotyczące bezpieczeństwa w Chicago Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Chicago. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Dane dotyczące bezpieczeństwa w Nowym Jorku Ten zestaw danych zawiera wszystkie zgłoszenia na numer 311 w Nowym Jorku od roku 2010. It’s stored in Parquet format and updated daily(It’ przechowywane w formacie Parquet i aktualizowane codziennie.
Dane dotyczące bezpieczeństwa w San Francisco Wezwania straży pożarnej oraz zgłoszenia na numer 311 w San Francisco. Ten zestaw danych zawiera historyczne rekordy od roku 2015.
Seattle Safety Data Zgłoszenia na numer 911 straży pożarnej miasta Seattle. Ten zestaw danych jest codziennie aktualizowany i zawiera historyczne rekordy od roku 2010

Uzupełniające i typowe zestawy danych

Zestaw danych Opis
Cukrzycy Zestaw danych Diabetes (Cukrzyca) ma 442 próbki z 10 funkcjami, dzięki czemu doskonale nadaje się do rozpoczęcia korzystania z algorytmów uczenia maszynowego.
Symulowane dane sprzedaży OJ Ten zestaw danych pochodzi z zestawu danych OJ firmy Dominick i zawiera dodatkowe symulowane dane w celu zapewnienia zestawu danych, który ułatwia jednoczesne trenowania tysięcy modeli na Azure Machine Learning.
Baza danych MNIST cyfr odręcznych Baza danych napisanych odręcznie cyfr MNIST obejmuje zestaw treningowy zawierający 60 000 przykładów oraz zestaw testowy zawierający 10 000 przykładów. Cyfry zostały znormalizowane pod względem rozmiaru i wyśrodkowane na obrazie o stałym rozmiarze.
Microsoft News zestawu danych zaleceń Microsoft News Dataset (MIND) to zestaw danych o dużej skali do badania rekomendacji wiadomości. Służy jako zestaw danych testów porównawczych dla rekomendacji wiadomości i ułatwia badania w systemach rekomendacji wiadomości i rekomendacji.
Święta Dane dotyczące świąt na całym świecie pobrane z pakietu PyPI holidays oraz witryny Wikipedia, obejmujące 38 krajów i regionów w latach 1970–2099.
Otwarta mowa w języku rosyjskim na tekst Russian Open STT to otwarty zestaw danych mowy na tekst na dużą skalę dla języka rosyjskim