Zwiększ dokładność modeli uczenia maszynowego za pomocą publicznie dostępnych zestawów danych. Oszczędzaj czas na odnajdywanie i przygotowywanie danych przy użyciu wyselekcjonowanych zestawów danych gotowych do użycia w projektach uczenia maszynowego.
Żółte rekordy przejazdów taksówką obejmują daty odbioru i drop-off/godziny, lokalizacje odbioru i drop-off, odległości podróży, taryfy towarzyskich, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowcę.
Rekordy zielonych przejazdów taksówką obejmują daty odbioru i drop-off/godziny, lokalizacje odbioru i drop-off, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
Rekordy podróży For-Hire Pojazd obejmują numer licencji podstawowej wysyłki oraz identyfikator lokalizacji lokalizacji odbioru, godziny i strefy taksówek.
Kolekcja usługi COVID-19 Data Lake zawiera zestawy danych związane z chorobą COVID-19, pochodzące z różnych źródeł, obejmujące dane śledzenia testowania i wyników pacjentów, politykę utrzymania dystansu społecznego, przepustowość szpitali, mobilność itp.
Zestaw danych obejmujący pełne teksty i metadane artykułów naukowych dotyczących epidemii COVID-19 i koronawirusa, zoptymalizowany pod kątem odczytu przez maszyny i udostępniony do użytku przez globalną społeczność badaczy.
Usługa Genomics Data Lake udostępnia różne publiczne zestawy danych, do których można uzyskać bezpłatny dostęp i zintegrować je z przepływami pracy i aplikacjami analizy genomiki. Zestawy danych obejmują sekwencje genów, informacje o odmianie oraz metadane podmiotu/próbki w formatach plików BAM, FASTA, VCF i CSV.
US Labor Force Statistics (Statystyki dotyczące siły roboczej w USA) dostarczają statystyk dotyczących siły roboczej — zasób siły roboczej, odsetek ludności aktywnej zawodowo oraz populacja z wyłączeniem wojskowych i osób przebywających w instytucjach, z podziałem według wieku, płci, rasy i pochodzenia etnicznego. w Stanach Zjednoczonych.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Zestawy danych programu US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w Stanach Zjednoczonych) dostarczają miesięcznych i rocznych danych dotyczących zatrudnienia, bezrobocia i zasobu siły roboczej w poszczególnych regionach i okręgach spisowych, stanach, hrabstwach, obszarach metropolitalnych i wielu miastach w Stanach Zjednoczonych.
Wskaźnik cen towarów i usług konsumpcyjnych (CPI) mierzy średnią zmianę w czasie cen zakupu rynkowego koszyka towarów i usług konsumpcyjnych dla konsumentów mieszkających w miastach.
Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.
Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.
Populacja USA według płci i rasy dla każdego amerykańskiego hrabstwa, na podstawie spisów ludności z roku 2000 i 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Populacja USA według płci i rasy dla każdego amerykańskiego kodu pocztowego, na podstawie spisu ludności z roku 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Bostonie. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Chicago. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Ten zestaw danych zawiera wszystkie zgłoszenia na numer 311 w Nowym Jorku od roku 2010. Itâ € ™s przechowywane w formacie Parquet i aktualizowane codziennie.
Zestaw danych Diabetes (Cukrzyca) ma 442 próbki z 10 funkcjami, dzięki czemu doskonale nadaje się do rozpoczęcia korzystania z algorytmów uczenia maszynowego.
Ten zestaw danych pochodzi z zestawu danych OJ Firmy Dominick i zawiera dodatkowe symulowane dane w celu udostępnienia zestawu danych, który ułatwia jednoczesne trenowanie tysięcy modeli na Azure Machine Learning.
Baza danych napisanych odręcznie cyfr MNIST obejmuje zestaw treningowy zawierający 60 000 przykładów oraz zestaw testowy zawierający 10 000 przykładów. Cyfry zostały znormalizowane pod względem rozmiaru i wyśrodkowane na obrazie o stałym rozmiarze.
Microsoft News Dataset (MIND) to zestaw danych na dużą skalę na potrzeby badań rekomendacji dotyczących wiadomości. Służy jako zestaw danych porównawczych dla rekomendacji dotyczących wiadomości i ułatwia badania w systemach rekomendacji i rekomendacji wiadomości.