Co to są usługi Azure Open Datasets i jak można ich używać?

Usługa Azure Open Datasets to wyselekcjonowane publiczne zestawy danych, których można użyć do dodawania funkcji specyficznych dla scenariuszy do rozwiązań uczenia maszynowego w celu uzyskania bardziej dokładnych modeli. Otwarte zestawy danych znajdują się w chmurze na platformie Microsoft Azure i są zintegrowane z usługą Azure Machine Learning i są łatwo dostępne dla usług Azure Databricks i Machine Learning Studio (wersja klasyczna). Dostęp do zestawów danych można również uzyskać za pośrednictwem interfejsów API i używać ich w innych produktach, takich jak Power BI i Azure Data Factory.

Zestawy danych obejmują dane z domeny publicznej dotyczące pogody, spisu, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Możesz również udostępniać publiczne zestawy danych w usłudze Azure Open Datasets.

Składniki usługi Azure Open Datasets

Wyselekcjonowane, przygotowane zestawy danych

Wyselekcjonowane otwarte publiczne zestawy danych w usłudze Azure Open Datasets są zoptymalizowane pod kątem użycia w przepływach pracy uczenia maszynowego.

Aby wyświetlić wszystkie dostępne zestawy danych, przejdź do katalogu usługi Azure Open Datasets.

Analitycy danych często spędzają większość czasu na czyszczeniu i przygotowywaniu danych do zaawansowanej analizy. Otwarte zestawy danych są kopiowane do chmury platformy Azure i wstępnie przetworzone, aby zaoszczędzić czas. W regularnych odstępach czasu dane są pobierane ze źródeł, takich jak połączenie FTP z National Oceanic and Atmospheric Administration (NOAA). Następnie dane są analizowane w formacie ustrukturyzowanym, a następnie wzbogacane odpowiednio o funkcje, takie jak kod pocztowy lub lokalizacja najbliższej stacji pogodowej.

Zestawy danych są współhostowane przy użyciu zasobów obliczeniowych w chmurze na platformie Azure, co ułatwia dostęp i manipulowanie nimi.

Poniżej przedstawiono przykłady dostępnych zestawów danych.

Dane o pogodzie

Zestaw danych Notebooks Opis
Dane zintegrowanej powierzchni NOAA (ISD) Azure Notebooks
Azure Databricks
Dane o pogodzie godzinowej na całym świecie z NOAA z najlepszym pokryciem przestrzennym w Ameryka Północna, Europie, Australii i częściach Azji. Zaktualizowano codziennie.
System globalnej prognozy NOAA (GFS) Azure Notebooks
Azure Databricks
15-dniowe dane prognozy pogody w USA z NOAA. Zaktualizowano codziennie.

Dane kalendarza

Zestaw danych Notebooks Opis
Święta Azure Notebooks
Azure Databricks
Dane dotyczące świąt publicznych na całym świecie obejmujące 41 krajów lub regionów od 1970 do 2099 roku. Obejmuje kraj/region i informację, czy większość osób zapłaciła czas wolny.

Dostęp do zestawów danych

Za pomocą konta platformy Azure możesz uzyskać dostęp do otwartych zestawów danych za pomocą kodu lub za pośrednictwem interfejsu usługi platformy Azure. Dane są przechowywane razem z zasobami obliczeniowymi w chmurze platformy Azure do użycia w rozwiązaniu uczenia maszynowego.

Platforma Open Datasets jest dostępna za pośrednictwem interfejsu użytkownika usługi Azure Machine Learning i zestawu SDK. Platforma Open Datasets udostępnia również usługę Azure Notebooks i notesy usługi Azure Databricks, których można użyć do łączenia danych z usług Azure Machine Learning i Azure Databricks. Do platformy Datasets można także uzyskać dostęp za pośrednictwem zestawu SDK języka Python.

Do uzyskania dostępu do platformy Open Datasets nie jest jednak potrzebne konto platformy Azure; możesz do niej uzyskać dostęp z dowolnego środowiska Python z platformą Spark lub bez niej.

Żądanie lub współtworzenie zestawów danych

Jeśli nie możesz znaleźć żądanych danych, wyślij nam wiadomość e-mail na adres , aby poprosić o zestaw danych lub współtworzyć zestaw danych.

Następne kroki