Co to są usługi Azure Open Datasets i jak można ich używać?
Usługa Azure Open Datasets to wyselekcjonowane publiczne zestawy danych, których można użyć do dodawania funkcji specyficznych dla scenariuszy do rozwiązań uczenia maszynowego w celu uzyskania bardziej dokładnych modeli. Otwarte zestawy danych znajdują się w chmurze na platformie Microsoft Azure i są zintegrowane z usługą Azure Machine Learning i są łatwo dostępne dla usług Azure Databricks i Machine Learning Studio (wersja klasyczna). Dostęp do zestawów danych można również uzyskać za pośrednictwem interfejsów API i używać ich w innych produktach, takich jak Power BI i Azure Data Factory.
Zestawy danych obejmują dane z domeny publicznej dotyczące pogody, spisu, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Możesz również udostępniać publiczne zestawy danych w usłudze Azure Open Datasets.
Wyselekcjonowane, przygotowane zestawy danych
Wyselekcjonowane otwarte publiczne zestawy danych w usłudze Azure Open Datasets są zoptymalizowane pod kątem użycia w przepływach pracy uczenia maszynowego.
Aby wyświetlić wszystkie dostępne zestawy danych, przejdź do katalogu usługi Azure Open Datasets.
Analitycy danych często spędzają większość czasu na czyszczeniu i przygotowywaniu danych do zaawansowanej analizy. Otwarte zestawy danych są kopiowane do chmury platformy Azure i wstępnie przetworzone, aby zaoszczędzić czas. W regularnych odstępach czasu dane są pobierane ze źródeł, takich jak połączenie FTP z National Oceanic and Atmospheric Administration (NOAA). Następnie dane są analizowane w formacie ustrukturyzowanym, a następnie wzbogacane odpowiednio o funkcje, takie jak kod pocztowy lub lokalizacja najbliższej stacji pogodowej.
Zestawy danych są współhostowane przy użyciu zasobów obliczeniowych w chmurze na platformie Azure, co ułatwia dostęp i manipulowanie nimi.
Poniżej przedstawiono przykłady dostępnych zestawów danych.
Dane o pogodzie
Zestaw danych | Notebooks | Opis |
---|---|---|
Dane zintegrowanej powierzchni NOAA (ISD) | Azure Notebooks Azure Databricks |
Dane o pogodzie godzinowej na całym świecie z NOAA z najlepszym pokryciem przestrzennym w Ameryka Północna, Europie, Australii i częściach Azji. Zaktualizowano codziennie. |
System globalnej prognozy NOAA (GFS) | Azure Notebooks Azure Databricks |
15-dniowe dane prognozy pogody w USA z NOAA. Zaktualizowano codziennie. |
Dane kalendarza
Zestaw danych | Notebooks | Opis |
---|---|---|
Święta | Azure Notebooks Azure Databricks |
Dane dotyczące świąt publicznych na całym świecie obejmujące 41 krajów lub regionów od 1970 do 2099 roku. Obejmuje kraj/region i informację, czy większość osób zapłaciła czas wolny. |
Dostęp do zestawów danych
Za pomocą konta platformy Azure możesz uzyskać dostęp do otwartych zestawów danych za pomocą kodu lub za pośrednictwem interfejsu usługi platformy Azure. Dane są przechowywane razem z zasobami obliczeniowymi w chmurze platformy Azure do użycia w rozwiązaniu uczenia maszynowego.
Platforma Open Datasets jest dostępna za pośrednictwem interfejsu użytkownika usługi Azure Machine Learning i zestawu SDK. Platforma Open Datasets udostępnia również usługę Azure Notebooks i notesy usługi Azure Databricks, których można użyć do łączenia danych z usług Azure Machine Learning i Azure Databricks. Do platformy Datasets można także uzyskać dostęp za pośrednictwem zestawu SDK języka Python.
Do uzyskania dostępu do platformy Open Datasets nie jest jednak potrzebne konto platformy Azure; możesz do niej uzyskać dostęp z dowolnego środowiska Python z platformą Spark lub bez niej.
Żądanie lub współtworzenie zestawów danych
Jeśli nie możesz znaleźć żądanych danych, wyślij nam wiadomość e-mail na adres , aby poprosić o zestaw danych lub współtworzyć zestaw danych.