Co jsou Azure Open Datasets a jak je můžete používat?

Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do služby Azure Machine Learning a snadno dostupné pro Azure Databricks a Machine Learning Studio (klasické). K datovým sadám můžete přistupovat také prostřednictvím rozhraní API a používat je v jiných produktech, jako jsou Power BI a Azure Data Factory.

Datové sady obsahují data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která pomáhají trénovat modely strojového učení a obohacovat prediktivní řešení. Veřejné datové sady můžete také sdílet v Azure Open Datasets.

Komponenty Azure Open Datasets

Kurátorované, připravené datové sady

Kurátorované otevřené veřejné datové sady v Azure Open Datasets jsou optimalizované pro využití v pracovních postupech strojového učení.

Pokud chcete zobrazit všechny dostupné datové sady, přejděte do katalogu Azure Open Datasets Catalog.

Datoví vědci často tráví většinu času čištěním a přípravou dat pro pokročilou analýzu. Otevřené datové sady se zkopírují do cloudu Azure a předzpracují, abyste ušetřili čas. V pravidelných intervalech se data natahují ze zdrojů, například připojením FTP k Národnímu úřadu pro oceán a atmosféru (NOAA). Dále se data analyzují do strukturovaného formátu a podle potřeby se obohacují o funkce, jako je PSČ nebo umístění nejbližší meteorologické stanice.

Datové sady jsou hostované společně s cloudovými výpočetními prostředky v Azure, což usnadňuje přístup a manipulaci s nimi.

Níže jsou uvedené příklady dostupných datových sad.

Data o počasí

Datová sada Notebooks Popis
NOAA Integrated Surface Data (ISD) Azure Notebooks
Azure Databricks
Data o počasí po hodinách po celém světě z NOAA s nejlepším prostorovým pokrytím v Severní Amerika, Evropě, Austrálii a částech Asie. Aktualizováno každý den.
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
15denní hodinové předpověď počasí v USA data z NOAA. Aktualizováno každý den.

Data kalendáře

Datová sada Notebooks Popis
Svátcích Azure Notebooks
Azure Databricks
Data o svátku po celém světě, která pokrývají 41 zemí nebo oblastí od roku 1970 do roku 2099. Zahrnuje zemi/oblast a informace o tom, jestli má většina lidí placené volno.

Přístup k datovým sadám

Účet Azure nabízí přístup k otevřeným datovým sadám pomocí kódu nebo přes rozhraní služby Azure. Data jsou společně umístěná v cloudových výpočetních prostředcích Azure a můžete je využívat ve svém řešení strojového učení.

Datové sady Open Datasets jsou dostupné prostřednictvím uživatelského rozhraní a sady SDK služby Azure Machine Learning. Služba Open Datasets také nabízí poznámkové bloky Azure Notebooks a Azure Databricks, pomocí kterých můžete propojit data se službami Azure Machine Learning a Azure Databricks. K datovým sadám můžete získat přístup i prostřednictvím sady Python SDK.

Pro přístup k datovým sadám Open Datasets ale nevyžaduje účet Azure – můžete k nim získat přístup k libovolného prostředí založeného na Pythonu se Sparkem nebo bez něj.

Vyžádání nebo přispívání datových sad

Pokud nemůžete najít požadovaná data, pošlete nám e-mail s žádostí o datovou sadu nebo datovou sadou přispívat.

Další kroky