Co jsou otevřené datové sady Azure a jak je můžete použít?
Otevřené datové sady v Azure jsou spravované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénář do řešení Machine Learning pro přesnější modely. Otevřené datové sady jsou v cloudu na Microsoft Azure a jsou integrované do Azure Machine Learning a snadno dostupné pro Azure Databricks a Machine Learning Studio (Classic). K datovým sadám můžete také přistupovat prostřednictvím rozhraní API a používat je v jiných produktech, například Power BI a Azure Data Factory.
Datové sady zahrnují data z veřejných domén pro počasí, sčítání, svátky, veřejné zabezpečení a umístění, které vám pomůžou naučit modely strojového učení a rozšířit prediktivní řešení. Veřejné datové sady můžete sdílet taky v otevřených datových sadách Azure.

Zpracované, připravené datové sady
Spravované otevřené veřejné datové sady v Azure Open DataSets jsou optimalizované pro využití v pracovních postupech služby Machine Learning.
Všechny datové sady, které jsou k dispozici, zobrazíte tak, že přejdete do katalogu Open DataSets v Azure.
Odborníci přes data často tráví většinu času, který čistí a připravují data pro pokročilé analýzy. Otevřené datové sady se zkopírují do cloudu Azure a předzpracované za účelem úspory času. V pravidelných intervalech jsou data načítána ze zdrojů, například prostřednictvím připojení FTP k národním oceán a správě atmosféry (NOAA). V dalším kroku se data analyzují do strukturovaného formátu a pak se rozšiřují podle potřeby s funkcemi, jako je například PSČ nebo umístění nejbližších povětrnostních stanic.
Datové sady jsou spoluhostovány s cloudovým výpočetním prostředím v Azure, což usnadňuje přístup a manipulaci.
Následují příklady datových sad, které jsou k dispozici.
Data o počasí
| Datová sada | Notebooks | Popis |
|---|---|---|
| NOAA Integrated Surface data (ISD) | Azure Notebooks Azure Databricks |
Celosvětově hodinově povětrnostní data z NOAA s nejlepším pokrytím v Severní Amerika, Evropě, Austrálii a částech Asie. Aktualizováno denně. |
| Systém NOAA Global prognóze (GFS) | Azure Notebooks Azure Databricks |
data předpovědi z NOAAu z 15. dne v USA Aktualizováno denně. |
Data kalendáře
| Datová sada | Notebooks | Popis |
|---|---|---|
| Veřejné svátky | Azure Notebooks Azure Databricks |
Celosvětové veřejné svátky, které zahrnují 41 zemí nebo oblastí od 1970 do 2099. Zahrnuje zemi a to, jestli má většina lidí placené volno. |
Přístup k datovým sadám
Pomocí účtu Azure máte přístup k otevřeným datovým sadám pomocí kódu nebo přes rozhraní služby Azure. Data se společně nacházejí v cloudových výpočetních prostředcích Azure pro použití ve vašem řešení Machine Learning.
Otevřené datové sady jsou dostupné prostřednictvím uživatelského rozhraní Azure Machine Learning a sady SDK. Otevřené datové sady také poskytují poznámkové bloky Azure Notebooks a Azure Databricks, které můžete použít k připojení dat k Azure Machine Learning a Azure Databricks. K datovým sadám lze také přistupovat prostřednictvím sady Python SDK.
Pro přístup k otevřeným datovým sadám ale nepotřebujete účet Azure. k nim máte přístup z libovolného prostředí Pythonu s Sparkem nebo bez něj.
Datové sady pro žádosti nebo Contribute
Pokud nemůžete najít požadovaná data, pošlete nám e-mail s žádostí o datovou sadu nebo přispívat na datovou sadu.