Vad är Azure Open-datauppsättningar och hur kan du använda dem?

Azure Open-datauppsättningar är granskade offentliga data uppsättningar som du kan använda för att lägga till scenario-/regionsspecifika funktioner till maskin inlärnings lösningar för mer exakta modeller. Öppna data uppsättningar finns i molnet på Microsoft Azure och är integrerade i Azure Machine Learning och är tillgängliga för Azure Databricks och Machine Learning Studio (klassisk). Du kan också komma åt data uppsättningarna via API: er och använda dem i andra produkter, till exempel Power BI och Azure Data Factory.

Data uppsättningar omfattar data från offentliga domäner för väder, räkning, helger, offentlig säkerhet och plats som hjälper dig att träna maskin inlärnings modeller och utöka förutsägelse lösningar. Du kan också dela dina offentliga data uppsättningar i Azure Open-datauppsättningar.

Azure Open data uppsättnings komponenter

Granskade, för beredda data uppsättningar

Granskade öppna offentliga data uppsättningar i Azure Open-datauppsättningar är optimerade för användning i Machine Learning-arbetsflöden.

Om du vill se alla tillgängliga data uppsättningar går du till Azures öppna data uppsättnings katalog.

Data forskare lägger ofta till majoriteten av tiden som rensas och förbereder data för avancerad analys. Öppna data uppsättningar kopieras till Azure-molnet och förbearbetas för att spara tid. Med jämna mellanrum hämtas data från källorna, t. ex. via en FTP-anslutning till National ensamt-NOAA (ensamt atmosfär administration). Därefter tolkas data i ett strukturerat format och berikas sedan som det är lämpligt med funktioner som post nummer eller plats för närmaste väder Station.

Data uppsättningar är samvärdna med moln beräkning i Azure och underlättar åtkomst och manipulering.

Följande är exempel på data uppsättningar som är tillgängliga.

Väder data

Datamängd Notebooks Description
NOAA-integrerade Surface-data (ISD) Azure Notebooks
Azure Databricks
Worldwide varje timmes väder data från NOAA med den bästa spatiala täckningen i Nordamerika, Europa, Australien och delar av Asien. Uppdateras varje dag.
NOAA global Forecast system (GFS) Azure Notebooks
Azure Databricks
15 dagars amerikanska väder prognoser från NOAA. Uppdateras varje dag.

Kalender data

Datamängd Notebooks Description
Offentliga helgdagar Azure Notebooks
Azure Databricks
Världs omfattande offentliga helgdags data som täcker 41 länder eller regioner från 1970 till 2099. Inkluderar land och om de flesta har betalat tids gräns.

Åtkomst till data uppsättningar

Med ett Azure-konto kan du komma åt öppna data uppsättningar med hjälp av kod eller via Azure-tjänstens gränssnitt. Data är samplacerade med Azures moln beräknings resurser för användning i din Machine Learning-lösning.

Öppna data uppsättningar är tillgängliga via Azure Machine Learning användar gränssnitt och SDK. Öppna data uppsättningar innehåller också Azure Notebooks och Azure Databricks antecknings böcker som du kan använda för att ansluta data till Azure Machine Learning och Azure Databricks. Data uppsättningar kan också nås via en python SDK.

Du behöver dock inget Azure-konto för att få åtkomst till öppna data uppsättningar. Du kan komma åt dem från valfri python-miljö med eller utan Spark.

Begär ande eller Contribute-datauppsättningar

Om du inte kan hitta de data som du vill ha, kan du skicka e-post till en data uppsättning eller bidra med en data uppsättning.

Nästa steg