Wat zijn Azure Open Datasets en hoe kunt u ze gebruiken?

Azure Open Datasets zijn samengestelde openbare gegevenssets die u kunt gebruiken om scenariospecifieke functies toe te voegen aan machine learning-oplossingen voor nauwkeurigere modellen. Open Datasets bevinden zich in de cloud in Microsoft Azure en worden geïntegreerd in Azure Machine Learning en zijn beschikbaar voor Azure Databricks en Machine Learning Studio (klassiek). U kunt de gegevenss ook openen via API's en die gebruiken in andere producten, zoals Power BI en Azure Data Factory.

Gegevenssets omvatten gegevens uit het openbare domein voor weer, tellingen, vakanties, publieke veiligheid en locaties die u helpen machine learning-modellen te trainen en voorspellende oplossingen te verrijken. U kunt uw openbare gegevenssets ook delen in Azure Open Datasets.

Azure Open Datasets-onderdelen

Gecureerde, voorbereide gegevenssets

Gecureerde openbare gegevenssets in Azure Open Datasets zijn geoptimaliseerd voor gebruik in machine learning-workflows.

Als u alle beschikbare gegevenssets wilt bekijken, gaat u naar de Azure Open Datasets-catalogus.

Gegevenswetenschappers besteden vaak veel tijd aan gegevensopschoning en -voorbereiding voor geavanceerde analyses. Open Datasets worden gekopieerd naar de Azure-cloud en vooraf verwerkt om u tijd te besparen. Met regelmatige intervallen worden gegevens uit de bronnen opgehaald, bijvoorbeeld via een FTP-verbinding met de National Oceanic and Atmospheric Administration (NOAA). Vervolgens worden gegevens geparseerd in een gestructureerde indeling en naar geschiktheid verrijkt met functies zoals een postcode of locatie van het dichtstbijzijnde weerstation.

Gegevenssets worden meegehost in cloudbereking in Azure, waardoor toegang en manipulatie eenvoudiger is.

Hieronder staan voorbeelden van beschikbare gegevenssets.

Weergegevens

Gegevensset Notebooks Beschrijving
NOAA Integrated Surface Data (ISD) Azure Notebooks
Azure Databricks
Wereldwijde weersgegevens per uur van NOAA met de beste ruimtelijke dekking in Noord-Amerika, Europa, Australië en delen van Azië. Dagelijks bijgewerkt.
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
Elk uur weersvoorspellingsgegevens in de VS van NOA voor de komende 15 dagen. Dagelijks bijgewerkt.

Kalendergegevens

Gegevensset Notebooks Beschrijving
Feestdagen Azure Notebooks
Azure Databricks
Wereldwijde feestdagen met 41 landen of regio's, van 1970 tot 2099. Omvat land/regio en of de meeste mensen betaald verlof hebben.

Gegevenssets openen

Met een Azure-account hebt u via code of via de interface van de Azure-service toegang tot Open Datasets. De gegevens worden op dezelfde locatie geplaats als Azure Cloud-rekenresources voor gebruik in uw Machine Learning-oplossing.

Open Datasets zijn beschikbaar via de gebruikersinterface van Azure Machine Learning en SDK. Open Datasets biedt ook Azure-notebooks en Azure Databricks-notebooks die u kunt gebruiken om gegevens te verbinden met Azure Machine Learning en Azure Databricks. Gegevenssets kunnen ook worden geopend via een Python SDK.

U hebt echter geen Azure-account nodig om toegang te krijgen tot Open Datasets. U kunt toegang krijgen vanuit elke Python-omgeving, met of zonder Spark.

Gegevenssets aanvragen of bijdragen

Als u de gegevens niet kunt vinden die u zoekt, kunt u ons een mail sturen om een gegevensset aan te vragen of een gegevensset bij te dragen.

Volgende stappen