Was ist Azure Open Datasets, und wie können Sie dies verwenden?

Öffentliche Azure-Datasets sind kuratierte öffentliche Datasets, mit denen Sie Lösungen mit maschinellem Lernen szenariospezifische Features hinzufügen können, um genauere Modelle zu erzielen. Open Datasets befindet sich bei Microsoft Azure in der Cloud und ist in Azure Machine Learning integriert und für Azure Databricks und Machine Learning Studio (klassisch) jederzeit verfügbar. Sie können auch über APIs auf die Datasets zugreifen und sie in anderen Produkten wie Power BI und Azure Data Factory verwenden.

Die Datasets umfassen gemeinfreie Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können. Sie können in den öffentlichen Azure-Datasets auch Ihre eigenen öffentlichen Datasets freigeben.

Komponenten von öffentlichen Azure-Datasets

Kuratierte, vorbereitete Datasets

Die kuratierten offenen und öffentlichen Datasets, aus denen sich die öffentlichen Azure-Datasets zusammensetzen, sind für den Gebrauch in Workflows mit maschinellem Lernen optimiert.

Wenn Sie alle verfügbaren Datasets anzeigen möchten, navigieren Sie zum Azure Open Datasets-Katalog.

Data Science-Experten verbringen oft den Großteil ihrer Zeit mit dem Bereinigen und Vorbereiten von Daten für komplexe Analysen. Öffentliche Datasets werden in die Azure-Cloud kopiert und vorverarbeitet, um Ihnen Zeit zu sparen. In regelmäßigen Abständen werden Daten aus den Quellen abgerufen, z. B. über eine FTP-Verbindung mit der National Oceanic and Atmospheric Administration (NOAA). Anschließend werden Daten in einem strukturierten Format analysiert und mit Merkmalen wie Postleitzahlen oder dem Standort der nächsten Wetterstation angereichert.

Datasets werden in Azure gemeinsam mit Compute gehostet, um den Zugriff und die Bearbeitung zu vereinfachen.

Es folgen Beispiele von verfügbaren Datasets.

Wetterdaten

Dataset Notebooks BESCHREIBUNG
Integrierte NOAA-Oberflächendaten (ISD) Azure Notebooks
Azure Databricks
Weltweite stündliche Wetterdaten von NOAA mit der besten räumlichen Abdeckung in Nordamerika, Europa, Australien und Teilen von Asien. Täglich aktualisiert.
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
Stündliche US-Wettervorhersagedaten von NOAA für 15 Tage. Täglich aktualisiert.

Kalenderdaten

Dataset Notebooks BESCHREIBUNG
Gesetzliche Feiertage Azure Notebooks
Azure Databricks
Weltweite Feiertagsdaten für 41 Länder oder Regionen von 1970 bis 2099. Enthält Länder bzw. Regionen und die Angabe, ob die meisten Einwohner bezahlte Freizeit haben.

Zugriff auf Datasets

Mit einem Azure-Konto können Sie über Code oder über die Azure-Dienstschnittstelle auf öffentliche Datasets zugreifen. Die Daten werden in Azure gemeinsam mit Compute gehostet, damit Sie sie in Ihrer Lösung mit maschinellem Lernen verwenden können.

Open Datasets ist über Azure Machine Learning-Benutzeroberfläche und SDK verfügbar. Open Datasets bietet auch Azure Notebooks und Azure Databricks-Notebooks, mit denen Sie Daten mit Azure Machine Learning und Azure Databricks verbinden können. Auch über ein Python-SDK kann auf die Datasets zugegriffen werden.

Sie benötigen jedoch kein Azure-Konto, um auf Open Datasets zuzugreifen. Der Zugriff darauf ist in jeder Python-Umgebung mit oder ohne Spark möglich.

Anfordern von Datasets oder Beitragen zu diesen

Wenn Sie die gewünschten Daten nicht finden können, senden Sie uns eine E-Mail zum Anfordern eines Datasets oder Beitragen eines Datasets.

Nächste Schritte