Daten in Azure Machine Learning v1

Artikel
03/10/2024

GILT FÜR:Azure CLI ML-Erweiterung v1

Azure Machine Learning macht es einfach, eine Verbindung mit Ihren Daten in der Cloud herzustellen. Es wird eine Abstraktionsschicht über dem zugrunde liegenden Speicherdienst bereitgestellt, sodass Sie sicher auf Ihre Daten zugreifen und diese bearbeiten können, ohne für Ihren Speichertyp spezifischen Code schreiben zu müssen. Azure Machine Learning bietet auch diese Datenfunktionen:

Interoperabilität mit Pandas und Spark DataFrames
Versionsverwaltung und Nachverfolgung der Datenherkunft
Datenbeschriftung
Überwachung von Datenabweichungen

Datenworkflow

Um die Daten in ihrer cloudbasierten Speicherlösung zu verwenden, wird dieser Datenübermittlungsworkflow empfohlen. Der Workflow setzt voraus, dass Sie über ein Azure-Speicherkonto und Daten in einem cloudbasierten Azure-Speicherdienst verfügen.

Erstellen Sie einen Azure Machine Learning-Datenspeicher, um Verbindungsinformationen in Ihrem Azure-Speicher zu speichern.
Erstellen Sie in diesem Datenspeicher ein Azure Machine Learning-Dataset, um auf eine bestimmte Datei oder mehrere Dateien im zugrunde liegenden Speicher zu verweisen.
Um dieses Dataset in Ihrem Machine Learning-Experiment zu verwenden, können Sie es entweder
- Für das Modelltraining in das Computeziel Ihres Experiments einbinden
  
  OR
- Direkt in Azure Machine Learning-Lösungen, z. B. in Experimentausführungen für automatisiertes maschinelles Lernen (automatisiertes ML), Machine Learning-Pipelines oder dem Azure Machine Learning-Designer verwenden.
Erstellen Sie Datasetüberwachungen für Ihr Modellausgabedataset, um Datendrift zu erkennen.
Aktualisieren Sie für den erkanntem Datendrift Ihr Eingabedataset, und trainieren Sie Ihr Modell entsprechend neu.

Dieser Screenshot zeigt den empfohlenen Workflow:

Herstellen einer Verbindung zwischen Speicher und Datenspeichern

Azure Machine Learning Datenspeicher hosten Ihre Datenspeicher-Verbindungsinformationen sicher auf Azure, so dass Sie diese Informationen nicht in Ihren Skripten angeben müssen. Weitere Informationen zur Verbindung mit einem Speicherkonto und zum Datenzugriff in Ihrem zugrunde liegenden Speicherdienst finden Sie unter Registrieren und Erstellen eines Datenspeichers.

Diese unterstützten cloudbasierten Azure-Speicherdienste können sich als Datenspeicher registrieren:

Azure-Blobcontainer
Azure-Dateifreigabe
Azure Data Lake
Azure Data Lake Gen2
Azure SQL-Datenbank
Azure Database for PostgreSQL
Databricks-Dateisystem
Azure Database for MySQL

Tipp

Sie können Datenspeicher mit einer auf Anmeldeinformationen basierenden Authentifizierung für den Zugriff auf Speicherdienste erstellen, z. B. einen Dienstprinzipal oder ein SAS-Token (Shared Access Signature). Jeder mit Lesezugriff auf den Arbeitsbereich kann auf diese Anmeldeinformationen zugreifen.

Falls dies ein Problem darstellt, finden Sie unter Erstellen eines Datenspeichers mit identitätsbasiertem Datenzugriff weitere Informationen über Verbindungen zu Speicherdiensten.

Verweisen auf Daten im Speicher mit Datasets

Bei Azure Machine Learning-Datasets handelt es sich nicht um Kopien Ihrer Daten. Beim Erstellen eines Datasets selbst wird ein Verweis auf die Daten in ihrem Speicherdienst sowie eine Kopie der zugehörigen Metadaten erstellt.

Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen:

Keine zusätzlichen Speicherkosten.
Sie riskieren keine ungewollten Änderungen an Ihren ursprünglichen Datenquellen.
Der ML-Workflow wird verbessert und beschleunigt.

Erstellen Sie ein Dataset, um auf Daten in Ihrem Speicher zuzugreifen und die Daten in einem nutzbaren Objekt für Machine Learning-Aufgaben zusammenzustellen. Registrieren Sie das Dataset in Ihrem Arbeitsbereich, um es freizugeben und in verschiedenen Experimenten ohne Datenerfassungskomplexität wiederzuverwenden.

Sie können Datasets aus lokalen Dateien, öffentlichen URLs, Azure Open Datasets oder Azure-Speicherdiensten in Datenspeichern erstellen.

Die folgenden beiden Datasettypen stehen zur Verfügung:

Ein FileDataset verweist auf eine einzelne Datei oder auf mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs. Wenn Ihre Daten bereits bereinigt und für Trainingsexperimente bereit sind, können Sie Dateien, auf die von FileDatasets verwiesen wird, auf Ihr Computeziel herunterladen oder sie einbinden.
Ein TabularDataset stellt Daten in einem tabellarischen Format dar, indem die bereitgestellte Datei oder Liste von Dateien analysiert wird. Sie können ein TabularDataset zur weiteren Verarbeitung oder zur Bereinigung in einen Pandas- oder Spark-Datenrahmen laden. Eine vollständige Liste der Datenformate, aus denen Sie TabularDatasets erstellen können, finden Sie im Artikel über die TabularDatasetFactory-Klasse.

Diese Ressourcen bieten weitere Informationen über die Möglichkeiten von Datasets:

Versionieren und Nachverfolgen von Datenherkunft
Überwachen Ihres Datasets zur Unterstützung der Erkennung von Datendrift

Arbeiten mit Ihren Daten

Mit Datasets können Sie Machine Learning-Aufgaben über nahtlose Integration in Azure Machine Learning-Funktionen ausführen.

Erstellen eines Datenbeschriftungsprojekts
Trainieren von Machine Learning-Modellen:
Zugreifen auf Datasets zur Bewertung mit Batchrückschluss in Machine Learning-Pipelines
Einrichten einer Datasetüberwachung zur Erkennung von Datendrift

Beschriften von Daten mit Datenbeschriftungsprojekten

Das Bezeichnen großer Datenmengen in Machine-Learning-Projekten kann durchaus zu einem Problem werden. Projekte, die eine Komponente für maschinelles Sehen verwenden – z. B. zur Bildklassifizierung oder Objekterkennung – erfordern oft Tausende von Bildern und entsprechende Beschriftungen.

Azure Machine Learning bietet einen zentralen Ort zum Erstellen, Verwalten und Überwachen von Beschriftungsprojekten. Beschriftungsprojekte helfen dabei, Daten, Beschriftungen und Teammitglieder zu koordinieren, sodass Sie die Beschriftungsaufgaben effizienter verwalten können. Zu den zurzeit unterstützten Aufgaben gehören die Bildklassifizierung – mit mehreren Beschriftungen oder mehreren Klassen – und die Objektidentifikation mithilfe von Begrenzungsrahmen.

Erstellen Sie ein Bildbeschriftungsprojekt oder Textbeschriftungsprojekt, und geben Sie ein Dataset aus, das in Machine Learning-Experimenten verwendet werden kann.

Überwachen der Modellleistung mit Datendrift

Im Zusammenhang mit maschinellem Lernen bedeutet Datendrift die Veränderung von Modelleingabedaten, die zu einer Verschlechterung der Modellleistung führt. Das ist einer der Hauptgründe dafür, dass die Modellgenauigkeit im Laufe der Zeit abnimmt, und die Überwachung des Datendrifts hilft, Probleme mit der Modellleistung zu erkennen.

Weitere Informationen über die Erkennung und Warnung vor Datendrift bei neuen Daten in einem Dataset finden Sie unter Erstellen einer Dataset-Überwachung.

Nächste Schritte

Erstellen eines Dataset in Azure Machine Learning Studio oder mit dem Python SDK
Testen Sie Beispiele zum Trainieren von Datasets mit unseren Beispielnotebooks.