Importieren von Datenressourcen (Vorschau)

Artikel
04/22/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

In diesem Artikel erfahren Sie, wie Sie Daten aus externen Quellen in die Azure Machine Learning-Plattform importieren. Bei einem erfolgreichen Datenimport wird automatisch ein Azure Machine Learning-Datenobjekt mit dem Namen, der bei diesem Imports angegeben wurde, erstellt und registriert. Azure Machine Learning-Datenobjekte ähneln Lesezeichen (Favoriten) in Webbrowsern. Sie müssen sich keine langen Speicherpfade (URIs) merken, die auf Ihre am häufigsten verwendeten Daten verweisen. Stattdessen können Sie ein Datenobjekt erstellen und dann per Anzeigename auf dieses zugreifen.

Bei einem Datenimport wird ein Cache der Quelldaten zusammen mit Metadaten für einen schnelleren und zuverlässigen Datenzugriff in Azure Machine Learning-Trainingsaufträgen erstellt. Der Datencache vermeidet Netzwerk- und Verbindungseinschränkungen. Die zwischengespeicherten Daten verfügen über eine Versionsverwaltung, um die Reproduzierbarkeit zu unterstützen. Dadurch werden Versionsverwaltungsfunktionen für Daten bereitgestellt, die aus SQL Server-Quellen importiert werden. Darüber hinaus geben die zwischengespeicherten Daten die Datenherkunft für Überprüfungsaufgaben an. Ein Datenimport verwendet ADF (Azure Data Factory Pipelines) im Hintergrund, was bedeutet, dass Benutzer komplexe Interaktionen mit ADF vermeiden können. Die Verwaltung der Größe des ADF-Computeressourcenpools, die Bereitstellung von Computeressourcen und der Löschung, um die Datenübertragung zu optimieren, indem eine ordnungsgemäße Parallelisierung bestimmt wird, geschehen bei Azure Machine Learning ebenfalls im Hintergrund.

Die übertragenen Daten werden partitioniert und sicher als Parquet-Dateien in Azure Storage gespeichert. Dies ermöglicht eine schnellere Verarbeitung während des Trainings. ADF-Computekosten entstehen nur für die Zeit, die für Datenübertragungen verwendet wird. Speicherkosten entstehen nur für die Zeit, die zum Zwischenspeichern der Daten erforderlich ist, da zwischengespeicherte Daten eine Kopie der Daten sind, die aus einer externen Quelle importiert werden. Azure Storage hostet diese externe Quelle.

Das Cachefeature umfasst Vorabkosten für Compute und Speicher. Es macht sich jedoch bezahlt und kann Geld sparen, da es die wiederkehrenden Kosten für Computeressourcen für Trainings im Vergleich zu direkten Verbindungen zu externen Quelldaten während eines Trainings reduziert. Daten werden als Parquet-Dateien zwischengespeichert, wodurch das Auftragstraining schneller und zuverlässiger gegenüber Verbindungstimeouts für größere Datasets wird. Dies führt zu weniger Wiederholungen und weniger Trainingsfehlern.

Sie können Daten aus Amazon S3, Azure SQL und Snowflake importieren.

Wichtig

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar.

Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Voraussetzungen

Sie benötigen Folgendes, um Datenressourcen zu erstellen und zu nutzen:

Ein Azure-Abonnement. Wenn Sie nicht über ein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen. Probieren Sie die kostenlose oder kostenpflichtige Version von Azure Machine Learning aus.
Ein Azure Machine Learning-Arbeitsbereich. Erstellen von Arbeitsbereichsressourcen
Die CLI/das SDK von Azure Machine Learning muss installiert sein.
Erstellte Arbeitsbereichsverbindungen

Hinweis

Vergewissern Sie sich für einen erfolgreichen Datenimport, dass Sie das neueste Azure-ai-ml-Paket (Version 1.15.0 oder höher) für das SDK und die ML-Erweiterung (Version 2.15.1 oder höher) installiert haben.

Wenn Sie über ein älteres SDK-Paket oder eine ältere CLI-Erweiterung verfügen, entfernen Sie das alte Paket, und installieren Sie das neue Paket mit dem Code, der im Registerkartenabschnitt angezeigt wird. Befolgen Sie die hier gezeigten Anweisungen für SDK und CLI:

Codeversionen

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip uninstall azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)

Importieren aus einer externen Datenbank als mltable-Datenobjekt

Hinweis

Die externen Datenbanken können Snowflake-, Azure SQL- und andere Formaten aufweisen.

Die folgenden Codebeispiele können Daten aus externen Datenbanken importieren. Die connection, die die Importaktion verarbeitet, bestimmt die Metadaten der externen Datenbankdatenquelle. In diesem Beispiel importiert der Code Daten aus einer Snowflake-Ressource. Die Verbindung verweist auf eine Snowflake-Quelle. Mit einer kleinen Änderung kann die Verbindung auf eine Azure SQL-Datenbankquelle und eine Azure SQL-Datenbankquelle verweisen. Das aus einer externen Datenbankquelle importierte Medienobjekt „type“ ist mltable.

Erstellen Sie die YAML-Datei <file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Führen Sie als nächstes in der CLI den folgenden Befehl aus:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Hinweis

Das hier gezeigte Beispiel beschreibt den Prozess für eine Snowflake-Datenbank. Dieser Prozess deckt jedoch andere externe Datenbankformate ab, z. B. Azure SQL usw.

Navigieren Sie zu Azure Machine Learning Studio.
Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus. Wählen Sie als Nächstes die Registerkarte Datenimport aus. Wählen Sie dann „Erstellen“ aus, wie in diesem Screenshot gezeigt:
Wählen Sie auf dem Bildschirm „Datenquelle“ die Option „Snowflake“ und dann „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie auf dem Bildschirm „Datentyp“ die Werte ein. Der Wert Typ ist standardmäßig Tabelle (mltable) festgelegt. Wählen Sie dann „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie auf dem Bildschirm „Datenimport erstellen“ die Werte ein, und wählen Sie „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie die Werte im Bildschirm „Datenspeicher für Ausgabe auswählen“ ein, und wählen Sie „Weiter“ aus, wie in diesem Screenshot gezeigt. Verwalteter Datenspeicher des Arbeitsbereichs ist standardmäßig ausgewählt. Der Pfad wird automatisch vom System zugewiesen, wenn Sie verwalteten Datenspeicher auswählen. Wenn Sie Vom Arbeitsbereich verwalteter Datenspeicher auswählen, wird die Dropdownliste Einstellung für automatisches Löschen angezeigt. Das standardmäßige Datenlöschzeitfenster beträgt 30 Tag. Wie Sie diesen Wert ändern können, wird in Verwalten importierter Datenbestände erläutert.

Hinweis

Um Ihren eigenen Datenspeicher auszuwählen, wählen Sie Andere Datenspeicher aus. In diesem Fall müssen Sie den Pfad für den Speicherort des Datencaches auswählen.

Sie können einen Zeitplan hinzufügen. Wählen Sie Zeitplan hinzufügen aus, wie in diesem Screenshot gezeigt:

Ein neuer Bereich wird geöffnet, in dem Sie einen Serienzeitplan oder einen Cronzeitplan definieren können. Dieser Screenshot zeigt den Bereich für einen Serien-Zeitplan:

Name: Der eindeutige Bezeichner des Zeitplans im Arbeitsbereich
Beschreibung: die Beschreibung des Zeitplans.
Auslöser: das Wiederholungsmuster des Zeitplans mit den folgenden Eigenschaften.
- Zeitzone: Die Berechnung der Auslösezeit basiert auf dieser Zeitzone; standardmäßig koordinierte Weltzeit (Coordinated Universal Time, UTC).
- Wiederholung oder Cron-Ausdruck: Wählen Sie „Wiederholung“ aus, um das Wiederholungsmuster anzugeben. Unter Serie können Sie die Wiederholungshäufigkeit in Minuten, Stunden, Tagen, Wochen oder Monaten angeben.
- Start: Der Zeitplan wird an diesem Datum erstmals aktiv. Standardmäßig das Erstellungsdatum dieses Zeitplans.
- Ende: Der Zeitplan wird nach diesem Datum inaktiv. Standardmäßig ist NONE festgelegt. Das bedeutet, dass der Zeitplan immer aktiv ist, bis Sie ihn manuell deaktivieren.
- Tags: die ausgewählten Zeitplantags.

Hinweis

Start gibt das Startdatum und die Startzeit mit der Zeitzone des Zeitplans an. Wenn Start weggelassen wird, entspricht die Startzeit der Erstellungszeit des Zeitplans. Wenn die Startzeit in der Vergangenheit liegt, wird der erste Job zur nächsten berechneten Laufzeit ausgeführt.

Der nächste Screenshot zeigt den letzten Bildschirm dieses Prozesses. Überprüfen Sie Ihre Auswahl, und wählen Sie „Erstellen“ aus. Wählen Sie auf diesem Bildschirm und den anderen Bildschirmen in diesem Prozess „Zurück“ aus, um zu früheren Bildschirmen zu wechseln und Ihre Auswahl zu ändern.

Dieser Screenshot zeigt den Bereich für einen Cron-Zeitplan:

Name: Der eindeutige Bezeichner des Zeitplans im Arbeitsbereich
Beschreibung: die Beschreibung des Zeitplans.

Auslöser: das Wiederholungsmuster des Zeitplans mit den folgenden Eigenschaften.

Zeitzone: Die Berechnung der Auslösezeit basiert auf dieser Zeitzone; standardmäßig koordinierte Weltzeit (Coordinated Universal Time, UTC).
Wiederholung oder Cron-Ausdruck: Wählen Sie „Cron-Ausdruck“ aus, um die Crondetails anzugeben.

(Erforderlich)expression verwendet einen standardmäßigen Crontab-Ausdruck, um einen wiederkehrenden Zeitplan auszudrücken. Ein einzelner Ausdruck besteht aus fünf durch Leerzeichen getrennten Feldern:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Ein einzelner Platzhalter (*), der alle Werte für das Feld abdeckt. Ein * für „Tage“ bedeutet also alle Tage eines Monats (was je nach Monat und Jahr variiert).
Das expression: "15 16 * * 1" im obigen Beispiel bedeutet 16:15 Uhr an jedem Montag.

Die nächste Tabelle listet die gültigen Werte für jedes Feld auf:

Feld	Bereich	Comment
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Wird nicht unterstützt. Der Wert wird ignoriert und als `*` behandelt.
`MONTHS`	-	Wird nicht unterstützt. Der Wert wird ignoriert und als `*` behandelt.
`DAYS-OF-WEEK`	0 - 6	Null (0) bedeutet Sonntag. Namen von Tagen werden ebenfalls akzeptiert.

Weitere Informationen zur Verwendung von Crontab-Ausdrücken finden Sie im Wiki für Crontab-Ausdrücke auf GitHub.

Wichtig

DAYS und MONTH werden nicht unterstützt. Wenn Sie einen dieser Werte übergeben, wird er ignoriert und als * behandelt.

Start: Der Zeitplan wird an diesem Datum erstmals aktiv. Standardmäßig das Erstellungsdatum dieses Zeitplans.
Ende: Der Zeitplan wird nach diesem Datum inaktiv. Standardmäßig ist NONE festgelegt. Das bedeutet, dass der Zeitplan immer aktiv ist, bis Sie ihn manuell deaktivieren.
Tags: die ausgewählten Zeitplantags.

Hinweis

Importieren von Daten aus einem externen Dateisystem als Ordnerdatenobjekt

Hinweis

Eine Amazon S3-Datenressource kann als externe Dateisystemressource dienen.

Die connection, die die Datenimportaktion verarbeitet, legt die Aspekte der externen Datenquelle fest. Die Verbindung definiert einen Amazon S3-Bucket als Ziel. Die Verbindung erwartet einen gültigen path-Wert. Ein aus einer externen Dateisystemquelle importierter Objektwert hat einen type von uri_folder.

Im nächsten Codebeispiel werden Daten aus einer Amazon S3-Ressource importiert.

Erstellen Sie die YAML-Datei <file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Führen Sie als nächstes diesen Befehl in der CLI aus:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Navigieren Sie zu Azure Machine Learning Studio.
Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus. Wählen Sie als Nächstes die Registerkarte „Datenimport“ aus. Wählen Sie dann „Erstellen“ aus, wie in diesem Screenshot gezeigt:
Wählen Sie auf dem Bildschirm „Datenquelle“ die Option „S3“ und dann „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie auf dem Bildschirm „Datentyp“ die Werte ein. Der Wert Typ ist standardmäßig Ordner (uri_folder). Wählen Sie dann „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie auf dem Bildschirm „Datenimport erstellen“ die Werte ein, und wählen Sie „Weiter“ aus, wie in diesem Screenshot gezeigt:
Geben Sie die Werte im Bildschirm „Datenspeicher für Ausgabe auswählen“ ein, und wählen Sie „Weiter“ aus, wie in diesem Screenshot gezeigt. Vom Arbeitsbereich verwalteter Datenspeicher ist standardmäßig ausgewählt. Der Pfad wird automatisch vom System zugewiesen, wenn Sie verwalteten Datenspeicher auswählen. Wenn Sie Vom Arbeitsbereich verwalteter Datenspeicher auswählen, wird die Dropdownliste Einstellung für automatisches Löschen angezeigt. Das standardmäßige Datenlöschzeitfenster beträgt 30 Tag. Wie Sie diesen Wert ändern können, wird in Verwalten importierter Datenbestände erläutert.
Sie können einen Zeitplan hinzufügen. Wählen Sie Zeitplan hinzufügen aus, wie in diesem Screenshot gezeigt:
Ein neuer Bereich wird geöffnet, in dem Sie einen Serien-Zeitplan oder einen Cron-Zeitplan definieren können. Dieser Screenshot zeigt den Bereich für einen Serien-Zeitplan:
- Name: Der eindeutige Bezeichner des Zeitplans im Arbeitsbereich
- Beschreibung: die Beschreibung des Zeitplans.
- Auslöser: das Wiederholungsmuster des Zeitplans mit den folgenden Eigenschaften.
  - Zeitzone: Die Berechnung der Auslösezeit basiert auf dieser Zeitzone; standardmäßig koordinierte Weltzeit (Coordinated Universal Time, UTC).
  - Wiederholung oder Cron-Ausdruck: Wählen Sie „Wiederholung“ aus, um das Wiederholungsmuster anzugeben. Unter Serie können Sie die Wiederholungshäufigkeit in Minuten, Stunden, Tagen, Wochen oder Monaten angeben.
  - Start: Der Zeitplan wird an diesem Datum erstmals aktiv. Standardmäßig das Erstellungsdatum dieses Zeitplans.
  - Ende: Der Zeitplan wird nach diesem Datum inaktiv. Standardmäßig ist NONE festgelegt. Das bedeutet, dass der Zeitplan immer aktiv ist, bis Sie ihn manuell deaktivieren.
  - Tags: die ausgewählten Zeitplantags.
Hinweis

Start gibt das Startdatum und die Startzeit mit der Zeitzone des Zeitplans an. Wenn Start weggelassen wird, entspricht die Startzeit der Erstellungszeit des Zeitplans. Wenn die Startzeit in der Vergangenheit liegt, wird der erste Job zur nächsten berechneten Laufzeit ausgeführt.
Überprüfen Sie Ihre Optionen auf dem letzten Bildschirm dieses Prozesses wie im nächsten Screenshot gezeigt, und wählen Sie „Erstellen“ aus. Wählen Sie auf diesem Bildschirm und den anderen Bildschirmen in diesem Prozess „Zurück“ aus, um bei Bedarf zu früheren Bildschirmen zu wechseln und Ihre Auswahl zu ändern.

Dieser Screenshot zeigt den Bereich für einen Cron-Zeitplan:

Name: Der eindeutige Bezeichner des Zeitplans im Arbeitsbereich
Beschreibung: die Beschreibung des Zeitplans.

Auslöser: das Wiederholungsmuster des Zeitplans mit den folgenden Eigenschaften.

Zeitzone: Die Berechnung der Auslösezeit basiert auf dieser Zeitzone; standardmäßig koordinierte Weltzeit (Coordinated Universal Time, UTC).
Wiederholung oder Cron-Ausdruck: Wählen Sie „Cron-Ausdruck“ aus, um die Crondetails anzugeben.

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Ein einzelner Platzhalter (*), der alle Werte für das Feld abdeckt. Ein * für „Tage“ bedeutet also alle Tage eines Monats (was je nach Monat und Jahr variiert).
Das expression: "15 16 * * 1" im obigen Beispiel bedeutet 16:15 Uhr an jedem Montag.

Die nächste Tabelle listet die gültigen Werte für jedes Feld auf:

Feld	Bereich	Comment
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Wird nicht unterstützt. Der Wert wird ignoriert und als `*` behandelt.
`MONTHS`	-	Wird nicht unterstützt. Der Wert wird ignoriert und als `*` behandelt.
`DAYS-OF-WEEK`	0 - 6	Null (0) bedeutet Sonntag. Namen von Tagen werden ebenfalls akzeptiert.

Weitere Informationen zur Verwendung von Crontab-Ausdrücken finden Sie im Wiki für Crontab-Ausdrücke auf GitHub.

Wichtig

DAYS und MONTH werden nicht unterstützt. Wenn Sie einen dieser Werte übergeben, wird er ignoriert und als * behandelt.

Start: Der Zeitplan wird an diesem Datum erstmals aktiv. Standardmäßig das Erstellungsdatum dieses Zeitplans.
Ende: Der Zeitplan wird nach diesem Datum inaktiv. Standardmäßig ist NONE festgelegt. Das bedeutet, dass der Zeitplan immer aktiv ist, bis Sie ihn manuell deaktivieren.
Tags: die ausgewählten Zeitplantags.

Hinweis

Importstatus externer Datenquellen prüfen

Die Datenimportaktion ist eine asynchrone Aktion. Sie kann lange dauern. Nach der Übermittlung einer Datenimportaktion über die CLI oder das SDK benötigt der Azure Machine Learning Service möglicherweise einige Minuten, um eine Verbindung mit der externen Datenquelle herzustellen. Anschließend startet der Dienst den Datenimport und verarbeitet die Datenzwischenspeicherung und -registrierung. Die für einen Datenimport benötigte Zeit hängt auch von der Größe des Quelldatasets ab.

Im nächsten Beispiel wird der Status der Importaktivität für übermittelte Daten zurückgegeben. Der Befehl oder die Methode verwendet den Namen des „Datenobjekts“ als Eingabe, um den Status der Datenmaterialisierung zu bestimmen.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Importieren von Datenressourcen (Vorschau)

Voraussetzungen

Codeversionen

Importieren aus einer externen Datenbank als mltable-Datenobjekt

Importieren von Daten aus einem externen Dateisystem als Ordnerdatenobjekt

Importstatus externer Datenquellen prüfen

Nächste Schritte

Zusätzliche Ressourcen