Import datových prostředků (Preview)

Článek
04/19/2024

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

V tomto článku se dozvíte, jak importovat data do platformy Azure Machine Učení z externích zdrojů. Úspěšný import dat automaticky vytvoří a zaregistruje datový prostředek azure machine Učení s názvem zadaným během tohoto importu. Datový prostředek azure machine Učení se podobá záložce webového prohlížeče (oblíbené položky). Nemusíte si pamatovat dlouhé cesty k úložišti (URI), které odkazují na nejčastěji používaná data. Místo toho můžete vytvořit datový asset a pak k němu přistupovat s popisným názvem.

Import dat vytvoří mezipaměť zdrojových dat spolu s metadaty pro rychlejší a spolehlivý přístup k datům ve službě Azure Machine Učení trénovacích úloh. Mezipaměť dat zabraňuje omezením sítě a připojení. Data uložená v mezipaměti jsou verze, aby byla podporována reprodukovatelnost. To poskytuje možnosti správy verzí pro data importovaná ze zdrojů SQL Serveru. Kromě toho data uložená v mezipaměti poskytují rodokmen dat pro úlohy auditování. Import dat používá na pozadí kanály ADF (kanály Azure Data Factory), což znamená, že uživatelé se můžou vyhnout složitým interakcím s ADF. Azure Machine Učení na pozadí také zpracovává správu velikosti fondu výpočetních prostředků ADF, zřizování výpočetních prostředků a odstraňování, aby optimalizoval přenos dat určením správné paralelizace.

Přenášená data se rozdělují a bezpečně ukládají jako soubory parquet v úložišti Azure. To umožňuje rychlejší zpracování během trénování. Náklady na výpočetní prostředky ADF zahrnují jenom čas používaný pro přenosy dat. Náklady na úložiště zahrnují jenom čas potřebný k ukládání dat do mezipaměti, protože data uložená v mezipaměti představují kopii dat importovaných z externího zdroje. Azure Storage hostuje tento externí zdroj.

Funkce ukládání do mezipaměti zahrnuje počáteční náklady na výpočetní prostředky a úložiště. Platí za sebe a může ušetřit peníze, protože snižuje náklady na opakované trénování výpočetních prostředků v porovnání s přímými připojeními k externím zdrojovým datům během trénování. Ukládá data do mezipaměti jako soubory parquet, díky čemuž je trénování úloh rychlejší a spolehlivější oproti vypršení časového limitu připojení u větších datových sad. To vede k menšímu počtu opakovaných spuštění a menšímu počtu selhání trénování.

Data můžete importovat z AmazonU S3, Azure SQL a Snowflake.

Důležité

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Požadavky

K vytváření a práci s datovými prostředky potřebujete:

Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte bezplatnou nebo placenou verzi služby Azure Machine Učení.
Pracovní prostor služby Azure Machine Learning. Vytvořte prostředky pracovního prostoru.
Nainstalované rozhraní příkazového řádku nebo sady SDK služby Azure Machine Učení.
Vytvořená připojení pracovního prostoru

Poznámka:

Pro úspěšný import dat ověřte, že jste nainstalovali nejnovější balíček azure-ai-ml (verze 1.15.0 nebo novější) pro sadu SDK a rozšíření ml (verze 2.15.1 nebo novější).

Pokud máte starší balíček sady SDK nebo rozšíření rozhraní příkazového řádku, odeberte starý balíček nebo rozšíření rozhraní příkazového řádku a nainstalujte nový balíček s kódem zobrazeným v části karta. Postupujte podle pokynů pro sadu SDK a rozhraní příkazového řádku, jak je znázorněno tady:

Verze kódu

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip uninstall azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)

Import z externí databáze jako datového prostředku mltable

Poznámka:

Externí databáze můžou mít formáty Snowflake, Azure SQL atd.

Následující ukázky kódu můžou importovat data z externích databází. Akce connection importu určuje metadata zdroje dat externí databáze. V této ukázce kód importuje data z prostředku Snowflake. Spojení odkazuje na zdroj Snowflake. S trochou změn může připojení odkazovat na zdroj databáze Azure SQL a zdroj databáze Azure SQL. Importovaný prostředek type z externího zdroje databáze je mltable.

Vytvoření YAML souboru <file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Potom v rozhraní příkazového řádku spusťte následující příkaz:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Poznámka:

Tento příklad popisuje proces databáze Snowflake. Tento proces ale zahrnuje další formáty externí databáze, jako je Azure SQL atd.

Přejděte na studio Azure Machine Learning.
V části Prostředky v levém navigačním panelu vyberte Data. Dále vyberte kartu Import dat. Pak vyberte Vytvořit, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Zdroj dat vyberte Snowflake a pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Datový typ vyplňte hodnoty. Výchozí hodnota typu je Tabulka (mltable). Pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Vytvořit import dat vyplňte hodnoty a vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Vyplňte hodnoty na obrazovce Zvolit úložiště dat pro výstup a vyberte Další, jak je znázorněno na tomto snímku obrazovky. Úložiště spravovaných dat pracovního prostoru je ve výchozím nastavení vybrané. Při výběru spravovaného úložiště dat se cesta automaticky přiřadí systému. Pokud vyberete úložiště dat spravovaných pracovním prostorem, zobrazí se rozevírací seznam Nastavení automatického odstranění. Ve výchozím nastavení nabízí časové období odstranění dat o 30 dnech a způsob správy importovaných datových prostředků vysvětluje, jak tuto hodnotu změnit.

Poznámka:

Pokud chcete zvolit vlastní úložiště dat, vyberte Jiné úložiště dat. V takovém případě musíte vybrat cestu pro umístění mezipaměti dat.

Můžete přidat plán. Vyberte Přidat plán , jak je znázorněno na tomto snímku obrazovky:

Otevře se nový panel, kde můžete definovat plán opakování nebo plán Cron . Tento snímek obrazovky ukazuje panel plánu opakování :

Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.
Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
- Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
- Opakování nebo výraz Cron: vyberte opakování a určete opakující se vzor. V části Opakování můžete určit frekvenci opakování – podle minut, hodin, dnů, týdnů nebo měsíců.
- Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
- Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
- Značky: vybrané značky plánu.

Poznámka:

Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.

Další snímek obrazovky ukazuje poslední obrazovku tohoto procesu. Zkontrolujte volby a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, abyste mohli změnit možnosti hodnot.

Tento snímek obrazovky ukazuje panel plánu Cron :

Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.

Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.

Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: výběrem výrazu cron zadejte podrobnosti cron.

(Povinné)expression používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Jeden zástupný znak (*), který pokrývá všechny hodnoty pole. A *, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).
Výše expression: "15 16 * * 1" uvedený vzorek znamená každou pondělí 16:15.

V další tabulce jsou uvedeny platné hodnoty pro každé pole:

Pole	Rozsah	Komentář
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Nepodporováno Hodnota je ignorována a považována za `*`.
`MONTHS`	-	Nepodporováno Hodnota je ignorována a považována za `*`.
`DAYS-OF-WEEK`	0-6	Nula (0) znamená neděli. Byly přijaty také názvy dnů.

Další informace o výrazech crontab najdete na wikiwebu Crontab Expression na GitHubu.

Důležité

DAYS a MONTH nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za *.

Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.

Poznámka:

Import dat z externího systému souborů jako datového prostředku složky

Poznámka:

Datový prostředek Amazon S3 může sloužit jako externí prostředek systému souborů.

Akce connection importu dat určuje aspekty externího zdroje dat. Připojení definuje kontejner Amazon S3 jako cíl. Připojení očekává platnou path hodnotu. Hodnota aktiva importovaná z externího zdroje systému souborů má hodnotu typeuri_folder.

Následující ukázka kódu importuje data z prostředku Amazon S3.

Vytvoření YAML souboru <file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

V dalším kroku spusťte tento příkaz v rozhraní příkazového řádku:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Přejděte na studio Azure Machine Learning.
V části Prostředky v levém navigačním panelu vyberte Data. Dále vyberte kartu Import dat. Pak vyberte Vytvořit, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Zdroj dat vyberte S3 a pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Datový typ vyplňte hodnoty. Výchozí hodnota Typ je Složka (uri_folder). Pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Vytvořit import dat vyplňte hodnoty a vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Vyplňte hodnoty na obrazovce Zvolit úložiště dat pro výstup a vyberte Další, jak je znázorněno na tomto snímku obrazovky. Úložiště dat spravovaných pracovním prostorem je ve výchozím nastavení vybrané. Při výběru spravovaného úložiště dat je cesta automaticky přiřazena systémem. Pokud vyberete úložiště dat spravovaných pracovním prostorem, zobrazí se rozevírací seznam Nastavení automatického odstranění. Ve výchozím nastavení nabízí časové období odstranění dat o 30 dnech a způsob správy importovaných datových prostředků vysvětluje, jak tuto hodnotu změnit.
Můžete přidat plán. Vyberte Přidat plán , jak je znázorněno na tomto snímku obrazovky:
Otevře se nový panel, kde můžete definovat plán opakování nebo plán Cron . Tento snímek obrazovky ukazuje panel plánu opakování :
- Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
- Popis: popis plánu.
- Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
  - Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
  - Opakování nebo výraz Cron: vyberte opakování a určete opakující se vzor. V části Opakování můžete určit frekvenci opakování – podle minut, hodin, dnů, týdnů nebo měsíců.
  - Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
  - Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
  - Značky: vybrané značky plánu.
Poznámka:

Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.
Jak je znázorněno na dalším snímku obrazovky, zkontrolujte své volby na poslední obrazovce tohoto procesu a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, pokud chcete změnit možnosti hodnot.

Tento snímek obrazovky ukazuje panel plánu Cron :

Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.

Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.

Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: výběrem výrazu cron zadejte podrobnosti cron.

(Povinné)expression používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Jeden zástupný znak (*), který pokrývá všechny hodnoty pole. A *, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).
Výše expression: "15 16 * * 1" uvedený vzorek znamená každou pondělí 16:15.

V další tabulce jsou uvedeny platné hodnoty pro každé pole:

Pole	Rozsah	Komentář
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Nepodporováno Hodnota je ignorována a považována za `*`.
`MONTHS`	-	Nepodporováno Hodnota je ignorována a považována za `*`.
`DAYS-OF-WEEK`	0-6	Nula (0) znamená neděli. Byly přijaty také názvy dnů.

Další informace o výrazech crontab najdete na wikiwebu Crontab Expression na GitHubu.

Důležité

DAYS a MONTH nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za *.

Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.

Poznámka:

Kontrola stavu importu externích zdrojů dat

Akce importu dat je asynchronní akce. Může to trvat dlouho. Po odeslání akce importu dat prostřednictvím rozhraní příkazového řádku nebo sady SDK může služba Azure Machine Učení potřebovat několik minut, než se připojí k externímu zdroji dat. Služba pak spustí import dat a zpracuje ukládání dat do mezipaměti a registraci. Doba potřebná pro import dat závisí také na velikosti zdrojové sady dat.

Další příklad vrátí stav odeslané aktivity importu dat. Příkaz nebo metoda používá jako vstup název datového assetu k určení stavu materializace dat.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Share via

Import datových prostředků (Preview)

Požadavky

Verze kódu

Import z externí databáze jako datového prostředku mltable

Import dat z externího systému souborů jako datového prostředku složky

Kontrola stavu importu externích zdrojů dat

Další kroky

Další materiály