Kurz: Přístup k datům Azure Synapse ADLS Gen2 ve službě Azure Machine Učení

V tomto kurzu vás provedeme procesem přístupu k datům uloženým v Azure Synapse Azure Data Lake Storage Gen2 (ADLS Gen2) ze služby Azure Machine Učení (Azure Machine Učení). Tato funkce je obzvláště cenná, když se snažíte zjednodušit pracovní postup strojového učení pomocí nástrojů, jako jsou automatizované strojové učení, integrované modely a sledování experimentů nebo specializovaný hardware, jako jsou GPU, které jsou k dispozici ve službě Azure Machine Učení.

Pro přístup k datům ADLS Gen2 ve službě Azure Machine Učení vytvoříme úložiště dat Azure Učení, které odkazuje na účet úložiště Azure Synapse ADLS Gen2.

Požadavky

  • Pracovní prostor Azure Synapse Analytics Ujistěte se, že má účet úložiště Azure Data Lake Storage Gen2 nakonfigurovaný jako výchozí úložiště. V systému souborů Data Lake Storage Gen2, se kterým pracujete, se ujistěte, že jste přispěvatelem dat objektů blob služby Storage.
  • Pracovní prostor Učení Azure Machine.

Instalace knihoven

Nejprve balíček nainstalujeme azure-ai-ml .

%pip install azure-ai-ml

Vytvoření úložiště dat

Azure Machine Učení nabízí funkci označovanou jako úložiště dat, která funguje jako odkaz na váš stávající účet úložiště Azure. Vytvoříme úložiště dat, které odkazuje na účet úložiště Azure Synapse ADLS Gen2.

V tomto příkladu vytvoříme propojení úložiště dat s naším úložištěm Azure Synapse ADLS Gen2. Po inicializaci objektu MLClient můžete zadat podrobnosti o připojení k vašemu účtu ADLS Gen2. Nakonec můžete spustit kód pro vytvoření nebo aktualizaci úložiště dat.

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Další informace o vytváření a správě úložišť dat azure machine Učení pomocí tohoto kurzu najdete v azure Machine Učení úložištích dat.

Připojení účtu úložiště ADLS Gen2

Jakmile nastavíte úložiště dat, můžete k datům přistupovat tak, že vytvoříte připojení k účtu ADLSg2. Vytvoření připojení k účtu ADLS Gen2 ve službě Azure Machine Učení zahrnuje vytvoření přímého propojení mezi vaším pracovním prostorem a účtem úložiště, které umožňuje bezproblémový přístup k datům uloženým v rámci. Připojení v podstatě funguje jako cesta, která umožňuje službě Azure Machine Učení pracovat se soubory a složkami v účtu ADLS Gen2, jako by byly součástí místního systému souborů v rámci vašeho pracovního prostoru.

Po připojení účtu úložiště můžete snadno číst, zapisovat a manipulovat s daty uloženými v ADLS Gen2 pomocí známých operací systému souborů přímo v prostředí Azure Machine Učení, zjednodušení předběžného zpracování dat, trénování modelů a úloh experimentování.

Akce:

  1. Spusťte výpočetní modul.

  2. Vyberte Akce dat a pak vyberte Připojit.

    Screenshot of Azure Machine Learning option to select data actions.

  3. Odsud byste měli vidět a vybrat název účtu úložiště ADLSg2. Vytvoření připojení může chvíli trvat.

  4. Jakmile je připojení připravené, můžete vybrat akce dat a pak využívat. V části Data pak můžete vybrat připojení, ze kterého chcete data využívat.

Teď můžete pomocí preferovaných knihoven přímo číst data z připojeného účtu Azure Data Lake Storage.

Čtení dat z účtu úložiště

import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))

# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))

Další kroky