Odesílání úloh Sparku ve službě Azure Machine Učení

Článek
10/18/2023

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

Azure Machine Učení podporuje odesílání samostatných úloh strojového učení a vytváření kanálů strojového učení, které zahrnují několik kroků pracovního postupu strojového učení. Azure Machine Učení zpracovává jak samostatné vytváření úloh Sparku, tak vytváření opakovaně použitelných komponent Sparku, které můžou používat kanály Azure Machine Učení. V tomto článku se dozvíte, jak odesílat úlohy Sparku pomocí:

uživatelské rozhraní studio Azure Machine Learning
Rozhraní CLI služby Azure Machine Learning
Azure Machine Learning SDK

Další informace o Apache Sparku ve službě Azure Machine Učení koncepty najdete v tomto prostředku.

Požadavky

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)

Předplatné Azure; Pokud nemáte předplatné Azure, vytvořte si před zahájením bezplatný účet .
Pracovní prostor služby Azure Machine Learning. Viz Vytvoření prostředků pracovního prostoru.
Vytvořte výpočetní instanci azure machine Učení.
Nainstalujte Azure Machine Učení CLI.
(Volitelné): Připojený fond Synapse Sparku v pracovním prostoru azure machine Učení.

Poznámka:

Další informace o přístupu k prostředkům při používání azure Machine Učení výpočetních prostředků Sparku bez serveru a připojeném fondu Synapse Sparku najdete v tématu Zajištění přístupu k prostředkům pro úlohy Sparku.
Azure Machine Učení poskytuje fond sdílených kvót, ze kterého mají všichni uživatelé přístup k kvótě výpočetních prostředků, aby mohli provádět testování po omezenou dobu. Když použijete výpočetní prostředí Spark bez serveru, azure machine Učení vám umožní získat přístup k této sdílené kvótě po krátkou dobu.

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Vytvořte soubor YAML, který definuje spravovanou identitu přiřazenou uživatelem, která by se měla připojit k pracovnímu prostoru:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Pomocí parametru --file připojte spravovanou identitu přiřazenou uživatelem pomocí souboru YAML v az ml workspace update příkazu:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`

Nainstalujte ARMClientjednoduchý nástroj příkazového řádku, který vyvolá rozhraní API Azure Resource Manageru.

Vytvořte soubor JSON, který definuje spravovanou identitu přiřazenou uživatelem, která by se měla připojit k pracovnímu prostoru:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Pokud chcete k pracovnímu prostoru připojit spravovanou identitu přiřazenou uživatelem, spusťte na příkazovém řádku PowerShellu nebo na příkazovém řádku následující příkaz.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Poznámka:

Pokud chcete zajistit úspěšné spuštění úlohy Sparku, přiřaďte role Přispěvatel aPřispěvatel dat objektů blob služby Storage v účtu úložiště Azure používaném pro vstup a výstup dat identitě, kterou úloha Spark používá.
Přístup k veřejné síti by měl být povolený v pracovním prostoru Azure Synapse, aby se zajistilo úspěšné spuštění úlohy Sparku pomocí připojeného fondu Synapse Spark.
Pokud připojený fond Synapse Spark odkazuje na fond Synapse Spark, měl by být v pracovním prostoru Azure Synapse, který má přidruženou spravovanou virtuální síť, nakonfigurovaný spravovaný privátní koncový bod k účtu úložiště, aby se zajistil přístup k datům.
Výpočetní prostředí Spark bez serveru podporuje virtuální síť spravovanou službou Azure Machine Učení. Pokud je spravovaná síť zřízená pro výpočetní prostředí Spark bez serveru, měly by se zřídit také odpovídající privátní koncové body pro účet úložiště, aby se zajistil přístup k datům.

Odeslání samostatné úlohy Sparku

Po provedení nezbytných změn pro parametrizaci skriptu Pythonu je možné použít skript Pythonu vyvinutý interaktivním uspořádáním dat k odeslání dávkové úlohy pro zpracování většího objemu dat. Jednoduchou dávkovou úlohu transformace dat lze odeslat jako samostatnou úlohu Sparku.

Úloha Sparku vyžaduje skript Pythonu, který přijímá argumenty, které je možné vyvíjet s úpravou kódu Pythonu vyvinutého z interaktivní transformace dat. Tady se zobrazí ukázkový skript Pythonu.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Poznámka:

Tento vzorový kód Pythonu používá pyspark.pandas. Tuto možnost podporuje pouze modul runtime Spark verze 3.2 nebo novější.

Výše uvedený skript přebírá dva argumenty --titanic_data , --wrangled_datakteré předávají cestu vstupních dat a výstupní složky.

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)

Pokud chcete vytvořit úlohu, můžete samostatnou úlohu Sparku definovat jako soubor specifikace YAML, který lze použít v az ml job create příkazu s parametrem --file . Definujte tyto vlastnosti v souboru YAML:

Vlastnosti YAML ve specifikaci úlohy Spark

type - nastaveno na spark.
code – definuje umístění složky, která obsahuje zdrojový kód a skripty pro tuto úlohu.
entry – definuje vstupní bod pro úlohu. Měla by zahrnovat jednu z těchto vlastností:
- file – definuje název skriptu Pythonu, který slouží jako vstupní bod pro úlohu.
py_files - definuje seznam .zip, .eggnebo .py soubory, které mají být umístěny do PYTHONPATH, pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
jars – definuje seznam .jar souborů, které se mají zahrnout do ovladače Sparku, a exekutor CLASSPATHpro úspěšné spuštění úlohy. Tato vlastnost je nepovinná.
files – definuje seznam souborů, které by se měly zkopírovat do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
archives - definuje seznam archivů, které by se měly extrahovat do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
conf – definuje tyto vlastnosti ovladače Sparku a exekutoru:
- spark.driver.cores: počet jader pro ovladač Spark.
- spark.driver.memory: přidělená paměť pro ovladač Spark v gigabajtech (GB).
- spark.executor.cores: počet jader pro exekutor Sparku.
- spark.executor.memory: přidělení paměti pro exekutor Sparku v gigabajtech (GB).
- spark.dynamicAllocation.enabled – zda by exekutory měly být dynamicky přiděleny jako True hodnota nebo False hodnota.
- Pokud je povolené dynamické přidělování exekutorů, definujte tyto vlastnosti:
  - spark.dynamicAllocation.minExecutors – minimální počet instancí exekutorů Sparku pro dynamické přidělování.
  - spark.dynamicAllocation.maxExecutors – maximální počet instancí exekutorů Sparku pro dynamické přidělení.
- Pokud je dynamické přidělování exekutorů zakázané, definujte tuto vlastnost:
  - spark.executor.instances – počet instancí exekutoru Sparku.
environment– prostředí azure machine Učení ke spuštění úlohy.
args – argumenty příkazového řádku, které by se měly předat skriptu Pythonu vstupního bodu úlohy. Příklad najdete v souboru specifikace YAML.
resources– tato vlastnost definuje prostředky, které mají být používány službou Azure Machine Učení bezserverové výpočetní prostředí Spark. Používá následující vlastnosti:
- instance_type – typ výpočetní instance, který se má použít pro fond Sparku. V současné době jsou podporovány následující typy instancí:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version – definuje verzi modulu runtime Spark. V současné době se podporují následující verze modulu runtime Spark:
  - 3.2
  - 3.3
    Důležité
    
    Azure Synapse Runtime pro Apache Spark: Oznámení
    - Azure Synapse Runtime pro Apache Spark 3.2:
      
      Datum oznámení EOLA: 8. července 2023
      
      Datum ukončení podpory: 8. července 2024. Po tomto datu bude modul runtime zakázán.
    - Pokud chcete pokračovat v podpoře a optimálním výkonu, doporučujeme migrovat na Apache Spark 3.3.
Toto je příklad:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.3"
```
compute – tato vlastnost definuje název připojeného fondu Synapse Spark, jak je znázorněno v tomto příkladu:
```
compute: mysparkpool
```
inputs – tato vlastnost definuje vstupy pro úlohu Spark. Vstupy pro úlohu Sparku můžou být literální hodnota nebo data uložená v souboru nebo složce.
- Hodnota literálu může být číslo, logická hodnota nebo řetězec. Tady je několik příkladů:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Data uložená v souboru nebo složce by měla být definována pomocí těchto vlastností:
  - type - nastavte tuto vlastnost na uri_filenebo uri_folderpro vstupní data obsažená v souboru nebo složce.
  - path – identifikátor URI vstupních dat, například azureml://, abfss://nebo wasbs://.
  - mode - nastavte tuto vlastnost na directhodnotu . Tato ukázka ukazuje definici vstupu úlohy, která může být označována takto $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs – tato vlastnost definuje výstupy úloh Sparku. Výstupy úlohy Sparku je možné zapsat do souboru nebo do umístění složky, které je definováno pomocí následujících tří vlastností:
- type - tuto vlastnost lze nastavit na uri_file výstupní uri_folder data do souboru nebo složky nebo pro zápis výstupních dat.
- path – tato vlastnost definuje identifikátor URI výstupního umístění, například azureml://, abfss://nebo wasbs://.
- mode - nastavte tuto vlastnost na directhodnotu . Tato ukázka ukazuje definici výstupu úlohy, která se dá označovat takto ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity – tato volitelná vlastnost definuje identitu použitou k odeslání této úlohy. Může obsahovat user_identity a managed hodnoty. Pokud specifikace YAML nedefinuje identitu, úloha Sparku použije výchozí identitu.

Samostatná úloha Sparku

Tato ukázková specifikace YAML ukazuje samostatnou úlohu Sparku. Používá počítač Azure Učení bezserverové výpočetní prostředí Spark:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.3"

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute vlastnost v ukázkovém souboru specifikace YAML zobrazeném resources dříve místo vlastnosti.

Soubory YAML zobrazené výše je možné použít v az ml job create příkazu s parametrem --file k vytvoření samostatné úlohy Sparku, jak je znázorněno na následujícím obrázku:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Výše uvedený příkaz můžete spustit z:

terminál výpočetní instance Azure Machine Učení.
terminal of Visual Studio Code connected to an Azure Machine Učení compute instance.
váš místní počítač s nainstalovaným rozhraním příkazového řádku Azure Machine Učení.

PLATÍ PRO: Python SDK azure-ai-ml v2 (aktuální)

Samostatná úloha Sparku s využitím sady Python SDK

Pokud chcete vytvořit samostatnou úlohu Sparku, použijte funkci azure.ai.ml.spark s těmito parametry:

name – název úlohy Sparku.
display_name – zobrazovaný název úlohy Sparku, která by se měla zobrazit v uživatelském rozhraní a jinde.
code – umístění složky, která obsahuje zdrojový kód a skripty pro tuto úlohu.
entry - vstupní bod pro úlohu. Měl by to být slovník, který definuje vstupní bod souboru.
py_files - seznam .zip, .eggnebo .py soubory, které mají být umístěny do PYTHONPATH, pro úspěšné provedení úlohy. Tento parametr je volitelný.
jars – seznam .jar souborů, které se mají zahrnout do ovladače Sparku a exekutoru CLASSPATH, pro úspěšné spuštění úlohy. Tento parametr je volitelný.
files – seznam souborů, které by se měly zkopírovat do pracovního adresáře každého exekutoru pro úspěšné spuštění úlohy. Tento parametr je volitelný.
archives - seznam archivů, které se automaticky extrahují a umístí do pracovního adresáře každého exekutoru pro úspěšné spuštění úlohy. Tento parametr je volitelný.
conf – slovník s předdefinovanými páry klíč-hodnota konfigurace Sparku.
driver_cores: počet jader přidělených pro ovladač Spark.
driver_memory: přidělená paměť pro ovladač Spark s příponou kjednotky velikosti , mg nebo t (například 512m, ). 2g
executor_cores: počet jader přidělených exekutoru Sparku.
executor_memory: přidělená paměť pro exekutor Sparku s příponou kjednotky velikosti , mg nebo t (například 512m, ). 2g
dynamic_allocation_enabled – logický parametr, který definuje, jestli se exekutory mají přidělovat dynamicky.
- Pokud je povolené dynamické přidělování exekutorů, definujte tyto parametry:
  - dynamic_allocation_min_executors – minimální počet instancí exekutorů Sparku pro dynamické přidělení.
  - dynamic_allocation_max_executors – maximální počet instancí exekutorů Sparku pro dynamické přidělení.
- Pokud je dynamické přidělování exekutorů zakázané, definujte tyto parametry:
  - executor_instances – počet instancí exekutoru Sparku.
  - environment– prostředí Azure Machine Učení, které spouští úlohu. Tento parametr by měl předat:
    - objektu azure.ai.ml.entities.Environmentnebo názvu prostředí Učení Azure Machine (řetězec).
args – argumenty příkazového řádku, které by se měly předat skriptu Pythonu vstupního bodu úlohy. Příklad najdete v ukázkovém kódu.
resources– prostředky, které má počítač Azure používat Učení bezserverové výpočetní prostředí Spark. Tento parametr by měl předat slovník s:
- instance_type – klíč, který definuje typ výpočetní instance, který se má použít pro výpočetní prostředí Spark bez serveru. V současné době jsou podporovány následující typy instancí:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version – klíč, který definuje verzi modulu runtime Spark. V současné době se podporují následující verze modulu runtime Spark:
  - 3.2.0
  - 3.3.0
    Důležité
    
    Azure Synapse Runtime pro Apache Spark: Oznámení
    - Azure Synapse Runtime pro Apache Spark 3.2:
      
      Datum oznámení EOLA: 8. července 2023
      
      Datum ukončení podpory: 8. července 2024. Po tomto datu bude modul runtime zakázán.
    - Pokud chcete pokračovat v podpoře a optimálním výkonu, doporučujeme migrovat na Apache Spark 3.3.
compute – název připojeného fondu Synapse Spark.
inputs – vstupy pro úlohu Spark. Tento parametr by měl předat slovník s mapováním vstupních datových vazeb použitých v úloze. Tento slovník má tyto hodnoty:
- Klíč slovníku definuje název vstupu.
- odpovídající hodnota může být:
  - hodnota literálu: celé číslo, číslo, logická hodnota nebo řetězec.
  - objekt třídy azure.ai.ml.Inputs následujícími parametry:
    - type - nastavte tento parametr na uri_file hodnotu nebo uri_folderpro vstupní data obsažená v souboru nebo složce.
    - path – identifikátor URI vstupních dat, například azureml://, abfss://nebo wasbs://.
    - mode - nastavte tento parametr na direct.
outputs – výstupy pro úlohu Spark. Tento parametr by měl předat slovník s mapováním výstupních datových vazeb použitých v úloze. Tento slovník má tyto hodnoty:
- Klíč slovníku definuje název výstupu.
- odpovídající hodnota je objekt třídy azure.ai.ml.Outputs následujícími parametry:
  - type - nastavte tento parametr na uri_file hodnotu nebo uri_folderpro výstupní datový soubor nebo složku.
  - path – identifikátor URI výstupních dat, například azureml://, abfss://nebo wasbs://.
  - mode - nastavte tento parametr na direct.
identity – volitelný parametr, který definuje identitu použitou k odeslání této úlohy. Povolené hodnoty jsou objektem třídy.
- azure.ai.ml.entities.UserIdentityConfiguration nebo
- azure.ai.ml.entities.ManagedIdentityConfiguration pro identitu uživatele a spravovanou identitu. Pokud není definovaná žádná identita, úloha Sparku použije výchozí identitu.

Samostatnou úlohu Sparku můžete odeslat z:

poznámkový blok azure machine Učení připojený k výpočetní instanci azure machine Učení.
Visual Studio Code připojený k výpočetní instanci Azure Machine Učení
váš místní počítač s nainstalovanou sadou Azure Machine Učení SDK pro Python.

Tento fragment kódu Pythonu ukazuje vytvoření samostatné úlohy Sparku s využitím identity uživatele Učení bezserverové výpočetní prostředí Spark.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute parametr ve azure.ai.ml.spark funkci místo resources.

Odeslání samostatné úlohy Sparku z uživatelského rozhraní studio Azure Machine Learning (Preview)

Důležité

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Odeslání samostatné úlohy Spark pomocí uživatelského rozhraní studio Azure Machine Learning:

Screenshot showing creation of a new Spark job in Azure Machine Learning studio UI.

V pravém horním rohu obrazovky vyberte + Nový.
Vyberte úlohu Sparku (Preview).
Na obrazovce Compute:

Screenshot showing compute selection screen for a new Spark job in Azure Machine Learning studio UI.

V části Vybrat typ výpočetních prostředků vyberte bezserverové výpočetní prostředí Spark bez serveru nebo připojené výpočetní prostředky připojeného fondu Synapse Spark.
Pokud jste vybrali bezserverovou architekturu Spark:
1. Vyberte velikost virtuálního počítače.
2. Vyberte verzi modulu runtime Spark.
Důležité

Azure Synapse Runtime pro Apache Spark: Oznámení
- Azure Synapse Runtime pro Apache Spark 3.2:
  - Datum oznámení EOLA: 8. července 2023
  - Datum ukončení podpory: 8. července 2024. Po tomto datu bude modul runtime zakázán.
- Pokud chcete pokračovat v podpoře a optimálním výkonu, doporučujeme migrovat na Apache Spark 3.3.
Pokud jste vybrali Připojené výpočetní prostředky:
1. V nabídce Vybrat počítač Azure Učení připojené výpočetní nabídce vyberte připojený fond Synapse Spark.
Vyberte Další.
Na obrazovce Prostředí:
1. Ze seznamu vyberte jedno z dostupných prostředí. Výběr prostředí je volitelný.
2. Vyberte Další.
Na obrazovce Nastavení úlohy:
1. Zadejte název úlohy. Můžete použít název úlohy, který se ve výchozím nastavení vygeneruje.
2. V rozevírací nabídce vyberte Název experimentu.
3. V části Přidat značky zadejte název a hodnotu a pak vyberte Přidat. Přidání značek je volitelné.
4. V části Kód:
  1. V rozevíracím seznamu Zvolit umístění kódu vyberte možnost. Zvolte Nahrát místní soubor nebo Azure Machine Učení výchozí úložiště objektů blob pracovního prostoru.
  2. Pokud jste vybrali možnost Zvolit umístění kódu:
    - Vyberte Procházet a přejděte do umístění obsahujícího soubory kódu na místním počítači.
  3. Pokud jste vybrali výchozí úložiště objektů blob v pracovním prostoru Azure Machine Učení:
    1. V části Cesta k souboru kódu, který chcete nahrát, vyberte Procházet.
    2. Na místní obrazovce s názvem Cesta vyberte cestu k souborům kódu ve výchozím úložišti objektů blob pracovního prostoru.
    3. Zvolte Uložit.
  4. Zadejte název vstupního souboru pro samostatnou úlohu. Tento soubor by měl obsahovat kód Pythonu, který přijímá argumenty.
  5. Pokud chcete přidat všechny další soubory Pythonu, které samostatná úloha vyžaduje za běhu, vyberte + Přidat soubor pod soubory Py a zadejte název .zipsouboru , .eggnebo .py soubor, který se má umístit do úspěšného PYTHONPATH spuštění úlohy. Můžete přidat více souborů.
  6. Pokud chcete přidat všechny soubory Jar, které samostatná úloha vyžaduje za běhu, vyberte + Přidat soubor v jars a zadejte název .jar souboru, který se má zahrnout do ovladače Sparku. Přidejte také exekutor CLASSPATH pro úspěšné spuštění úlohy. Můžete přidat více souborů.
  7. Chcete-li přidat archivy, které by se měly extrahovat do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy, vyberte + Přidat soubor v části Archivy a zadejte název archivu. Je možné přidat více archivů.
  8. Přidání souborů Py, souborů Jar a archivů je volitelné.
  9. Pokud chcete přidat vstup, vyberte + Přidat vstup v části Vstupy a
    1. Zadejte název vstupu. Vstup by měl odkazovat na tento název později v argumentech.
    2. Vyberte typ vstupu.
    3. Pro typ Data:
      1. Jako soubor nebo složku vyberte datový typ.
      2. Vyberte Zdroj dat jako Nahrání z místního úložiště dat, identifikátoru URI nebo úložiště dat.
        
        V části Nahrát z místního umístění vyberte Procházet v části Cesta, kterou chcete nahrát, a zvolte vstupní soubor nebo složku.
        
        Pro identifikátor URI zadejte identifikátor URI dat úložiště (například abfss://wasbs:// identifikátor URI) nebo zadejte datový asset azureml://.
        
        Úložiště dat:
        
        V rozevírací nabídce vyberte úložiště dat.
        
        V části Cesta k datům vyberte Procházet.
        
        Na automaticky otevírané obrazovce s názvem Cesta vyberte cestu k souborům kódu ve výchozím úložišti objektů blob pracovního prostoru.
        
        Zvolte Uložit.
    4. Jako typ Integer zadejte celočíselnou hodnotu jako vstupní hodnotu.
    5. Jako typ Číslo zadejte číselnou hodnotu jako vstupní hodnotu.
    6. Jako typ Logická hodnota vyberte True nebo False jako vstupní hodnotu.
    7. Jako typ String zadejte řetězec jako vstupní hodnotu.
  10. Pokud chcete přidat vstup, vyberte + Přidat výstup v části Výstupy a
    1. Zadejte název výstupu. Výstup by měl odkazovat na tento název později v argumentech.
    2. Jako typvýstupu nebo složky vyberte Typ výstupu.
    3. Jako cíl výstupního identifikátoru URI zadejte identifikátor URI dat úložiště (například abfss://wasbs:// URI) nebo zadejte datový asset azureml://.
  11. Zadejte argumenty pomocí názvů definovaných v polích Název vstupu a Výstupní název v předchozích krocích a názvy vstupních a výstupních argumentů použitých v souboru zadávání skriptu Pythonu. Pokud je například definován název vstupu a název výstupu a job_inputjob_outputargumenty se přidají do vstupního souboru, jak je znázorněno zde.
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
pak zadejte argumenty jako --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. V části Konfigurace Sparku: 1. Velikost exekutoru: 1. Zadejte počet jader exekutoru a paměti exekutoru (GB) v gigabajtech. 2. U dynamicky přidělených exekutorů vyberte možnost Zakázáno nebo Povoleno . – Pokud je dynamické přidělování exekutorů zakázáno, zadejte počet instancí Exekutoru. - Pokud je dynamické přidělování exekutorů povoleno, pomocí posuvníku vyberte minimální a maximální počet exekutorů. 1. Pro velikost ovladače: 1. Zadejte počet jader ovladačů a paměti ovladačů (GB) v gigabajtech. 2. Zadejte páry Název a Hodnota pro všechny další konfigurace a pak vyberte Přidat. Poskytnutí dalších konfigurací je volitelné. 6. Vyberte Další.
Na obrazovce Revize:
1. Před odesláním zkontrolujte specifikaci úlohy.
2. Vyberte Vytvořit a odešlete samostatnou úlohu Sparku.

Komponenta Spark v úloze kanálu

Komponenta Spark nabízí flexibilitu používat stejnou komponentu v několika kanálech azure machine Učení jako krok kanálu.

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)

Syntaxe YAML pro komponentu Sparku se ve většině způsobů podobá syntaxi YAML pro specifikaci úlohy Sparku. Tyto vlastnosti jsou definovány odlišně ve specifikaci YAML komponenty Spark:

name – název komponenty Spark.
version – verze komponenty Spark.
display_name – název komponenty Spark, která se má zobrazit v uživatelském rozhraní a jinde.
description – popis komponenty Spark.
inputs – tato vlastnost je podobná inputs vlastnosti popsané v syntaxi YAML pro specifikaci úlohy Sparku s tím rozdílem, že vlastnost nedefinuje path . Tento fragment kódu ukazuje příklad vlastnosti komponenty inputs Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs – tato vlastnost je podobná outputs vlastnosti popsané v syntaxi YAML pro specifikaci úlohy Sparku s tím rozdílem, že vlastnost nedefinuje path . Tento fragment kódu ukazuje příklad vlastnosti komponenty outputs Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Poznámka:

Komponenta Sparku nedefinuje identitycompute ani resources vlastnosti. Soubor specifikace YAML kanálu definuje tyto vlastnosti.

Tento soubor specifikace YAML poskytuje příklad komponenty Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Komponentu Spark definovanou ve výše uvedeném souboru specifikace YAML je možné použít v úloze kanálu azure machine Učení. Další informace o syntaxi YAML definující úlohu kanálu najdete ve schématu YAML. Tento příklad ukazuje soubor specifikace YAML pro úlohu kanálu, komponentu Spark a počítač Azure Učení bezserverové výpočetní prostředí Spark:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.3"

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute vlastnost v ukázkovém souboru specifikace YAML uvedené výše místo resources vlastnosti.

Výše uvedený soubor specifikace YAML lze použít v az ml job create příkazu pomocí parametru --file k vytvoření úlohy kanálu, jak je znázorněno na následujícím obrázku:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Výše uvedený příkaz můžete spustit z:

terminál výpočetní instance Azure Machine Učení.
terminal of Visual Studio Code connected to an Azure Machine Učení compute instance.
váš místní počítač s nainstalovaným rozhraním příkazového řádku Azure Machine Učení.

PLATÍ PRO: Python SDK azure-ai-ml v2 (aktuální)

Pokud chcete vytvořit kanál Azure Machine Učení s komponentou Spark, měli byste vědět o vytváření kanálů Azure Machine Učení z komponent pomocí sady Python SDK. Komponenta Spark se vytvoří pomocí azure.ai.ml.spark funkce. Parametry funkce jsou definovány téměř stejně jako pro samostatnou úlohu Sparku. Tyto parametry jsou pro komponentu Spark definovány odlišně:

name – název komponenty Spark.
display_name – název komponenty Spark zobrazené v uživatelském rozhraní a jinde.
inputs – tento parametr se podobá parametru inputs popsanému pro samostatnou úlohu Sparku s tím rozdílem, že azure.ai.ml.Input třída je vytvořena instance bez parametru path .
outputs – tento parametr se podobá parametru outputs popsanému pro samostatnou úlohu Sparku s tím rozdílem, že azure.ai.ml.Output třída je vytvořena instance bez parametru path .

Poznámka:

Komponenta Spark vytvořená pomocí azure.ai.ml.spark funkce nedefinuje identity, compute ani resources parametry. Kanál Učení Azure Machine definuje tyto parametry.

Úlohu kanálu s komponentou Sparku můžete odeslat z:

poznámkový blok azure machine Učení připojený k výpočetní instanci azure machine Učení.
Visual Studio Code připojený k výpočetní instanci Azure Machine Učení
váš místní počítač s nainstalovanou sadou Azure Machine Učení SDK pro Python.

Tento fragment kódu Pythonu ukazuje použití spravované identity spolu s vytvořením úlohy kanálu azure machine Učení. Kromě toho ukazuje použití komponenty Sparku a výpočetních prostředků Synapse spravovaných službou Azure Machine Učení (Automatic):

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Poznámka:

Pokud chcete použít připojený fond Synapse Spark, definujte compute parametr ve azure.ai.ml.spark funkci místo parametru resources . Například v ukázce kódu uvedené výše definujte spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" místo definování spark_step.resources.

Řešení potíží s úlohami Sparku

Pokud chcete řešit potíže s úlohou Spark, můžete získat přístup k protokolům vygenerovaným pro danou úlohu v studio Azure Machine Learning. Zobrazení protokolů pro úlohu Sparku:

Přechod na Úlohy z levého panelu v uživatelském rozhraní studio Azure Machine Learning
Výběr karty Všechny úlohy
Vyberte hodnotu zobrazovaného názvu pro úlohu.
Na stránce podrobností úlohy vyberte kartu Výstup a protokoly .
V Průzkumníku souborů rozbalte složku protokolů a pak rozbalte složku azureml .
Přístup k protokolům úloh Sparku ve složkách správce ovladačů a knihoven

Poznámka:

Pokud chcete řešit potíže s úlohami Sparku vytvořenými během interaktivní transformace dat v relaci poznámkového bloku, vyberte Podrobnosti úlohy v pravém horním rohu uživatelského rozhraní poznámkového bloku. Úlohy Sparku z interaktivní relace poznámkového bloku se vytvoří v rámci spuštění poznámkového bloku s názvem experimentu.

Odesílání úloh Sparku ve službě Azure Machine Učení

Požadavky

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`

Odeslání samostatné úlohy Sparku

Vlastnosti YAML ve specifikaci úlohy Spark

Samostatná úloha Sparku

Samostatná úloha Sparku s využitím sady Python SDK

Odeslání samostatné úlohy Sparku z uživatelského rozhraní studio Azure Machine Learning (Preview)

Komponenta Spark v úloze kanálu

Řešení potíží s úlohami Sparku

Další kroky

Další materiály

Odesílání úloh Sparku ve službě Azure Machine Učení

Požadavky

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Připojení spravované identity přiřazené uživatelem pomocí ARMClient

Odeslání samostatné úlohy Sparku

Vlastnosti YAML ve specifikaci úlohy Spark

Samostatná úloha Sparku

Komponenta Spark v úloze kanálu

Řešení potíží s úlohami Sparku

Další kroky

Další materiály

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`