Enviar trabalhos do Spark no Azure Machine Learning

Artigo
10/05/2023

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)SDK do Python azure-ai-ml v2 (atual)

O Azure Machine Learning dá suporte ao envio de trabalhos autônomos de aprendizado de máquina e à criação de pipelines de aprendizado de máquina que envolvem várias etapas de fluxo de trabalho de aprendizado de máquina. O Azure Machine Learning cuida da criação de trabalhos autônomos do Spark e da criação de componentes reutilizáveis do Spark que podem ser usados pelos pipelines do Azure Machine Learning. Neste artigo, você aprenderá a enviar trabalhos do Spark usando:

Interface do usuário do Estúdio do Azure Machine Learning
CLI do Azure Machine Learning
SDK do Azure Machine Learning

Para obter mais informações sobre conceitos do Apache Spark no Azure Machine Learning, confira este recurso.

Pré-requisitos

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)

Uma assinatura do Azure. Caso não tenha uma, crie uma conta gratuita antes de começar.
Um Workspace do Azure Machine Learning. Confira Criar recursos de workspace.
Criar uma instância de computação do Azure Machine Learning.
Instale a CLI do Azure Machine Learning.
(Opcional): um Pool do Spark do Synapse anexado ao workspace do Azure Machine Learning.

Observação

Para saber mais sobre o acesso a recursos ao usar a computação do Spark sem servidor do Microsoft Azure Machine Learning e o pool do Synapse Spark anexado, consulte Garantir acesso a recursos para trabalhos do Spark.
O Azure Machine Learning fornece um pool de cota compartilhada do qual todos os usuários podem acessar a cota de computação para executar testes por um tempo limitado. Quando você usa a computação do Spark sem servidor, o Azure Machine Learning permite que você acesse essa cota compartilhada por um curto período de tempo.

Anexar identidade gerenciada atribuída pelo usuário usando a CLI v2

Crie um arquivo YAML que define a identidade gerenciada atribuída pelo usuário que deve ser anexada ao workspace:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Com o parâmetro --file, use o arquivo YAML no comando az ml workspace update para anexar a identidade gerenciada atribuída pelo usuário:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Anexe a identidade gerenciada atribuída pelo usuário usando `ARMClient`

Instale o ARMClient, uma ferramenta de linha de comando simples que invoca a API do Azure Resource Manager.

Crie um arquivo JSON que define a identidade gerenciada atribuída pelo usuário que deve ser anexada ao workspace:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Para anexar a identidade gerenciada atribuída pelo usuário ao workspace, execute o comando a seguir no prompt do PowerShell ou no prompt de comando.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Observação

Para garantir a execução bem-sucedida do trabalho do Spark, atribua as funções Colaborador e Colaborador de Dados do Blob de Armazenamento na conta de armazenamento do Azure usada para a entrada e a saída de dados à identidade que está sendo usada pelo trabalho do Spark
O Acesso à Rede Pública deve ser habilitado no workspace do Azure Synapse para garantir a execução bem-sucedida do trabalho do Spark usando um pool do Spark do Synapse anexado.
Se um pool anexado do Synapse Spark apontar para um pool do Synapse Spark em um workspace do Azure Synapse que tenha uma rede virtual gerenciada associada, um ponto de extremidade privado gerenciado para a conta de armazenamento deverá ser configurado a fim de garantir o acesso aos dados.
A computação sem servidor do Spark dá suporte à rede virtual gerenciada do Azure Machine Learning. Se uma rede gerenciada for provisionada para a computação Spark sem servidor, os pontos de extremidade privados correspondentes para a conta de armazenamento também deverão ser provisionados para garantir o acesso aos dados.

Enviar um trabalho autônomo do Spark

Depois que forem feitas as alterações necessárias para a parametrização do script do Python, um script do Python desenvolvido pela estruturação de dados interativa poderá ser usado para enviar um trabalho em lotes, a fim de processar um volume maior de dados. Um trabalho em lotes de estruturação de dados simples pode ser enviado como um trabalho autônomo do Spark.

Um trabalho do Spark exige um script Python que usa argumentos, que podem ser desenvolvidos com a modificação do código Python criado com base na estruturação de dados interativa. Uma amostra de script Python é mostrada aqui.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Observação

Este exemplo de código Python usa pyspark.pandas. Somente a versão 3.2 do runtime do Spark ou posterior dá suporte a isso.

O script acima usa dois argumentos --titanic_data e --wrangled_data, que passam o caminho dos dados de entrada e da pasta de saída, respectivamente.

APLICA-SE A:Extensão de ML da CLI do Azurev2 (atual)

Para criar um trabalho, um trabalho autônomo do Spark pode ser definido como um arquivo de especificação YAML, que pode ser usado no comando az ml job create, com o parâmetro --file. Defina essas propriedades no arquivo YAML:

Propriedades YAML na especificação de trabalho do Spark

type é definido como spark.
code – define o local da pasta que contém o código-fonte e os scripts para esse trabalho.
entry – define o ponto de entrada para o trabalho. Ele deve abordar uma destas propriedades:
- file – define o nome do script Python que serve como um ponto de entrada para o trabalho.
py_files – define uma lista de arquivos .zip, .egg ou .py que serão colocados no PYTHONPATH, para obter a execução bem-sucedida do trabalho. Essa propriedade é opcional.
jars – define uma lista de arquivos .jar a serem incluídos no driver do Spark e no executor CLASSPATH para obter a execução bem-sucedida do trabalho. Essa propriedade é opcional.
files – define uma lista de arquivos que devem ser copiados para o diretório de trabalho de cada executor, para obter a execução bem-sucedida do trabalho. Essa propriedade é opcional.
archives – define uma lista de arquivos que devem ser extraídos para o diretório de trabalho de cada executor, para obter a execução bem-sucedida do trabalho. Essa propriedade é opcional.
conf – define estas propriedades de driver e executor do Spark:
- spark.driver.cores: o número de núcleos para o driver do Spark.
- spark.driver.memory: memória alocada para o driver do Spark, em gigabytes (GB).
- spark.executor.cores: o número de núcleos para o executor do Spark.
- spark.executor.memory: a alocação de memória para o executor do Spark, em gigabytes (GB).
- spark.dynamicAllocation.enabled – se os executores devem ou não ser alocados dinamicamente, como um valor True ou False.
- Se a alocação dinâmica de executores estiver habilitada, defina estas propriedades:
  - spark.dynamicAllocation.minExecutors – o número mínimo de instâncias de executores do Spark, para alocação dinâmica.
  - spark.dynamicAllocation.maxExecutors – o número máximo de instâncias de executores do Spark, para alocação dinâmica.
- Se a alocação dinâmica de executores estiver desabilitada, defina esta propriedade:
  - spark.executor.instances – o número de instâncias do executor do Spark.
environment – um ambiente do Azure Machine Learning para executar o trabalho.
args – Os argumentos da linha de comando que devem ser passados para a classe ou o script Python do ponto de entrada do trabalho. Confira o arquivo de especificação YAML fornecido aqui para ver um exemplo.
resources - essa propriedade define os recursos a serem usados por uma computação do Spark sem servidor do Azure Machine Learning. Ela usa as propriedades a seguir:
- instance_type – o tipo de instância de computação a ser usado para o Pool do Spark. No momento, há suporte para os seguintes tipos de instância:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version – define a versão de runtime do Spark. Atualmente, há suporte para as seguintes versões de runtime do Spark:
  - 3.2
  - 3.3
    Importante
    
    Runtime do Azure Synapse para o Apache Spark: Comunicados
    - Runtime do Azure Synapse para Apache Spark 3.2:
      
      Data do Comunicado EOLA: 8 de julho de 2023
      
      Data do Término do Suporte: 8 de julho de 2024. Após essa data, o runtime será desabilitado.
    - Para obter suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.3.
Este é um exemplo:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.3"
```
compute – essa propriedade define o nome de um pool do Spark do Synapse anexado, conforme mostrado neste exemplo:
```
compute: mysparkpool
```
inputs – essa propriedade define entradas para o trabalho do Spark. As entradas para um trabalho do Spark podem ser um valor literal ou dados armazenados em um arquivo ou pasta.
- Um valor literal pode ser um número, um valor booliano ou uma cadeia de caracteres. Alguns exemplos são mostrados aqui:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Os dados armazenados em um arquivo ou pasta devem ser definidos usando estas propriedades:
  - type – defina essa propriedade como uri_file ou uri_folder, para dados de entrada presentes em um arquivo ou em uma pasta, respectivamente.
  - path – o URI dos dados de entrada, como azureml://, abfss:// ou wasbs://.
  - mode – defina esta propriedade como direct. Este exemplo mostra a definição de uma entrada de trabalho, que pode ser chamada de $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs – essa propriedade define as saídas de trabalho do Spark. As saídas de um trabalho do Spark podem ser gravadas em um arquivo ou em um local de pasta, que é definido usando as três propriedades a seguir:
- type – essa propriedade pode ser definida como uri_file ou uri_folder para gravar dados de saída em um arquivo ou uma pasta, respectivamente.
- path – essa propriedade define o URI do local de saída, como azureml://, abfss:// ou wasbs://.
- mode – defina esta propriedade como direct. Este exemplo mostra a definição de uma saída de trabalho, que pode ser chamada de ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity – essa propriedade opcional define a identidade usada para enviar esse trabalho. Ela pode ter valores user_identity e managed. Se a especificação YAML não definir uma identidade, o trabalho do Spark usará a identidade padrão.

Trabalho autônomo do Spark

Esse exemplo de especificação YAML mostra um trabalho autônomo do Spark. Ele usa uma computação do Spark sem servidor do Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.3"

Observação

Para usar um pool anexado do Synapse Spark, defina a propriedade compute no arquivo de especificação YAML de exemplo mostrado acima, em vez da propriedade resources.

Os arquivos YAML mostrados anteriormente podem ser usados no comando az ml job create, com o parâmetro --file, para criar um trabalho autônomo do Spark, conforme mostrado:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Você pode executar o comando acima no:

terminal de uma instância de computação do Azure Machine Learning.
terminal de Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tem a CLI do Azure Machine Learning instalada.

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

Trabalho autônomo do Spark usando o SDK do Python

Para criar um trabalho autônomo do Spark, use a função azure.ai.ml.spark com estes parâmetros:

name – o nome do trabalho do Spark.
display_name – o nome de exibição do trabalho do Spark que deve ser exibido na interface do usuário e em outros lugares.
code – o local da pasta que contém o código-fonte e os scripts para esse trabalho.
entry – o ponto de entrada para o trabalho. Deve ser um dicionário que define um ponto de entrada de arquivo.
py_files – uma lista de arquivos .zip, .egg ou .py que serão colocados no PYTHONPATH, para obter a execução bem-sucedida do trabalho. Esse parâmetro é opcional.
jars – uma lista de arquivos .jar a serem incluídos no driver e executor CLASSPATH do Spark, para obter a execução bem-sucedida do trabalho. Esse parâmetro é opcional.
files – uma lista de arquivos que devem ser copiados para o diretório de trabalho de cada executor, para obter a execução bem-sucedida do trabalho. Esse parâmetro é opcional.
archives – uma lista de arquivos que são extraídos e colocados automaticamente no diretório de trabalho de cada executor, para obter a execução bem-sucedida do trabalho. Esse parâmetro é opcional.
conf: um dicionário com pares chave-valor de configuração do Spark predefinidos.
driver_cores: o número de núcleos alocados para o driver do Spark.
driver_memory: a memória alocada para o driver do Spark, com um sufixo de unidade de tamanho k, m, g ou t (por exemplo, 512m, 2g).
executor_cores: o número de núcleos alocados para o executor do Spark.
executor_memory: a memória alocada para o executor do Spark, com um sufixo de unidade de tamanho k, m, g ou t (por exemplo, 512m, 2g).
dynamic_allocation_enabled – um parâmetro booliano que define se os executores devem ou não ser alocados dinamicamente.
- Se a alocação dinâmica de executores estiver habilitada, defina estes parâmetros:
  - dynamic_allocation_min_executors – o número mínimo de instâncias de executores do Spark, para alocação dinâmica.
  - dynamic_allocation_max_executors – o número máximo de instâncias de executores do Spark, para alocação dinâmica.
- Se a alocação dinâmica de executores estiver desabilitada, defina estes parâmetros:
  - executor_instances – o número de instâncias do executor do Spark.
  - environment – o ambiente do Azure Machine Learning que executa o trabalho. O parâmetro deve passar:
    - um objeto de azure.ai.ml.entities.Environment ou um nome (cadeia de caracteres) de ambiente do Azure Machine Learning.
args – Os argumentos da linha de comando que devem ser passados para a classe ou o script Python do ponto de entrada do trabalho. Confira o código de exemplo fornecido aqui para ver um exemplo.
resources - os recursos a serem utilizados por uma computação do Spark sem servidor do Azure Machine Learning. Esse parâmetro deve passar um dicionário com:
- instance_type - uma chave que define o tipo de instância de computação a ser usada para a computação do Spark sem servidor. No momento, há suporte para os seguintes tipos de instância:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version – uma chave que define a versão de runtime do Spark. Atualmente, há suporte para as seguintes versões de runtime do Spark:
  - 3.2.0
  - 3.3.0
    Importante
    
    Runtime do Azure Synapse para o Apache Spark: Comunicados
    - Runtime do Azure Synapse para Apache Spark 3.2:
      
      Data do Comunicado EOLA: 8 de julho de 2023
      
      Data do Término do Suporte: 8 de julho de 2024. Após essa data, o runtime será desabilitado.
    - Para obter suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.3.
compute - o nome de um pool do Spark do Synapse anexado.
inputs – as entradas para o trabalho do Spark. Esse parâmetro deve passar um dicionário com mapeamentos das associações de dados de entrada usadas no trabalho. Esse dicionário tem estes valores:
- uma chave de dicionário define o nome de entrada
- um valor correspondente pode ser:
  - um valor literal: inteiro, número, booliano ou cadeia de caracteres.
  - um objeto de classe azure.ai.ml.Input, com os seguintes parâmetros:
    - type – defina esse parâmetro como uri_file ou uri_folder, para dados de entrada presentes em um arquivo ou em uma pasta, respectivamente.
    - path – o URI dos dados de entrada, como azureml://, abfss:// ou wasbs://.
    - mode – defina esse parâmetro como direct.
outputs – as saídas para o trabalho do Spark. Esse parâmetro deve passar um dicionário com mapeamentos das associações de dados de saída usadas no trabalho. Esse dicionário tem estes valores:
- uma chave de dicionário define o nome de saída
- um valor correspondente é um objeto de classe azure.ai.ml.Output, com os seguintes parâmetros:
  - type – defina esse parâmetro como uri_file ou uri_folder, para um arquivo de dados de saída ou uma pasta, respectivamente.
  - path – o URI dos dados de saída, como azureml://, abfss:// ou wasbs://.
  - mode – defina esse parâmetro como direct.
identity – um parâmetro opcional que define a identidade usada para envio deste trabalho. Os valores permitidos são um objeto de classe
- azure.ai.ml.entities.UserIdentityConfiguration ou
- azure.ai.ml.entities.ManagedIdentityConfiguration para identidade do usuário e identidade gerenciada, respectivamente. Se nenhuma identidade for definida, o trabalho do Spark usará a identidade padrão.

Você pode enviar um trabalho autônomo do Spark de:

um Notebook do Azure Machine Learning conectado a uma instância de computação do Azure Machine Learning.
Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tem o SDK do Azure Machine Learning para Python instalado.

Esse trecho de código em Python mostra a criação de um trabalho autônomo do Spark, com uma computação do Spark sem servidor do Azure Machine Learning, usando a identidade do usuário.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Observação

Para usar um pool anexado do Synapse Spark, defina o parâmetro compute na função azure.ai.ml.spark em vez de resources.

Enviar um trabalho autônomo do Spark por meio da interface do usuário do Estúdio do Azure Machine Learning (versão prévia)

Importante

Esse recurso está atualmente em visualização pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos.

Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Para enviar um trabalho autônomo do Spark usando a interface do usuário do Estúdio do Azure Machine Learning:

Screenshot showing creation of a new Spark job in Azure Machine Learning studio UI.

Próximo ao lado superior direito da tela, selecione + Novo.
Selecione Trabalho do Spark (versão prévia).
Na tela Computação :

Screenshot showing compute selection screen for a new Spark job in Azure Machine Learning studio UI.

Em Selecionar o tipo de computação, selecione Spark sem servidor para computação do Spark sem servidor ou Computação anexada para um pool do Spark do Synapse anexado.
Se você selecionou Spark sem servidor:
1. Selecione o Tamanho da máquina virtual.
2. Selecione a Versão de runtime do Spark.
Importante

Runtime do Azure Synapse para o Apache Spark: Comunicados
- Runtime do Azure Synapse para Apache Spark 3.2:
  - Data do Comunicado EOLA: 8 de julho de 2023
  - Data do Término do Suporte: 8 de julho de 2024. Após essa data, o runtime será desabilitado.
- Para obter suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.3.
Se você selecionou Computação anexada:
1. Selecione um Pool do Spark do Azure Synapse anexado no menu Selecionar computação anexada do Azure Machine Learning.
Selecione Avançar.
Na tela Ambiente:
1. Selecione um dos ambientes disponíveis na lista. A seleção de ambiente é opcional.
2. Selecione Avançar.
Na tela Configurações do trabalho:
1. Forneça um nome de trabalho. Você pode usar o nome de trabalho gerado por padrão.
2. Selecione Experimentar nome no menu suspenso.
3. Em Adicionar marcas, forneça Nome e Valor e selecione Adicionar. A adição de marcas é opcional.
4. Na seção Código:
  1. Selecione uma opção na lista suspensa Escolher local do código. Escolha Carregar arquivo local ou Armazenamento de blobs padrão do workspace do Azure Machine Learning.
  2. Se você selecionou Escolher local do código:
    - Selecione Procurar e navegue até o local que contém os arquivos de código no computador local.
  3. Se você selecionou Armazenamento de blobs padrão do workspace do Azure Machine Learning:
    1. Em Caminho para o arquivo de código a ser carregado, selecione Procurar.
    2. Na tela de item pop-up chamada Seleção de caminho, selecione o caminho dos arquivos de código no armazenamento de blobs padrão do workspace.
    3. Selecione Salvar.
  4. Insira o nome do arquivo de entrada para o trabalho autônomo. Esse arquivo deve conter o código Python que usa argumentos.
  5. Para adicionar outros arquivos Python necessários para o trabalho autônomo em runtime, selecione + Adicionar arquivo em Arquivos Py e insira o nome do arquivo .zip, .egg ou .py a ser colocado no PYTHONPATH para a execução bem-sucedida do trabalho. Podem ser adicionados vários arquivos.
  6. Para adicionar todos os arquivos Jar exigidos pelo trabalho autônomo no runtime, selecione + Adicionar arquivo em Jars e insira o nome do arquivo .jar a ser incluído no driver do Spark. Além disso, adicione o executor CLASSPATH para a execução bem-sucedida do trabalho. Podem ser adicionados vários arquivos.
  7. Para adicionar arquivos que devem ser extraídos no diretório de trabalho de cada executor para obter a execução bem-sucedida do trabalho, selecione + Adicionar arquivo em Arquivos e insira o nome dos arquivos. Podem ser adicionados vários arquivos.
  8. A adição de arquivos Py, Jars e Arquivos é opcional.
  9. Para adicionar uma entrada, selecione + Adicionar entrada em Entradas e
    1. Inserir um nome de entrada. A entrada deve se referir a esse nome posteriormente nos Argumentos.
    2. Selecionar um tipo de entrada.
    3. Para dados de tipo:
      1. Selecionar Tipo de dados como Arquivo ou Pasta.
      2. Selecionar Fonte de dados como Carregar do local, URI ou Armazenamento de dados.
        
        Para Carregar do local, selecione Procurar em Caminho para carregar, para escolher o arquivo de entrada ou pasta.
        
        Em URI, insira um URI de dados de armazenamento (por exemplo, URI abfss:// ou wasbs://) ou insira um ativo de dados azureml://.
        
        Do Armazenamento de dados:
        
        Selecione um armazenamento de dados no menu suspenso.
        
        No Caminho para os dados, selecione Procurar.
        
        Na tela de item pop-up chamada Seleção de caminho, selecione o caminho dos arquivos de código no armazenamento de blobs padrão do workspace.
        
        Selecione Salvar.
    4. Para o tipo Inteiro, insira um valor inteiro como Valor de entrada.
    5. Para o tipo Número, insira um valor numérico como Valor de entrada.
    6. Para o tipo Booliano, selecione True ou False como Valor de entrada.
    7. Para o tipo Cadeia de caracteres, insira uma cadeia de caracteres como Valor de entrada.
  10. Para adicionar uma entrada, selecione + Adicionar saída em Saídas e
    1. Inserir um nome de saída. A saída referenciará esse nome posteriormente nos Argumentos.
    2. Selecione Tipo de saída como Arquivo ou Pasta.
    3. Em Destino do URI de saída, insira um URI de dados de armazenamento (por exemplo, URI abfss:// ou wasbs://) ou insira um ativo de dados azureml://.
  11. Insira Argumentos usando os nomes definidos nos campos Nome de entrada e Nome de saída nas etapas anteriores e os nomes dos argumentos de entrada e saída usados no arquivo entrada do script Python. Por exemplo, se o nome de entrada e o nome de saída forem definidos como job_input e job_output e os argumentos forem adicionados no arquivo de entrada, conforme mostrado aqui,
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
em seguida, insira Argumentos como --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Na seção Configurações do Spark : 1. Para o tamanho do Executor: 1. Insira o número de núcleos do executor e a memória (GB) do executor, em gigabytes. 2. Para Executores alocados dinamicamente, selecione a opção Desabilitado ou Habilitado. - Se a alocação dinâmica de executores estiver comoDesabilitado, insira o número de instâncias do executor. - Se a alocação dinâmica de executores estiver comoHabilitado, use o controle deslizante para selecionar o número mínimo e máximo de executores. 1. Para Tamanho do driver: 1. Insira o número de núcleos do driver e a memória (GB) do driver, em gigabytes. 2. Insira pares de nome e valor para todas as configurações adicionais e, em seguida, selecione Adicionar. Fornecer configurações adicionais é opcional. 6. Selecione Avançar.
Na tela Revisão:
1. Revise a especificação do trabalho antes de enviá-la.
2. Selecione Criar para enviar o trabalho autônomo do Spark.

Componente do Spark em um trabalho de pipeline

Um componente do Spark oferece a flexibilidade de usar o mesmo componente em vários pipelines do Azure Machine Learning, como uma etapa de pipeline.

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)

A sintaxe YAML para um componente do Spark é semelhante à sintaxe YAML para especificação de trabalho do Spark em muitos aspectos. Essas propriedades são definidas de forma diferente na especificação YAML de componente do Spark:

name – o nome do componente do Spark.
version – a versão do componente do Spark.
display_name – o nome do componente do Spark a ser exibido na interface do usuário e em outro lugar.
description – a descrição do componente do Spark.
inputs – Essa propriedade é semelhante à propriedade inputs descrita na sintaxe do YAML para a especificação de trabalho do Spark, com a exceção de que ela não define a propriedade path. Este snippet de código mostra um exemplo da propriedade inputs do componente do Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs – Essa propriedade é semelhante à propriedade outputs descrita na sintaxe do YAML para a especificação de trabalho do Spark, com a exceção de que ela não define a propriedade path. Este snippet de código mostra um exemplo da propriedade outputs do componente do Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Observação

Um componente do Spark não define propriedadesidentity, compute ou resources. O arquivo de especificação YAML do pipeline define essas propriedades.

Este arquivo de especificação YAML fornece um exemplo de um componente do Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

O componente do Spark definido no arquivo de especificação YAML mencionado pode ser usado em um trabalho de pipeline do Azure Machine Learning. Consulte esquema YAML do trabalho de pipeline para saber mais sobre a sintaxe YAML que define um trabalho de pipeline. Esse exemplo mostra um arquivo de especificação YAML para um trabalho de pipeline, com um componente Spark e uma computação Spark sem servidor do Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.3"

Observação

Para usar um pool anexado do Synapse Spark, defina a propriedade compute no exemplo de arquivo de especificação YAML mostrado acima em vez da propriedade resources.

O arquivo de especificação YAML mencionado pode ser usado no comando az ml job create com o parâmetro --file para criar um trabalho de pipeline, conforme mostrado:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Você pode executar o comando acima no:

terminal de uma instância de computação do Azure Machine Learning.
terminal de Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tem a CLI do Azure Machine Learning instalada.

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

Para criar um pipeline do Azure Machine Learning com um componente do Spark, você deve conhecer a criação de pipelines do Azure Machine Learning com base em componentes, usando o SDK do Python. Um componente do Spark é criado usando a função azure.ai.ml.spark. Os parâmetros de função são definidos quase da mesma maneira que para o trabalho autônomo do Spark. Esses parâmetros são definidos de forma diferente para o componente do Spark:

name – o nome do componente do Spark.
display_name – o nome do componente do Spark exibido na interface do usuário e em outro lugar.
inputs – esse parâmetro se assemelha ao parâmetro inputs descrito para o trabalho autônomo do Spark, exceto que a instância da classe azure.ai.ml.Input é criada sem o parâmetro path.
outputs – esse parâmetro se assemelha ao parâmetro outputs descrito para o trabalho autônomo do Spark, exceto que a instância da classe azure.ai.ml.Output é criada sem o parâmetro path.

Observação

Um componente do Spark criado usando a função azure.ai.ml.spark não define os parâmetros identity, compute ou resources. O pipeline do Azure Machine Learning define esses parâmetros.

Você pode enviar um trabalho de pipeline com um componente do Spark de:

um Notebook do Azure Machine Learning conectado a uma instância de computação do Azure Machine Learning.
Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tem o SDK do Azure Machine Learning para Python instalado.

Este snippet de código do Python mostra o uso de uma identidade gerenciada, acompanhado da criação de um trabalho de pipeline do Azure Machine Learning. Além disso, ele mostra o uso de um componente do Spark e de uma computação do Synapse gerenciada (automática) do Azure Machine Learning:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Observação

Para usar um pool anexado do Synapse Spark, defina o parâmetro compute na função azure.ai.ml.spark em vez do parâmetro resources. Por exemplo, no exemplo de código mostrado acima, defina spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" em vez de definir spark_step.resources.

Solução de problemas de trabalhos do Spark

Para solucionar problemas de um trabalho do Spark, você pode acessar os logs gerados para o respectivo trabalho no Estúdio do Azure Machine Learning. Para exibir os logs de um trabalho do Spark:

Navegue até Trabalhos no painel esquerdo na interface do usuário do Estúdio do Azure Machine Learning
Selecione a guia Todos os trabalhos
Selecione o valor Nome de exibição para o trabalho
Na página de detalhes do trabalho, selecione a guia Saída + logs
No explorador de arquivos, expanda a pasta logs e em seguida expanda a pasta azureml
Acessar os logs de trabalho do Spark dentro das pastas do driver e gerenciador de biblioteca

Observação

Para solucionar problemas de trabalhos do Spark criados durante a estruturação interativa de dados em uma sessão de notebook, selecione Detalhes do trabalho no canto superior direito da interface do usuário do notebook. Um trabalho do Spark de uma sessão interativa de notebook é criado sob o nome de experimento notebook-runs.

Enviar trabalhos do Spark no Azure Machine Learning

Pré-requisitos

Anexar identidade gerenciada atribuída pelo usuário usando a CLI v2

Anexe a identidade gerenciada atribuída pelo usuário usando `ARMClient`

Enviar um trabalho autônomo do Spark

Propriedades YAML na especificação de trabalho do Spark

Trabalho autônomo do Spark

Trabalho autônomo do Spark usando o SDK do Python

Enviar um trabalho autônomo do Spark por meio da interface do usuário do Estúdio do Azure Machine Learning (versão prévia)

Componente do Spark em um trabalho de pipeline

Solução de problemas de trabalhos do Spark

Próximas etapas

Recursos adicionais

Enviar trabalhos do Spark no Azure Machine Learning

Pré-requisitos

Anexar identidade gerenciada atribuída pelo usuário usando a CLI v2

Anexe a identidade gerenciada atribuída pelo usuário usando ARMClient

Enviar um trabalho autônomo do Spark

Propriedades YAML na especificação de trabalho do Spark

Trabalho autônomo do Spark

Componente do Spark em um trabalho de pipeline

Solução de problemas de trabalhos do Spark

Próximas etapas

Recursos adicionais

Anexe a identidade gerenciada atribuída pelo usuário usando `ARMClient`