Compartir a través de


SparkJob Clase

Un trabajo de Spark independiente.

Herencia
azure.ai.ml.entities._job.job.Job
SparkJob
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkJob
azure.ai.ml.entities._job.job_io_mixin.JobIOMixin
SparkJob
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkJob

Constructor

SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)

Parámetros

driver_cores
Optional[int]

El número de núcleos que se van a usar para el proceso de controlador, solo en modo de clúster.

driver_memory
Optional[str]

Cantidad de memoria que se va a usar para el proceso del controlador, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_cores
Optional[int]

Número de núcleos que se usarán para cada ejecutor.

executor_memory
Optional[str]

Cantidad de memoria que se va a usar por proceso de ejecutor, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_instances
Optional[int]

Número inicial de ejecutores.

dynamic_allocation_enabled
Optional[bool]

Si se va a usar la asignación dinámica de recursos, que escala el número de ejecutores registrados con esta aplicación hacia arriba y hacia abajo en función de la carga de trabajo.

dynamic_allocation_min_executors
Optional[int]

Límite inferior para el número de ejecutores si está habilitada la asignación dinámica.

dynamic_allocation_max_executors
Optional[int]

Límite superior para el número de ejecutores si está habilitada la asignación dinámica.

inputs
Optional[dict[str, Input]]

Asignación de enlaces de datos de entrada usados en el trabajo.

outputs
Optional[dict[str, Output]]

Asignación de enlaces de datos de salida usados en el trabajo.

compute
Optional[str]

Recurso de proceso en el que se ejecuta el trabajo.

identity
Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Ejemplos

Configuración de SparkJob.


   from azure.ai.ml import Input, Output
   from azure.ai.ml.entities import SparkJob

   spark_job = SparkJob(
       code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
       entry={"file": "sampleword.py"},
       conf={
           "spark.driver.cores": 2,
           "spark.driver.memory": "1g",
           "spark.executor.cores": 1,
           "spark.executor.memory": "1g",
           "spark.executor.instances": 1,
       },
       environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
       inputs={
           "input1": Input(
               type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
           )
       },
       compute="synapsecompute",
       outputs={"component_out_path": Output(type="uri_folder")},
       args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
   )


Métodos

dump

Volca el contenido del trabajo en un archivo en formato YAML.

filter_conf_fields

Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario.

dump

Volca el contenido del trabajo en un archivo en formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parámetros

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Requerido

Ruta de acceso local o secuencia de archivos en la que se va a escribir el contenido de YAML. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo. Si dest es un archivo abierto, el archivo se escribirá directamente.

kwargs
dict

Argumentos adicionales para pasar al serializador YAML.

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

filter_conf_fields

Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario.

filter_conf_fields() -> Dict[str, str]

Devoluciones

Diccionario de los campos conf que no son campos de configuración de Spark.

Tipo de valor devuelto

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

Atributos

base_path

Ruta de acceso base del recurso.

Devoluciones

Ruta de acceso base del recurso.

Tipo de valor devuelto

str

creation_context

Contexto de creación del recurso.

Devoluciones

Metadatos de creación del recurso.

Tipo de valor devuelto

entry

environment

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

Devoluciones

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

Tipo de valor devuelto

id

El identificador del recurso.

Devoluciones

Identificador global del recurso, un identificador de Azure Resource Manager (ARM).

Tipo de valor devuelto

identity

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Devoluciones

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Tipo de valor devuelto

inputs

log_files

Archivos de salida del trabajo.

Devoluciones

Diccionario de nombres de registro y direcciones URL.

Tipo de valor devuelto

outputs

resources

Configuración del recurso de proceso para el trabajo.

Devoluciones

Configuración del recurso de proceso para el trabajo.

Tipo de valor devuelto

status

El estado del trabajo.

Los valores comunes devueltos incluyen "Running", "Completed" y "Failed". Todos los valores posibles son:

  • NotStarted: se trata de un estado temporal en el que se encuentran los objetos Run del lado cliente antes del envío en la nube.

  • Starting: la ejecución ha empezado a procesarse en la nube. El autor de la llamada tiene un identificador de ejecución en este momento.

  • Aprovisionamiento: el proceso a petición se está creando para un envío de trabajo determinado.

  • Preparación: el entorno de ejecución se está preparando y se encuentra en una de estas dos fases:

    • Compilación de imágenes de Docker

    • configuración del entorno Conda

  • En cola: el trabajo se pone en cola en el destino de proceso. Por ejemplo, en BatchAI, el trabajo está en estado en cola.

    mientras espera a que todos los nodos solicitados estén listos.

  • En ejecución: el trabajo se ha iniciado para ejecutarse en el destino de proceso.

  • Finalización: la ejecución del código de usuario se ha completado y la ejecución está en fases posteriores al procesamiento.

  • CancelRequested: se ha solicitado la cancelación del trabajo.

  • Completado: la ejecución se ha completado correctamente. Esto incluye tanto la ejecución del código de usuario como la ejecución

    posteriores al procesamiento de la ejecución.

  • Failed: error en la ejecución. Normalmente, la propiedad Error de una ejecución proporcionará detalles sobre por qué se produjo el error.

  • Canceled: sigue a una solicitud de cancelación e indica que la ejecución se ha cancelado correctamente.

  • NotResponding: en el caso de las ejecuciones que tienen los latidos habilitados, no se ha enviado recientemente ningún latido.

Devoluciones

Estado del trabajo.

Tipo de valor devuelto

studio_url

Punto de conexión de Azure ML Studio.

Devoluciones

Dirección URL de la página de detalles del trabajo.

Tipo de valor devuelto

type

Tipo del trabajo.

Devoluciones

Tipo del trabajo.

Tipo de valor devuelto

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)