SparkJob Clase

Referencia

Un trabajo de Spark independiente.

Herencia: azure.ai.ml.entities._job.job.Job

SparkJob

azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark

SparkJob

azure.ai.ml.entities._job.job_io_mixin.JobIOMixin

SparkJob

azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin

SparkJob

Constructor

SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)

Parámetros

driver_cores: Optional[int]

El número de núcleos que se van a usar para el proceso de controlador, solo en modo de clúster.

driver_memory: Optional[str]

Cantidad de memoria que se va a usar para el proceso del controlador, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_cores: Optional[int]

Número de núcleos que se usarán para cada ejecutor.

executor_memory: Optional[str]

Cantidad de memoria que se va a usar por proceso de ejecutor, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_instances: Optional[int]

Número inicial de ejecutores.

dynamic_allocation_enabled: Optional[bool]

Si se va a usar la asignación dinámica de recursos, que escala el número de ejecutores registrados con esta aplicación hacia arriba y hacia abajo en función de la carga de trabajo.

dynamic_allocation_min_executors: Optional[int]

Límite inferior para el número de ejecutores si está habilitada la asignación dinámica.

dynamic_allocation_max_executors: Optional[int]

Límite superior para el número de ejecutores si está habilitada la asignación dinámica.

inputs: Optional[dict[str, Input]]

Asignación de enlaces de datos de entrada usados en el trabajo.

outputs: Optional[dict[str, Output]]

Asignación de enlaces de datos de salida usados en el trabajo.

compute: Optional[str]

Recurso de proceso en el que se ejecuta el trabajo.

identity: Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Ejemplos

Configuración de SparkJob.


   from azure.ai.ml import Input, Output
   from azure.ai.ml.entities import SparkJob

   spark_job = SparkJob(
       code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
       entry={"file": "sampleword.py"},
       conf={
           "spark.driver.cores": 2,
           "spark.driver.memory": "1g",
           "spark.executor.cores": 1,
           "spark.executor.memory": "1g",
           "spark.executor.instances": 1,
       },
       environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
       inputs={
           "input1": Input(
               type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
           )
       },
       compute="synapsecompute",
       outputs={"component_out_path": Output(type="uri_folder")},
       args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
   )

Métodos

dump	Volca el contenido del trabajo en un archivo en formato YAML.
filter_conf_fields	Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario.

dump

Volca el contenido del trabajo en un archivo en formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parámetros

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Requerido

Ruta de acceso local o secuencia de archivos en la que se va a escribir el contenido de YAML. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo. Si dest es un archivo abierto, el archivo se escribirá directamente.

kwargs: dict

Argumentos adicionales para pasar al serializador YAML.

Excepciones

FileExistsError

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

IOError

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

filter_conf_fields

Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario.

filter_conf_fields() -> Dict[str, str]

Devoluciones

Diccionario de los campos conf que no son campos de configuración de Spark.

Tipo de valor devuelto

dict[str, str]

Excepciones

FileExistsError

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

IOError

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

Atributos

base_path

Ruta de acceso base del recurso.

Devoluciones

Ruta de acceso base del recurso.

Tipo de valor devuelto

str

creation_context

Contexto de creación del recurso.

Devoluciones

Metadatos de creación del recurso.

Tipo de valor devuelto

Optional[SystemData]

entry

environment

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

Devoluciones

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

Tipo de valor devuelto

Optional[Union[str, Environment]]

id

El identificador del recurso.

Devoluciones

Identificador global del recurso, un identificador de Azure Resource Manager (ARM).

Tipo de valor devuelto

Optional[str]

identity

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Devoluciones

La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.

Tipo de valor devuelto

Optional[Union[ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

inputs

log_files

Archivos de salida del trabajo.

Devoluciones

Diccionario de nombres de registro y direcciones URL.

Tipo de valor devuelto

Optional[Dict[str, str]]

outputs

resources

Configuración del recurso de proceso para el trabajo.

Devoluciones

Configuración del recurso de proceso para el trabajo.

Tipo de valor devuelto

Optional[SparkResourceConfiguration]

status

El estado del trabajo.

Los valores comunes devueltos incluyen "Running", "Completed" y "Failed". Todos los valores posibles son:

NotStarted: se trata de un estado temporal en el que se encuentran los objetos Run del lado cliente antes del envío en la nube.
Starting: la ejecución ha empezado a procesarse en la nube. El autor de la llamada tiene un identificador de ejecución en este momento.
Aprovisionamiento: el proceso a petición se está creando para un envío de trabajo determinado.
Preparación: el entorno de ejecución se está preparando y se encuentra en una de estas dos fases:
- Compilación de imágenes de Docker
- configuración del entorno Conda
En cola: el trabajo se pone en cola en el destino de proceso. Por ejemplo, en BatchAI, el trabajo está en estado en cola.

mientras espera a que todos los nodos solicitados estén listos.
En ejecución: el trabajo se ha iniciado para ejecutarse en el destino de proceso.
Finalización: la ejecución del código de usuario se ha completado y la ejecución está en fases posteriores al procesamiento.
CancelRequested: se ha solicitado la cancelación del trabajo.
Completado: la ejecución se ha completado correctamente. Esto incluye tanto la ejecución del código de usuario como la ejecución

posteriores al procesamiento de la ejecución.
Failed: error en la ejecución. Normalmente, la propiedad Error de una ejecución proporcionará detalles sobre por qué se produjo el error.
Canceled: sigue a una solicitud de cancelación e indica que la ejecución se ha cancelado correctamente.
NotResponding: en el caso de las ejecuciones que tienen los latidos habilitados, no se ha enviado recientemente ningún latido.

Devoluciones

Estado del trabajo.

Tipo de valor devuelto

Optional[str]

studio_url

Punto de conexión de Azure ML Studio.

Devoluciones

Dirección URL de la página de detalles del trabajo.

Tipo de valor devuelto

Optional[str]

type

Tipo del trabajo.

Devoluciones

Tipo del trabajo.

Tipo de valor devuelto

Optional[str]

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)

Compartir a través de

SparkJob Clase

Constructor

Parámetros

Ejemplos

Métodos

dump

Parámetros

Excepciones

filter_conf_fields

Devoluciones

Tipo de valor devuelto

Excepciones

Atributos

base_path

Devoluciones

Tipo de valor devuelto

creation_context

Devoluciones

Tipo de valor devuelto

entry

environment

Devoluciones

Tipo de valor devuelto

id

Devoluciones

Tipo de valor devuelto

identity

Devoluciones

Tipo de valor devuelto

inputs

log_files

Devoluciones

Tipo de valor devuelto

outputs

resources

Devoluciones

Tipo de valor devuelto

status

Devoluciones

Tipo de valor devuelto

studio_url

Devoluciones

Tipo de valor devuelto

type

Devoluciones

Tipo de valor devuelto

CODE_ID_RE_PATTERN

Comentarios

Recursos adicionales