SparkJob Clase
Un trabajo de Spark independiente.
- Herencia
-
azure.ai.ml.entities._job.job.JobSparkJobazure.ai.ml.entities._job.parameterized_spark.ParameterizedSparkSparkJobazure.ai.ml.entities._job.job_io_mixin.JobIOMixinSparkJobazure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixinSparkJob
Constructor
SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)
Parámetros
El número de núcleos que se van a usar para el proceso de controlador, solo en modo de clúster.
Cantidad de memoria que se va a usar para el proceso del controlador, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").
Cantidad de memoria que se va a usar por proceso de ejecutor, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").
Si se va a usar la asignación dinámica de recursos, que escala el número de ejecutores registrados con esta aplicación hacia arriba y hacia abajo en función de la carga de trabajo.
Límite inferior para el número de ejecutores si está habilitada la asignación dinámica.
Límite superior para el número de ejecutores si está habilitada la asignación dinámica.
- identity
- Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]
La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.
Ejemplos
Configuración de SparkJob.
from azure.ai.ml import Input, Output
from azure.ai.ml.entities import SparkJob
spark_job = SparkJob(
code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
entry={"file": "sampleword.py"},
conf={
"spark.driver.cores": 2,
"spark.driver.memory": "1g",
"spark.executor.cores": 1,
"spark.executor.memory": "1g",
"spark.executor.instances": 1,
},
environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
inputs={
"input1": Input(
type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
)
},
compute="synapsecompute",
outputs={"component_out_path": Output(type="uri_folder")},
args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
)
Métodos
dump |
Volca el contenido del trabajo en un archivo en formato YAML. |
filter_conf_fields |
Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario. |
dump
Volca el contenido del trabajo en un archivo en formato YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parámetros
Ruta de acceso local o secuencia de archivos en la que se va a escribir el contenido de YAML. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo. Si dest es un archivo abierto, el archivo se escribirá directamente.
- kwargs
- dict
Argumentos adicionales para pasar al serializador YAML.
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
filter_conf_fields
Filtra los campos del atributo conf que no están entre los campos de configuración de Spark enumerados en ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP y los devuelve en su propio diccionario.
filter_conf_fields() -> Dict[str, str]
Devoluciones
Diccionario de los campos conf que no son campos de configuración de Spark.
Tipo de valor devuelto
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
Atributos
base_path
Ruta de acceso base del recurso.
Devoluciones
Ruta de acceso base del recurso.
Tipo de valor devuelto
creation_context
Contexto de creación del recurso.
Devoluciones
Metadatos de creación del recurso.
Tipo de valor devuelto
entry
environment
Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.
Devoluciones
Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.
Tipo de valor devuelto
id
El identificador del recurso.
Devoluciones
Identificador global del recurso, un identificador de Azure Resource Manager (ARM).
Tipo de valor devuelto
identity
La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.
Devoluciones
La identidad que usará el trabajo de Spark mientras se ejecuta en el proceso.
Tipo de valor devuelto
inputs
log_files
Archivos de salida del trabajo.
Devoluciones
Diccionario de nombres de registro y direcciones URL.
Tipo de valor devuelto
outputs
resources
Configuración del recurso de proceso para el trabajo.
Devoluciones
Configuración del recurso de proceso para el trabajo.
Tipo de valor devuelto
status
El estado del trabajo.
Los valores comunes devueltos incluyen "Running", "Completed" y "Failed". Todos los valores posibles son:
NotStarted: se trata de un estado temporal en el que se encuentran los objetos Run del lado cliente antes del envío en la nube.
Starting: la ejecución ha empezado a procesarse en la nube. El autor de la llamada tiene un identificador de ejecución en este momento.
Aprovisionamiento: el proceso a petición se está creando para un envío de trabajo determinado.
Preparación: el entorno de ejecución se está preparando y se encuentra en una de estas dos fases:
Compilación de imágenes de Docker
configuración del entorno Conda
En cola: el trabajo se pone en cola en el destino de proceso. Por ejemplo, en BatchAI, el trabajo está en estado en cola.
mientras espera a que todos los nodos solicitados estén listos.
En ejecución: el trabajo se ha iniciado para ejecutarse en el destino de proceso.
Finalización: la ejecución del código de usuario se ha completado y la ejecución está en fases posteriores al procesamiento.
CancelRequested: se ha solicitado la cancelación del trabajo.
Completado: la ejecución se ha completado correctamente. Esto incluye tanto la ejecución del código de usuario como la ejecución
posteriores al procesamiento de la ejecución.
Failed: error en la ejecución. Normalmente, la propiedad Error de una ejecución proporcionará detalles sobre por qué se produjo el error.
Canceled: sigue a una solicitud de cancelación e indica que la ejecución se ha cancelado correctamente.
NotResponding: en el caso de las ejecuciones que tienen los latidos habilitados, no se ha enviado recientemente ningún latido.
Devoluciones
Estado del trabajo.
Tipo de valor devuelto
studio_url
Punto de conexión de Azure ML Studio.
Devoluciones
Dirección URL de la página de detalles del trabajo.
Tipo de valor devuelto
type
CODE_ID_RE_PATTERN
CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)
Azure SDK for Python
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de