Compartir a través de


SparkComponent Clase

Versión del componente de Spark, que se usa para definir un componente de Spark o un trabajo.

Herencia
azure.ai.ml.entities._component.component.Component
SparkComponent
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkComponent
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkComponent
azure.ai.ml.entities._component.code.ComponentCodeMixin
SparkComponent

Constructor

SparkComponent(*, code: PathLike | str | None = '.', entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, driver_cores: int | str | None = None, driver_memory: str | None = None, executor_cores: int | str | None = None, executor_memory: str | None = None, executor_instances: int | str | None = None, dynamic_allocation_enabled: bool | str | None = None, dynamic_allocation_min_executors: int | str | None = None, dynamic_allocation_max_executors: int | str | None = None, conf: Dict[str, str] | None = None, environment: Environment | str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, **kwargs: Any)

Parámetros de palabra clave únicamente

Nombre Description
code

Código fuente para ejecutar el trabajo. Puede ser una ruta de acceso local o "http:", "https:" o "azureml:" que apunte a una ubicación remota. El valor predeterminado es ".", que indica el directorio actual.

valor predeterminado: .
entry

Punto de entrada de archivo o clase.

py_files

Lista de archivos de .zip, .egg o .py que se van a colocar en las aplicaciones PYTHONPATH para Python. El valor predeterminado es None.

jars

Lista de . Archivos JAR que se van a incluir en los rutas de clase del controlador y del ejecutor. El valor predeterminado es None.

files

Lista de archivos que se van a colocar en el directorio de trabajo de cada ejecutor. El valor predeterminado es None.

archives

Lista de archivos que se van a extraer en el directorio de trabajo de cada ejecutor. El valor predeterminado es None.

driver_cores

El número de núcleos que se van a usar para el proceso de controlador, solo en modo de clúster.

driver_memory

Cantidad de memoria que se va a usar para el proceso del controlador, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_cores

Número de núcleos que se usarán para cada ejecutor.

executor_memory

Cantidad de memoria que se va a usar por proceso de ejecutor, con formato de cadenas con un sufijo de unidad de tamaño ("k", "m", "g" o "t") (por ejemplo, "512m", "2g").

executor_instances

Número inicial de ejecutores.

dynamic_allocation_enabled

Si se va a usar la asignación dinámica de recursos, que escala el número de ejecutores registrados con esta aplicación hacia arriba y hacia abajo en función de la carga de trabajo. El valor predeterminado es False.

dynamic_allocation_min_executors

Límite inferior para el número de ejecutores si está habilitada la asignación dinámica.

dynamic_allocation_max_executors

Límite superior para el número de ejecutores si está habilitada la asignación dinámica.

conf

Diccionario con valores y clave de configuración de Spark predefinidos. El valor predeterminado es None.

environment

Entorno de Azure ML en el que se va a ejecutar el trabajo.

inputs
Optional[dict[str, Union[ <xref:azure.ai.ml.entities._job.pipeline._io.NodeOutput>, Input, str, bool, int, float, <xref:Enum>, ]]]

Asignación de nombres de entrada a orígenes de datos de entrada usados en el trabajo. El valor predeterminado es None.

outputs

Asignación de nombres de salida a orígenes de datos de salida usados en el trabajo. El valor predeterminado es None.

args

Argumentos del trabajo. El valor predeterminado es None.

Ejemplos

Creación de SparkComponent.


   from azure.ai.ml.entities import SparkComponent

   component = SparkComponent(
       name="add_greeting_column_spark_component",
       display_name="Aml Spark add greeting column test module",
       description="Aml Spark add greeting column test module",
       version="1",
       inputs={
           "file_input": {"type": "uri_file", "mode": "direct"},
       },
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       code="./src",
       entry={"file": "add_greeting_column.py"},
       py_files=["utils.zip"],
       files=["my_files.txt"],
       args="--file_input ${{inputs.file_input}}",
       base_path="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline",
   )


Métodos

dump

Volque el contenido del componente en un archivo en formato yaml.

dump

Volque el contenido del componente en un archivo en formato yaml.

dump(dest: str | PathLike | IO, **kwargs: Any) -> None

Parámetros

Nombre Description
dest
Requerido
Union[<xref:PathLike>, str, IO[AnyStr]]

Destino para recibir el contenido de este componente. Debe ser una ruta de acceso a un archivo local o una secuencia de archivos ya abierta. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo y se generará una excepción si el archivo existe. Si dest es un archivo abierto, el archivo se escribirá directamente en y se generará una excepción si el archivo no se puede escribir.

Atributos

base_path

Ruta de acceso base del recurso.

Devoluciones

Tipo Description
str

Ruta de acceso base del recurso.

creation_context

Contexto de creación del recurso.

Devoluciones

Tipo Description

Metadatos de creación del recurso.

display_name

Nombre para mostrar del componente.

Devoluciones

Tipo Description
str

Nombre para mostrar del componente.

entry

environment

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

Devoluciones

Tipo Description

Entorno de Azure ML en el que se va a ejecutar el componente o el trabajo de Spark.

id

El identificador del recurso.

Devoluciones

Tipo Description

Identificador global del recurso, un identificador de Azure Resource Manager (ARM).

inputs

Entradas del componente.

Devoluciones

Tipo Description

Entradas del componente.

is_deterministic

Si el componente es determinista.

Devoluciones

Tipo Description

Si el componente es determinista

outputs

Salidas del componente.

Devoluciones

Tipo Description

Salidas del componente.

type

El tipo del componente, el valor predeterminado es "command".

Devoluciones

Tipo Description
str

Tipo del componente.

version

Versión del componente.

Devoluciones

Tipo Description
str

Versión del componente.

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)