AdlaStep Klass

Skapar ett Azure ML Pipeline-steg för att köra ett U-SQL-skript med Azure Data Lake Analytics.

Ett exempel på hur du använder den här AdlaStep finns i notebook-filen https://aka.ms/pl-adla.

Skapa ett Azure ML Pipeline-steg för att köra ett U-SQL-skript med Azure Data Lake Analytics.

Arv
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametrar

script_name
str
Obligatorisk

[Krävs] Namnet på ett U-SQL-skript i förhållande till source_directory.

name
str
standardvärde: None

Namnet på steget. Om det är ospecificerat script_name används.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
standardvärde: None

En lista över indataportbindningar.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
standardvärde: None

En lista över portbindningar för utdata.

params
dict
standardvärde: None

En ordlista med namn/värde-par.

degree_of_parallelism
int
standardvärde: None

Graden av parallellitet som ska användas för det här jobbet. Detta måste vara större än 0. Om värdet är mindre än 0 är standardvärdet 1.

priority
int
standardvärde: None

Det prioritetsvärde som ska användas för det aktuella jobbet. Lägre tal har högre prioritet. Som standard har ett jobb en prioritet på 1 000. Värdet du anger måste vara större än 0.

runtime_version
str
standardvärde: None

Körningsversionen av Data Lake Analytics-motorn.

compute_target
AdlaCompute, str
standardvärde: None

[Krävs] DEN ADLA-beräkning som ska användas för det här jobbet.

source_directory
str
standardvärde: None

En mapp som innehåller skriptet, sammansättningar osv.

allow_reuse
bool
standardvärde: True

Anger om steget ska återanvända tidigare resultat när det körs igen med samma inställningar. Återanvändning är aktiverat som standard. Om steginnehållet (skript/beroenden) samt indata och parametrar förblir oförändrade återanvänds utdata från föregående körning av det här steget. När du återanvänder steget, i stället för att skicka jobbet för beräkning, görs resultaten från den föregående körningen omedelbart tillgängliga för efterföljande steg. Om du använder Azure Machine Learning-datauppsättningar som indata bestäms återanvändningen av om datauppsättningens definition har ändrats, inte av om underliggande data har ändrats.

version
str
standardvärde: None

Valfri versionstagg för att ange en ändring av funktionaliteten för steget.

hash_paths
list
standardvärde: None

INAKTUELL: behövs inte längre.

En lista över sökvägar till hash när du söker efter ändringar i steginnehållet. Om inga ändringar har identifierats återanvänder pipelinen steginnehållet från en tidigare körning. Som standard hashas innehållet source_directory i förutom filer som anges i .amlignore eller .gitignore.

script_name
str
Obligatorisk

[Krävs] Namnet på ett U-SQL-skript i förhållande till source_directory.

name
str
Obligatorisk

Namnet på steget. Om det är ospecificerat script_name används.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Obligatorisk

Lista över indataportbindningar

outputs
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Obligatorisk

En lista över portbindningar för utdata.

params
dict
Obligatorisk

En ordlista med namn/värde-par.

degree_of_parallelism
int
Obligatorisk

Graden av parallellitet som ska användas för det här jobbet. Detta måste vara större än 0. Om värdet är mindre än 0 är standardvärdet 1.

priority
int
Obligatorisk

Det prioritetsvärde som ska användas för det aktuella jobbet. Lägre tal har högre prioritet. Som standard har ett jobb en prioritet på 1 000. Värdet du anger måste vara större än 0.

runtime_version
str
Obligatorisk

Körningsversionen av Data Lake Analytics-motorn.

compute_target
AdlaCompute, str
Obligatorisk

[Krävs] DEN ADLA-beräkning som ska användas för det här jobbet.

source_directory
str
Obligatorisk

En mapp som innehåller skriptet, sammansättningar osv.

allow_reuse
bool
Obligatorisk

Anger om steget ska återanvända tidigare resultat när det körs igen med samma inställningar. Återanvändning är aktiverat som standard. Om steginnehållet (skript/beroenden) samt indata och parametrar förblir oförändrade återanvänds utdata från föregående körning av det här steget. När du återanvänder steget, i stället för att skicka jobbet för beräkning, görs resultaten från den föregående körningen omedelbart tillgängliga för efterföljande steg. Om du använder Azure Machine Learning-datauppsättningar som indata bestäms återanvändningen av om datauppsättningens definition har ändrats, inte av om underliggande data har ändrats.

version
str
Obligatorisk

En valfri versionstagg som anger en funktionsändring för steget.

hash_paths
list
Obligatorisk

INAKTUELL: behövs inte längre.

En lista över sökvägar till hash när du söker efter ändringar i steginnehållet. Om inga ändringar har identifierats återanvänder pipelinen steginnehållet från en tidigare körning. Som standard hashas innehållet source_directory i förutom filer som anges i .amlignore eller .gitignore.

Kommentarer

Du kan använda @@name@@ syntax i skriptet för att referera till indata, utdata och paramer.

  • om namnet är namnet på en indata- eller utdataportbindning ersätts alla förekomster av @@name@@ i skriptet med den faktiska datasökvägen för en motsvarande portbindning.

  • om namnet matchar någon nyckel i params dict ersätts eventuella förekomster av @@name@@ med motsvarande värde i diktat.

AdlaStep fungerar endast med data som lagras i standard Data Lake Storage för Data Lake Analytics-kontot. Om data finns i en lagring som inte är standard använder du en DataTransferStep för att kopiera data till standardlagringen. Du hittar standardlagringen genom att öppna ditt Data Lake Analytics-konto i Azure Portal och sedan gå till objektet Datakällor under Inställningar i den vänstra rutan.

I följande exempel visas hur du använder AdlaStep i en Azure Machine Learning-pipeline.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Fullständigt exempel är tillgängligt från https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metoder

create_node

Skapa en nod från steget AdlaStep och lägg till den i den angivna grafen.

Den här metoden är inte avsedd att användas direkt. När en pipeline instansieras med det här steget skickar Azure ML automatiskt de parametrar som krävs via den här metoden så att steget kan läggas till i ett pipelinediagram som representerar arbetsflödet.

create_node

Skapa en nod från steget AdlaStep och lägg till den i den angivna grafen.

Den här metoden är inte avsedd att användas direkt. När en pipeline instansieras med det här steget skickar Azure ML automatiskt de parametrar som krävs via den här metoden så att steget kan läggas till i ett pipelinediagram som representerar arbetsflödet.

create_node(graph, default_datastore, context)

Parametrar

graph
Graph
Obligatorisk

Grafobjektet.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Obligatorisk

Standarddatalagringen.

context
<xref:azureml.pipeline.core._GraphContext>
Obligatorisk

Grafkontexten.

Returer

Nodobjektet.

Returtyp