Bagikan melalui


AdlaStep Kelas

Membuat langkah Alur Azure ML untuk menjalankan skrip U-SQL dengan Data Lake Analytics.

Sebagai contoh penggunaan AdlaStep ini, lihat https://aka.ms/pl-adla notebook.

Buat langkah Azure ML Pipeline untuk menjalankan skrip U-SQL dengan Azure Data Lake Analytics.

Warisan
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameter

Nama Deskripsi
script_name
Diperlukan
str

[Diperlukan] Nama skrip U-SQL, relatif terhadap source_directory.

name
str

Nama langkah. Jika tidak ditentukan, script_name digunakan.

nilai default: None
inputs

Daftar pengikatan port input.

nilai default: None
outputs

Daftar pengikatan port output.

nilai default: None
params

Kamus pasangan nama-nilai.

nilai default: None
degree_of_parallelism
int

Tingkat paralelisme untuk digunakan untuk pekerjaan ini. Nilai harus lebih besar dari 0. Jika diatur ke kurang dari 0, default ke 1.

nilai default: None
priority
int

Nilai prioritas yang digunakan untuk pekerjaan saat ini. Angka yang lebih rendah memiliki prioritas yang lebih tinggi. Secara default, pekerjaan memiliki prioritas 1000. Nilai yang Anda tentukan harus lebih besar dari 0.

nilai default: None
runtime_version
str

Versi runtime dari mesin Data Lake Analytics.

nilai default: None
compute_target

[Diperlukan] Komputasi Data Lake Analytics yang digunakan untuk pekerjaan ini.

nilai default: None
source_directory
str

Folder yang berisi skrip, rakitan, dll.

nilai default: None
allow_reuse

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah.

nilai default: True
version
str

Tag versi opsional untuk menunjukkan perubahan dalam fungsionalitas untuk langkah tersebut.

nilai default: None
hash_paths

TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan.

Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten source_directory di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore.

nilai default: None
script_name
Diperlukan
str

[Diperlukan] Nama skrip U-SQL, relatif terhadap source_directory.

name
Diperlukan
str

Nama langkah. Jika tidak ditentukan, script_name digunakan.

inputs
Diperlukan

Daftar pengikatan port input

outputs
Diperlukan
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Daftar pengikatan port output.

params
Diperlukan

Kamus pasangan nama-nilai.

degree_of_parallelism
Diperlukan
int

Tingkat paralelisme untuk digunakan untuk pekerjaan ini. Nilai harus lebih besar dari 0. Jika diatur ke kurang dari 0, default ke 1.

priority
Diperlukan
int

Nilai prioritas yang digunakan untuk pekerjaan saat ini. Angka yang lebih rendah memiliki prioritas yang lebih tinggi. Secara default, pekerjaan memiliki prioritas 1000. Nilai yang Anda tentukan harus lebih besar dari 0.

runtime_version
Diperlukan
str

Versi runtime dari mesin Data Lake Analytics.

compute_target
Diperlukan

[Diperlukan] Komputasi Data Lake Analytics yang digunakan untuk pekerjaan ini.

source_directory
Diperlukan
str

Folder yang berisi skrip, rakitan, dll.

allow_reuse
Diperlukan

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah.

version
Diperlukan
str

Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.

hash_paths
Diperlukan

TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan.

Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten source_directory di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore.

Keterangan

Anda dapat menggunakan sintaks @@name@@ dalam skrip untuk merujuk kepada input, output, dan param.

  • jika nama adalah nama pengikatan port input atau output, kejadian apa pun dari @@name@@ dalam skrip diganti dengan jalur data aktual dari pengikatan port yang sesuai.

  • jika nama cocok dengan kunci mana pun dalam kamus param, setiap kejadian @@name@@ akan diganti dengan nilai yang sesuai dalam kamus.

AdlaStep hanya bekerja dengan data yang disimpan dalam Data Lake Storage default dari akun Data Lake Analytics. Jika data berada dalam penyimpanan non-default, gunakan DataTransferStep untuk menyalin data ke penyimpanan default. Anda dapat menemukan penyimpanan default dengan membuka akun Data Lake Analytics di portal Azure, kemudian mengarahkan navigasi ke item 'Sumber data' di bawah Pengaturan pada panel kiri.

Contoh berikut menunjukkan cara menggunakan AdlaStep dalam Alur Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Sampel lengkap tersedia dari https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metode

create_node

Buat node dari langkah AdlaStep dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerja.

create_node

Buat node dari langkah AdlaStep dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerja.

create_node(graph, default_datastore, context)

Parameter

Nama Deskripsi
graph
Diperlukan

Objek grafik.

default_datastore
Diperlukan

Datastore default.

context
Diperlukan
<xref:azureml.pipeline.core._GraphContext>

Konteks grafik.

Mengembalikan

Jenis Deskripsi

Objek node.