ParallelRunStep Kelas

Membuat langkah Alur Azure Machine Learning untuk memproses data dalam jumlah besar secara asinkron dan paralel.

Catatan

Paket ini, azureml-contrib-pipeline-steps, sudah tidak digunakan lagi dan dipindahkan ke azureml-pipeline-steps.

Harap gunakan kelas ParallelRunStep dari paket baru.

Untuk contoh penggunaan ParallelRunStep, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Untuk panduan pemecahan masalah, lihat https://aka.ms/prstsg. Anda dapat menemukan lebih banyak referensi di sana.

Warisan
azureml.pipeline.core._python_script_step_base._PythonScriptStepBase
ParallelRunStep

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, models=None, arguments=None, allow_reuse=True, tags=None, properties=None, add_parallel_run_step_dependencies=True)

Parameter

name
str
Diperlukan

Nama langkah. Harus unik untuk ruang kerja, hanya terdiri dari huruf kecil, angka, atau tanda pisah, mulai dengan huruf, dan panjangnya antara 3 hingga 32 karakter.

parallel_run_config
ParallelRunConfig
Diperlukan

Objek ParallelRunConfig yang digunakan untuk menentukan properti eksekusi yang diperlukan.

inputs
list[DatasetConsumptionConfig]
Diperlukan

Daftar himpunan data input. Semua himpunan data dalam daftar harus memiliki jenis yang sama.

output
PipelineData, OutputPortBinding
nilai default: None

Pengikatan port output, bisa digunakan dengan langkah-langkah alur selanjutnya.

side_inputs
list[PipelineData]
nilai default: None

Daftar data referensi input samping.

models
list[Model]
nilai default: None

Daftar objek model nol atau lebih. Daftar ini hanya digunakan untuk melacak alur ke pemetaan versi model. Model tidak disalin ke kontainer. Gunakan metode get_model_path dari kelas Model untuk mengambil model dalam fungsi inisialisasi di entry_script.

arguments
list[str]
nilai default: None

Daftar argumen baris perintah untuk diteruskan ke Entry_script Python.

allow_reuse
bool
nilai default: True

Apakah langkah harus menggunakan kembali hasil sebelumnya ketika dijalankan dengan pengaturan/input yang sama. Jika ini adalah false, eksekusi baru akan selalu dihasilkan untuk langkah ini selama eksekusi alur.

tags
dict[str, str]
nilai default: None

Kamus tag nilai kunci untuk langkah ini.

properties
bool
nilai default: None

Kamus properti nilai kunci untuk langkah ini.

add_parallel_run_step_dependencies
nilai default: True

[Tidak digunakan lagi] Apakah akan menambahkan dependensi runtime untuk ParallelRunStep. Hal ini termasuk:

  • azure-storage-queue~=2.1

  • azure-storage-common~=2.1

  • azureml-core~=1.0

  • azureml-telemetry~=1.0

  • filelock~=3.0

  • azureml-dataset-runtime[fuse,pandas]~=1.1

  • psutil

Keterangan

Kelas ParallelRunStep dapat digunakan untuk segala jenis pekerjaan pemrosesan yang melibatkan sejumlah besar data dan tidak sensitif terhadap waktu, misalnya pelatihan batch atau penilaian batch. ParallelRunStep bekerja dengan memecah pekerjaan Anda menjadi sejumlah batch yang kemudian diproses secara paralel. Ukuran batch dan tingkat pemrosesan paralel dapat dikontrol dengan kelas ParallelRunConfig. ParallelRunStep dapat berfungsi dengan TabularDataset atau FileDataset sebagai input.

Untuk bekerja dengan kelas ParallelRunStep, berikut pola biasanya:

  • Buat objek ParallelRunConfig untuk menentukan cara pemrosesan batch dilakukan, dengan parameter untuk mengontrol ukuran batch, jumlah node per target komputasi, dan referensi ke skrip Python kustom Anda.

  • Buat objek ParallelRunStep yang menggunakan objek ParallelRunConfig, menentukan input serta output untuk langkah tersebut.

  • Gunakan objek ParallelRunStep yang dikonfigurasi dalam Pipeline seperti yang Anda lakukan dengan jenis langkah alur yang ditentukan dalam paket steps.

Contoh bekerja dengan kelas ParallelRunStep dan ParallelRunConfig untuk inferensi batch dibahas dalam artikel berikut:


   from azureml.contrib.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       models=[ model ],
       arguments=[ ],
       allow_reuse=True
   )

Untuk informasi selengkapnya tentang contoh ini, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Metode

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_node

Buat node untuk PythonScriptStep lalu tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur digunakan dengan ParallelRunStep, Azure Machine Learning secara otomatis melewati parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerja.

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parameter

execution_type
str
Diperlukan

Jenis eksekusi modul.

input_bindings
list
Diperlukan

Pengikatan input langkah.

output_bindings
list
Diperlukan

Pengikatan output langkah.

param_defs
list
nilai default: None

Definisi param langkah.

create_sequencing_ports
bool
nilai default: True

Jika true, port pengurutan akan dibuat untuk modul.

allow_reuse
bool
nilai default: True

Jika true, modul akan tersedia untuk digunakan kembali di Alur mendatang.

version
str
nilai default: None

Versi modul.

arguments
list
nilai default: None

Daftar argumen beranotasi untuk digunakan saat memanggil modul ini.

Mengembalikan

Objek definisi modul.

Tipe hasil

create_node

Buat node untuk PythonScriptStep lalu tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur digunakan dengan ParallelRunStep, Azure Machine Learning secara otomatis melewati parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerja.

create_node(graph, default_datastore, context)

Parameter

graph
Graph
Diperlukan

Objek grafik.

default_datastore
AbstractAzureStorageDatastore atau AzureDataLakeDatastore
Diperlukan

Penyimpanan data default.

context
<xref:azureml.pipeline.core._GraphContext>
Diperlukan

Konteks.

Mengembalikan

Node yang dibuat.

Tipe hasil