ParallelRunStep Kelas

Referensi

Membuat langkah Alur Azure Machine Learning untuk memproses data dalam jumlah besar secara asinkron dan paralel.

Untuk contoh penggunaan ParallelRunStep, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Untuk panduan pemecahan masalah, lihat https://aka.ms/prstsg. Anda dapat menemukan lebih banyak referensi di sana.

Buat langkah Azure ML Pipeline untuk memproses data dalam jumlah besar secara asinkron dan paralel.

Untuk contoh penggunaan ParallelRunStep, lihat tautan https://aka.ms/batch-inference-notebooksbuku catatan .

Warisan: azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBase

ParallelRunStep

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

Parameter

name: str

Diperlukan

Nama langkah. Harus unik untuk ruang kerja, hanya terdiri dari huruf kecil, angka, atau tanda pisah, mulai dengan huruf, dan panjangnya antara 3 hingga 32 karakter.

parallel_run_config: ParallelRunConfig

Diperlukan

Objek ParallelRunConfig yang digunakan untuk menentukan properti eksekusi yang diperlukan.

inputs: list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]

Diperlukan

Daftar himpunan data input. Semua himpunan data dalam daftar harus memiliki jenis yang sama. Data input akan dipartisi untuk pemrosesan paralel. Setiap himpunan data dalam daftar dipartisi menjadi batch mini secara terpisah, dan setiap batch mini diperlakukan sama dalam pemrosesan paralel.

output: Union[PipelineData, OutputPortBinding, OutputDatasetConfig]

nilai default: None

Pengikatan port output, dapat digunakan dengan langkah-langkah alur selanjutnya.

side_inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]

nilai default: None

Daftar data referensi input samping. Input samping tidak akan dipartisi sebagai data input.

arguments: list[str]

nilai default: None

Daftar argumen baris perintah untuk diteruskan ke Entry_script Python.

allow_reuse: bool

nilai default: True

Apakah langkah harus menggunakan kembali hasil sebelumnya ketika dijalankan dengan pengaturan/input yang sama. Jika ini adalah false, eksekusi baru akan selalu dihasilkan untuk langkah ini selama eksekusi alur.

name: str

Diperlukan

Nama langkah. Harus unik untuk ruang kerja, hanya terdiri dari huruf kecil, angka, atau tanda pisah, mulai dengan huruf, dan panjangnya antara 3 hingga 32 karakter.

parallel_run_config: ParallelRunConfig

Diperlukan

Objek ParallelRunConfig yang digunakan untuk menentukan properti eksekusi yang diperlukan.

inputs: list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]

Diperlukan

output: PipelineData, OutputPortBinding

Diperlukan

Pengikatan port output, dapat digunakan dengan langkah-langkah alur selanjutnya.

side_inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]

Diperlukan

Daftar data referensi input samping. Input samping tidak akan dipartisi sebagai data input.

arguments: list[str]

Diperlukan

Daftar argumen baris perintah untuk diteruskan ke Entry_script Python.

allow_reuse: bool

Diperlukan

Keterangan

ParallelRunStep dapat digunakan untuk memproses data dalam jumlah besar secara paralel. Kasus penggunaan yang umum adalah saat melatih model ML atau menjalankan inferensi offline untuk menghasilkan prediksi pada suatu batch pengamatan. ParallelRunStep berfungsi dengan memecah data Anda menjadi sejumlah batch yang kemudian diproses secara paralel. Jumlah node ukuran batch, dan parameter yang dapat disetel lainnya untuk mempercepat pemrosesan paralel Anda dapat dikontrol dengan kelas ParallelRunConfig. ParallelRunStep dapat berfungsi dengan TabularDataset atau FileDataset sebagai input.

Untuk menggunakan ParallelRunStep:

Buat objek ParallelRunConfig untuk menentukan cara pemrosesan batch dilakukan, dengan parameter untuk mengontrol ukuran batch, jumlah node per target komputasi, dan referensi ke skrip Python kustom Anda.
Buat objek ParallelRunStep yang menggunakan objek ParallelRunConfig, tentukan input dan output untuk langkah tersebut.
Gunakan objek ParallelRunStep yang dikonfigurasi dalam Pipeline seperti yang Anda lakukan dengan jenis langkah alur lainnya.

Contoh bekerja dengan kelas ParallelRunStep dan ParallelRunConfig untuk inferensi batch dibahas dalam artikel berikut:

Tutorial: Membangun alur Azure Machine Learning untuk pemberian skor batch. Artikel ini menunjukkan cara menggunakan kedua kelas ini untuk pemberian skor batch asinkron dalam alur dan mengaktifkan titik akhir REST untuk menjalankan alur.
Menjalankan inferensi batch pada data dalam jumlah yang besar dengan menggunakan Azure Machine Learning. Artikel ini menunjukkan cara memproses data dalam jumlah besar secara asinkron dan paralel dengan skrip inferensi kustom dan basis model klasifikasi gambar yang sudah dilatih pada himpunan data MNIST.


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

Untuk informasi selengkapnya tentang contoh ini, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Metode

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_node

Buat node untuk PythonScriptStep lalu tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Saat alur dibuat dengan ParallelRunStep, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parameter

execution_type: str

Diperlukan

Jenis eksekusi modul.

input_bindings: list

Diperlukan

Pengikatan input langkah.

output_bindings: list

Diperlukan

Pengikatan output langkah.

param_defs: list

nilai default: None

Definisi param langkah.

create_sequencing_ports: bool

nilai default: True

Jika true, port pengurutan akan dibuat untuk modul.

allow_reuse: bool

nilai default: True

Jika true, modul akan tersedia untuk digunakan kembali di Alur mendatang.

version: str

nilai default: None

Versi modul.

arguments: list

nilai default: None

Daftar argumen beranotasi untuk digunakan saat memanggil modul ini.

Mengembalikan

Objek definisi modul.

Tipe hasil

ModuleDef

create_node

Buat node untuk PythonScriptStep lalu tambahkan ke grafik yang ditentukan.

create_node(graph, default_datastore, context)

Parameter

graph: Graph

Diperlukan

Objek grafik.

default_datastore: AbstractAzureStorageDatastore atau AzureDataLakeDatastore

Diperlukan

Penyimpanan data default.

context: <xref:azureml.pipeline.core._GraphContext>

Diperlukan

Konteks.

Mengembalikan

Node yang dibuat.

Tipe hasil

Node

ParallelRunStep Kelas

Konstruktor

Parameter

Keterangan

Metode

create_module_def

Parameter

Mengembalikan

Tipe hasil

create_node

Parameter

Mengembalikan

Tipe hasil

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: