DataTransferStep Kelas
Membuat langkah Alur Azure ML yang mentransfer data antar opsi penyimpanan.
DataTransferStep mendukung jenis penyimpanan umum seperti Azure Blob Storage dan Azure Data Lake sebagai sumber dan sink. Untuk informasi selengkapnya, lihat bagian Keterangan.
Sebagai contoh menggunakan DataTransferStep, lihat notebook https://aka.ms/pl-data-trans.
- Warisan
-
azureml.pipeline.core._data_transfer_step_base._DataTransferStepBaseDataTransferStep
Konstruktor
DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)
Parameter
- source_data_reference
- Union[<xref:azureml.pipeline.core.graph.InputPortBinding,azureml.data.data_reference.DataReference,azureml.pipeline.core.PortDataReference,azureml.pipeline.core.builder.PipelineData>]
[Diperlukan] Koneksi input yang berfungsi sebagai sumber operasi transfer data.
- destination_data_reference
- Union[<xref:azureml.pipeline.core.graph.InputPortBinding,azureml.pipeline.core.pipeline_output_dataset.PipelineOutputAbstractDataset,azureml.data.data_reference.DataReference>]
[Diperlukan] Koneksi output yang berfungsi sebagai tujuan operasi transfer data.
- compute_target
- DataFactoryCompute, str
[Diperlukan] Azure Data Factory yang digunakan untuk mentransfer data.
- source_reference_type
- str
Untai (karakter) opsional yang menentukan jenis source_data_reference. Nilai yang memungkinkan termasuk: 'file', 'directory'. Saat tidak ditentukan, jenis jalur yang ada akan digunakan.
Gunakan parameter ini untuk membedakan antara file dan direktori dengan nama yang sama.
- destination_reference_type
- str
Untai (karakter) opsional yang menentukan jenis destination_data_reference.
Nilai yang memungkinkan termasuk: 'file', 'directory'. Saat tidak ditentukan, Azure ML menggunakan jenis jalur yang ada, referensi sumber, atau 'directory', dalam urutan tersebut.
- allow_reuse
- bool
Menunjukkan apakah langkah tersebut harus menggunakan ulang hasil sebelumnya saat dijalankan ulang dengan pengaturan yang sama. Penggunaan ulang diaktifkan secara default. Jika argumen langkah tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini akan digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mentransfer data lagi, hasil dari eksekusi sebelumnya segera disediakan untuk langkah berikutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh karena apakah data dasar telah berubah.
Keterangan
Langkah ini mendukung jenis penyimpanan berikut sebagai sumber dan sink kecuali jika disebutkan:
Azure Blob Storage
Azure Data Lake Storage Gen1 dan Gen2
Azure SQL Database
Azure Database untuk PostgreSQL
Azure Database untuk MySQL
Untuk Azure SQL Database, Anda harus menggunakan autentikasi perwakilan layanan. Untuk informasi selengkapnya, lihat Autentikasi Perwakilan Layanan. Untuk contoh dalam menggunakan autentikasi perwakilan layanan untuk Azure SQL Database, lihat https://aka.ms/pl-data-trans.
Untuk membuat dependensi data di antara langkah-langkah, gunakan metode get_output untuk mendapatkan objek PipelineData yang menunjukkan output dari langkah transfer data ini dan dapat digunakan sebagai input untuk langkah selanjutnya dalam alur.
data_transfer_step = DataTransferStep(name="copy data", ...)
# Use output of data_transfer_step as input of another step in pipeline
# This will make training_step wait for data_transfer_step to complete
training_input = data_transfer_step.get_output()
training_step = PythonScriptStep(script_name="train.py",
arguments=["--model", training_input],
inputs=[training_input],
compute_target=aml_compute,
source_directory=source_directory)
Untuk membuat InputPortBinding dengan nama spesifik, Anda dapat kombinasikan output get_output() dengan output metode as_input atau as_mount dari PipelineData.
data_transfer_step = DataTransferStep(name="copy data", ...)
training_input = data_transfer_step.get_output().as_input("my_input_name")
Metode
| create_node |
Buat node dari langkah DataTransfer dan tambahkan node tersebut ke grafik yang diberikan. Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur ditunjukkan dengan langkah ini, Azure ML secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerjanya. |
| get_output |
Dapatkan output dari langkah tersebut sebagai PipelineData. |
create_node
Buat node dari langkah DataTransfer dan tambahkan node tersebut ke grafik yang diberikan.
Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur ditunjukkan dengan langkah ini, Azure ML secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang menunjukkan alur kerjanya.
create_node(graph, default_datastore, context)
Parameter
- default_datastore
- Union[<xref:azureml.data.azure_storage_datastore.AbstractAzureStorageDatastore,azureml.data.azure_data_lake_datastore.AzureDataLakeDatastore>]
Datastore default.
- context
- <xref:azureml.pipeline.core._GraphContext>
Konteks grafik.
Mengembalikan
Node yang dibuat.
Tipe hasil
get_output
Dapatkan output dari langkah tersebut sebagai PipelineData.
get_output()
Mengembalikan
Output langkah.
Tipe hasil
Keterangan
Untuk membuat dependensi data di antara langkah-langkah, gunakan metode get_output untuk mendapatkan objek PipelineData yang menunjukkan output dari langkah transfer data ini dan dapat digunakan sebagai input untuk langkah-langkah selanjutnya dalam alur.
data_transfer_step = DataTransferStep(name="copy data", ...)
# Use output of data_transfer_step as input of another step in pipeline
# This will make training_step wait for data_transfer_step to complete
training_input = data_transfer_step.get_output()
training_step = PythonScriptStep(script_name="train.py",
arguments=["--model", training_input],
inputs=[training_input],
compute_target=aml_compute,
source_directory=source_directory)
Untuk membuat InputPortBinding dengan nama spesifik, Anda dapat kombinasikan panggilan get_output() dengan metode pembantu as_input atau as_mount.
data_transfer_step = DataTransferStep(name="copy data", ...)
training_input = data_transfer_step.get_output().as_input("my_input_name")
Saran dan Komentar
Kirim dan lihat umpan balik untuk