DatasetConsumptionConfig Kelas

Referensi

Menunjukkan cara untuk mengirimkan himpunan data ke target komputasi.

Mewakili cara mengirimkan himpunan data ke target komputasi.

Warisan: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameter

name: str

Diperlukan

Nama himpunan data yang sedang dijalankan, yang bisa berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.

dataset: AbstractDataset atau PipelineParameter atau OutputDatasetConfig

Diperlukan

Himpunan data yang akan digunakan dalam eksekusi.

mode: str

nilai default: direct

Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:

'langsung': habiskan himpunan data sebagai himpunan data.
'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).

path_on_compute: str

nilai default: None

Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Gunakan tabular_dataset.to_path untuk melihat struktur folder output.

name: str

Diperlukan

Nama himpunan data yang sedang dijalankan, yang bisa jadi berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.

dataset: Dataset atau PipelineParameter atau tuple(Workspace, str) atau tuple(Workspace, str, str) atau OutputDatasetConfig

Diperlukan

Himpunan data yang akan dikirimkan, sebagai objek Himpunan Data, Parameter Alur yang menyerap Himpunan Data, tupel (ruang kerja, Nama himpunan data), atau tupel (ruang kerja, Nama himpunan data, versi Himpunan data). Jika hanya nama yang disediakan, DatasetConsumptionConfig akan menggunakan versi terbaru Himpunan Data.

mode: str

Diperlukan

Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:

'langsung': habiskan himpunan data sebagai himpunan data.
'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).

path_on_compute: str

Diperlukan

Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Sebaiknya panggil tabular_dataset.to_path untuk melihat struktur folder output.

Metode

as_download

Atur mode ke unduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Atur mode ke pasang.

Dalam eksekusi yang dikirim, file dalam himpunan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Atur mode ke unduh.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parameter

path_on_compute: str

nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.

as_mount

Atur mode ke pasang.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parameter

path_on_compute: str

nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.

DatasetConsumptionConfig Kelas

Konstruktor

Parameter

Metode

as_download

Parameter

Keterangan

as_hdfs

Keterangan

as_mount

Parameter

Keterangan

Atribut

name

Mengembalikan

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: