DatasetConsumptionConfig Kelas

Menunjukkan cara untuk mengirimkan himpunan data ke target komputasi.

Mewakili cara mengirimkan himpunan data ke target komputasi.

Warisan
builtins.object
DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameter

name
str
Diperlukan

Nama himpunan data yang sedang dijalankan, yang bisa berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.

dataset
AbstractDataset atau PipelineParameter atau OutputDatasetConfig
Diperlukan

Himpunan data yang akan digunakan dalam eksekusi.

mode
str
nilai default: direct

Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:

  1. 'langsung': habiskan himpunan data sebagai himpunan data.
  2. 'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
  3. 'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
  4. 'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).
path_on_compute
str
nilai default: None

Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Gunakan tabular_dataset.to_path untuk melihat struktur folder output.

name
str
Diperlukan

Nama himpunan data yang sedang dijalankan, yang bisa jadi berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.

dataset
Dataset atau PipelineParameter atau tuple(Workspace, str) atau tuple(Workspace, str, str) atau OutputDatasetConfig
Diperlukan

Himpunan data yang akan dikirimkan, sebagai objek Himpunan Data, Parameter Alur yang menyerap Himpunan Data, tupel (ruang kerja, Nama himpunan data), atau tupel (ruang kerja, Nama himpunan data, versi Himpunan data). Jika hanya nama yang disediakan, DatasetConsumptionConfig akan menggunakan versi terbaru Himpunan Data.

mode
str
Diperlukan

Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:

  1. 'langsung': habiskan himpunan data sebagai himpunan data.
  2. 'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
  3. 'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
  4. 'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).
path_on_compute
str
Diperlukan

Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Sebaiknya panggil tabular_dataset.to_path untuk melihat struktur folder output.

Metode

as_download

Atur mode ke unduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Atur mode ke pasang.

Dalam eksekusi yang dikirim, file dalam himpunan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Atur mode ke unduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.

as_mount

Atur mode ke pasang.

Dalam eksekusi yang dikirim, file dalam himpunan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

Atribut

name

Nama masukan.

Mengembalikan

Nama masukan.