DatasetConsumptionConfig Osztály

Referencia

Az adathalmaz számítási célhoz való továbbításának módját ábrázolja.

Az adathalmaz számítási célhoz való továbbításának módját mutatja be.

Öröklődés: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Paraméterek

name: str

Kötelező

A futtatásban lévő adathalmaz neve, amely eltérhet a regisztrált névétől. A név környezeti változóként lesz regisztrálva, és adatsíkban használható.

dataset: AbstractDataset vagy PipelineParameter vagy OutputDatasetConfig

Kötelező

A futtatás során felhasznált adatkészlet.

mode: str

alapértelmezett érték: direct

Meghatározza, hogyan kell az adathalmazt kézbesíteni a számítási célnak. Három mód van:

"közvetlen": az adathalmazt használja adatkészletként.
"letöltés": töltse le az adathalmazt, és használja fel az adathalmazt letöltött elérési útként.
"csatlakoztatás": csatlakoztassa az adathalmazt, és használja az adathalmazt csatlakoztatási útvonalként.
"hdfs": használja fel az adathalmazt a feloldott hdfs-elérési útból (jelenleg csak a SynapseSpark-számítás támogatja).

path_on_compute: str

alapértelmezett érték: None

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: . A rendszer megőrzi a forrásadatok mappastruktúráját, de előfordulhat, hogy az ütközés elkerülése érdekében előtagokat adunk hozzá ehhez a mappastruktúrához. A kimeneti mappa szerkezetének megtekintéséhez használja a parancsot tabular_dataset.to_path .

name: str

Kötelező

A futtatásban lévő adathalmaz neve, amely eltérhet a regisztrált névétől. A név környezeti változóként lesz regisztrálva, és adatsíkban használható.

dataset: Dataset vagy PipelineParameter vagy tuple(Workspace, str) vagy tuple(Workspace, str, str) vagy OutputDatasetConfig

Kötelező

A kézbesítendő adathalmaz adathalmaz-objektumként, adathalmazt betöltő folyamatparaméterként, rekordként (munkaterület, Adathalmaz neve) vagy rekordként (munkaterület, Adathalmaz neve, Adathalmaz verziója). Ha csak egy név van megadva, a DatasetConsumptionConfig az adatkészlet legújabb verzióját fogja használni.

mode: str

Kötelező

Meghatározza, hogyan kell az adathalmazt kézbesíteni a számítási célnak. Három mód van:

"közvetlen": az adathalmazt használja adatkészletként.
"letöltés": töltse le az adathalmazt, és használja fel az adathalmazt letöltött elérési útként.
"csatlakoztatás": csatlakoztassa az adathalmazt, és használja az adathalmazt csatlakoztatási útvonalként.
"hdfs": használja fel az adathalmazt a feloldott hdfs-elérési útból (jelenleg csak a SynapseSpark-számítás támogatja).

path_on_compute: str

Kötelező

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: . A rendszer megőrzi a forrásadatok mappastruktúráját, de előfordulhat, hogy az ütközés elkerülése érdekében előtagokat adunk hozzá ehhez a mappastruktúrához. Javasoljuk, hogy hívja meg a tabular_dataset.to_path fájlt a kimeneti mappa szerkezetének megtekintéséhez.

Metódusok

as_download

Állítsa be a letöltési módot.

Az elküldött futtatás során az adathalmaz fájljai a számítási cél helyi elérési útjára lesznek letöltve. A letöltési hely lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Állítsa a módot hdfs értékre.

A beküldött synapse-futtatás során az adathalmazokban lévő fájlok helyi elérési útra lesznek konvertálva a számítási célon. A hdfs elérési útja lekérhető az argumentumértékekből és az operációs rendszer környezeti változóiból.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Állítsa be a módot csatlakoztatásra.

Az elküldött futtatás során az adathalmazokban lévő fájlok a számítási cél helyi elérési útjára lesznek csatlakoztatva. A csatlakoztatási pont lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Állítsa be a letöltési módot.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Paraméterek

path_on_compute: str

alapértelmezett érték: None

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: .

Megjegyzések

Amikor az adatkészlet egyetlen fájl elérési útjából jön létre, a letöltési hely az egyetlen letöltött fájl elérési útja lesz. Ellenkező esetben a letöltési hely az összes letöltött fájlhoz tartozó beágyazási mappa elérési útja lesz.

Ha path_on_compute egy /-val kezdődik, akkor az abszolút elérési útként lesz kezelve. Ha nem a /-val kezdődik, akkor a rendszer relatív elérési útként kezeli a munkakönyvtárhoz képest. Ha abszolút elérési utat adott meg, győződjön meg arról, hogy a feladat rendelkezik engedéllyel az adott könyvtárba való íráshoz.

as_hdfs

Állítsa a módot hdfs értékre.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Megjegyzések

Ha az adatkészlet egyetlen fájl elérési útjából jön létre, a hdfs elérési útja az egyetlen fájl elérési útja lesz. Ellenkező esetben a hdfs elérési útja az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

as_mount

Állítsa be a módot csatlakoztatásra.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Paraméterek

path_on_compute: str

alapértelmezett érték: None

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: .

Megjegyzések

Ha az adathalmaz egyetlen fájl elérési útjából jön létre, a csatlakoztatási pont az egyetlen csatlakoztatott fájl elérési útja lesz. Ellenkező esetben a csatlakoztatási pont az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

DatasetConsumptionConfig Osztály

Konstruktor

Paraméterek

Metódusok

as_download

Paraméterek

Megjegyzések

as_hdfs

Megjegyzések

as_mount

Paraméterek

Megjegyzések

Attribútumok

name

Válaszok

Visszajelzés

Visszajelzés

További források