FileDataset Osztály

Az Azure Machine Learningben használandó adattárakban vagy nyilvános URL-címekben található fájlhivatkozások gyűjteményét jelöli.

A FileDataset egy lazilyan kiértékelt, nem módosítható műveletsorozatot határoz meg az adatforrásból származó adatok fájlstreamekbe való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a FileDataset nem kéri az adatok továbbítását.

Létrejön egy FileDataset a FileDatasetFactory osztály metódusával from_files .

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook.

Inicializálja a FileDataset objektumot.

Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával FileDatasetFactory kell létrehozni.

Öröklődés
FileDataset

Konstruktor

FileDataset()

Megjegyzések

A FileDataset egy kísérletfuttatás bemeneteként használható. A munkaterületen is regisztrálható egy megadott névvel, és később lekérhető a név alapján.

A FileDataset az osztályban elérhető különböző albeállítási módszerek meghívásával alhálózatosítható. Az albeállítás eredménye mindig egy új FileDataset.

A tényleges adatbetöltés akkor történik, ha a FileDataset egy másik tárolási mechanizmusba (például a letöltött vagy a helyi elérési útra csatlakoztatott fájlokba) kéri az adatokat.

Metódusok

as_cache

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy datacache_store és egy adatkészletre leképezett DatacacheConsumptionConfig-t.

as_download

Hozzon létre egy DatasetConsumptionConfig fájlt a letöltési mód beállításával.

Az elküldött futtatás során az adathalmaz fájljai a számítási cél helyi elérési útjára lesznek letöltve. A letöltési hely lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Állítsa a módot hdfs értékre.

A beküldött synapse-futtatás során az adathalmazokban lévő fájlok helyi elérési útra lesznek konvertálva a számítási célon. A hdfs elérési útja lekérhető az argumentumértékekből és az operációs rendszer környezeti változóiból.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Hozzon létre egy DatasetConsumptionConfig konfigurációt a csatlakoztatási mód beállításával.

Az elküldött futtatás során az adathalmazokban lévő fájlok a számítási cél helyi elérési útjára lesznek csatlakoztatva. A csatlakoztatási pont lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Töltse le az adatkészlet által meghatározott fájlstreameket helyi fájlokként.

file_metadata

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

A metaadatoszlop nevének megadásával lekérheti a fájl metaadat-kifejezését.

A fájl metaadatainak támogatott oszlopai: Méret, LastModifiedTime, CreationTime, Extension és CanSeek

filter

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.

hydrate

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hidratálja az adathalmazt a datacache_store megadott kért replikákba.

mount

Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához.

random_split

Ossza fel az adathalmazban lévő fájlstreameket véletlenszerűen két részre, és körülbelül a megadott százalékkal.

Az első visszaadott adathalmaz körülbelül percentage a fájlhivatkozások teljes számát tartalmazza, a második adatkészlet pedig a fennmaradó fájlhivatkozásokat.

skip

Hagyja ki a fájlstreameket az adathalmaz tetejéről a megadott szám alapján.

take

Vegyünk egy mintát a fájlstreamekből az adathalmaz tetejéről a megadott szám alapján.

take_sample

Vegyünk egy véletlenszerű mintát az adathalmazban lévő fájlstreamekről a megadott valószínűség szerint.

to_path

Lekérheti az adatkészlet által definiált egyes fájlstreamek fájlelérési útvonalainak listáját.

as_cache

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy datacache_store és egy adatkészletre leképezett DatacacheConsumptionConfig-t.

as_cache(datacache_store)

Paraméterek

datacache_store
DatacacheStore
Kötelező

A hidratálandó adatkachestore.

Válaszok

A konfigurációs objektum, amely leírja, hogyan kell materializálni a datacache-t a futtatás során.

Visszatérési típus

as_download

Hozzon létre egy DatasetConsumptionConfig fájlt a letöltési mód beállításával.

Az elküldött futtatás során az adathalmaz fájljai a számítási cél helyi elérési útjára lesznek letöltve. A letöltési hely lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Paraméterek

path_on_compute
str
alapértelmezett érték: None

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: .

Megjegyzések

Amikor az adatkészlet egyetlen fájl elérési útjából jön létre, a letöltési hely az egyetlen letöltött fájl elérési útja lesz. Ellenkező esetben a letöltési hely az összes letöltött fájlhoz tartozó beágyazási mappa elérési útja lesz.

Ha path_on_compute egy /-val kezdődik, akkor az abszolút elérési útként lesz kezelve. Ha nem a /-val kezdődik, akkor a rendszer relatív elérési útként kezeli a munkakönyvtárhoz képest. Ha abszolút elérési utat adott meg, győződjön meg arról, hogy a feladat rendelkezik engedéllyel az adott könyvtárba való íráshoz.

as_hdfs

Állítsa a módot hdfs értékre.

A beküldött synapse-futtatás során az adathalmazokban lévő fájlok helyi elérési útra lesznek konvertálva a számítási célon. A hdfs elérési útja lekérhető az argumentumértékekből és az operációs rendszer környezeti változóiból.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Megjegyzések

Ha az adatkészlet egyetlen fájl elérési útjából jön létre, a hdfs elérési útja az egyetlen fájl elérési útja lesz. Ellenkező esetben a hdfs elérési útja az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

as_mount

Hozzon létre egy DatasetConsumptionConfig konfigurációt a csatlakoztatási mód beállításával.

Az elküldött futtatás során az adathalmazokban lévő fájlok a számítási cél helyi elérési útjára lesznek csatlakoztatva. A csatlakoztatási pont lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Paraméterek

path_on_compute
str
alapértelmezett érték: None

A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: .

Megjegyzések

Ha az adathalmaz egyetlen fájl elérési útjából jön létre, a csatlakoztatási pont az egyetlen csatlakoztatott fájl elérési útja lesz. Ellenkező esetben a csatlakoztatási pont az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

Ha path_on_compute egy /-val kezdődik, akkor az abszolút elérési útként lesz kezelve. Ha nem a /-val kezdődik, akkor a rendszer relatív elérési útként kezeli a munkakönyvtárhoz képest. Ha abszolút elérési utat adott meg, győződjön meg arról, hogy a feladat rendelkezik engedéllyel az adott könyvtárba való íráshoz.

download

Töltse le az adatkészlet által meghatározott fájlstreameket helyi fájlokként.

download(target_path=None, overwrite=False, ignore_not_found=False)

Paraméterek

target_path
str
Kötelező

A helyi könyvtár, amelybe letölti a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek letöltve.

overwrite
bool
Kötelező

Azt jelzi, hogy felülírja-e a meglévő fájlokat. Az alapértelmezett érték Hamis. A meglévő fájlok felülíródnak, ha a felülírás Értéke Igaz; ellenkező esetben kivétel lép fel.

ignore_not_found
bool
Kötelező

Azt jelzi, hogy sikertelen-e a letöltés, ha az adathalmaz által mutatott egyes fájlok nem találhatók. Az alapértelmezett érték Hamis. A letöltés sikertelen lesz, ha a fájlletöltés bármilyen okból meghiúsul, ha ignore_not_found False (Hamis) értékre van állítva; ellenkező esetben a rendszer naplózza a nem talált hibákat, és a dowload mindaddig sikeres lesz, amíg más hibatípusok nem fordulnak elő.

Válaszok

Az egyes letöltött fájlok fájlelérési útjait tartalmazó tömböt ad vissza.

Visszatérési típus

Megjegyzések

Ha target_path egy /-val kezdődik, akkor abszolút elérési útként fogjuk kezelni. Ha nem /-val kezdődik, akkor a rendszer az aktuális munkakönyvtárhoz képest relatív elérési útként kezeli.

file_metadata

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

A metaadatoszlop nevének megadásával lekérheti a fájl metaadat-kifejezését.

A fájl metaadatainak támogatott oszlopai: Méret, LastModifiedTime, CreationTime, Extension és CanSeek

file_metadata(col)

Paraméterek

col
str
Kötelező

Oszlop neve

Válaszok

Egy kifejezést ad vissza, amely lekéri az értéket a megadott oszlopban.

Visszatérési típus

<xref:azureml.dataprep.api.expression.RecordFieldExpression>

filter

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.

filter(expression)

Paraméterek

expression
<xref:azureml.dataprep.api.expression.Expression>
Kötelező

A kiértékelendő kifejezés.

Válaszok

A módosított adatkészlet (regisztráció nélkül).

Visszatérési típus

Megjegyzések

A kifejezések a dataset oszlopnévvel történő indexelésével kezdődnek. Számos függvényt és operátort támogatnak, és logikai operátorokkal kombinálhatók. Az eredményül kapott kifejezés lazán lesz kiértékelve minden rekord esetében, amikor adat lekérés történik, és nem ott, ahol meg van adva.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hidratálja az adathalmazt a datacache_store megadott kért replikákba.

hydrate(datacache_store, replica_count=None)

Paraméterek

datacache_store
DatacacheStore
Kötelező

A hidratálandó adatkachestore.

replica_count
<xref:Int>, <xref:optional>
Kötelező

Hidratálandó replikák száma.

Válaszok

A konfigurációs objektum, amely leírja, hogyan kell materializálni a datacache-t a futtatás során.

Visszatérési típus

mount

Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához.

mount(mount_point=None, **kwargs)

Paraméterek

mount_point
str
Kötelező

A helyi könyvtár, amelyhez csatlakoztatni szeretné a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek csatlakoztatva, amelyet a MountContext.mount_point példány metódusának meghívásával talál meg.

Válaszok

Egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez.

Visszatérési típus

<xref:<xref:MountContext: the context manager. Upon entering the context manager>, <xref:the dataflow will bemounted to the mount_point. Upon exit>, <xref:it will remove the mount point and clean up the daemon processused to mount the dataflow.>>

Megjegyzések

A rendszer egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez. A csatlakoztatáshoz be kell írnia a környezetkezelőt, és le kell választania, és ki kell lépnie a környezetkezelőből.

A csatlakoztatást kizárólag a Unix vagy a Unixhoz hasonló operációs rendszerek támogatják a libfuse natív csomag telepítése mellett. Ha docker-tárolóban fut, a docker-tárolót a –privileged jelzővel vagy a –cap-add SYS_ADMIN –device /dev/fuse paranccsal kell elindítani.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

Ha target_path a /-val kezdődik, akkor abszolút elérési útként fogjuk kezelni. Ha nem /-val kezdődik, akkor a rendszer relatív elérési útként kezeli az aktuális munkakönyvtárhoz képest.

random_split

Ossza fel az adathalmazban lévő fájlstreameket véletlenszerűen két részre, és körülbelül a megadott százalékkal.

Az első visszaadott adathalmaz körülbelül percentage a fájlhivatkozások teljes számát tartalmazza, a második adatkészlet pedig a fennmaradó fájlhivatkozásokat.

random_split(percentage, seed=None)

Paraméterek

percentage
float
Kötelező

Az adathalmaz felosztásának hozzávetőleges százaléka. Ennek 0,0 és 1,0 közötti számnak kell lennie.

seed
int
Kötelező

Egy választható mag, amelyet a véletlenszerű generátorhoz használhat.

Válaszok

A felosztás után a két adathalmazt képviselő új FileDataset-objektumok rekordját adja vissza.

Visszatérési típus

skip

Hagyja ki a fájlstreameket az adathalmaz tetejéről a megadott szám alapján.

skip(count)

Paraméterek

count
int
Kötelező

A kihagyandó fájlstreamek száma.

Válaszok

Egy új FileDataset objektumot ad vissza, amely egy olyan adathalmazt jelöl, amelynek a fájlstreamjei kimaradtak.

Visszatérési típus

take

Vegyünk egy mintát a fájlstreamekből az adathalmaz tetejéről a megadott szám alapján.

take(count)

Paraméterek

count
int
Kötelező

A fájlstreamek száma.

Válaszok

Egy új FileDataset objektumot ad vissza, amely a mintavételezett adatkészletet jelöli.

Visszatérési típus

take_sample

Vegyünk egy véletlenszerű mintát az adathalmazban lévő fájlstreamekről a megadott valószínűség szerint.

take_sample(probability, seed=None)

Paraméterek

probability
float
Kötelező

Annak valószínűsége, hogy egy fájlstream szerepel a mintában.

seed
int
Kötelező

Egy választható mag, amelyet a véletlenszerű generátorhoz használhat.

Válaszok

Egy új FileDataset objektumot ad vissza, amely a mintavételezett adatkészletet jelöli.

Visszatérési típus

to_path

Lekérheti az adatkészlet által definiált egyes fájlstreamek fájlelérési útvonalainak listáját.

to_path()

Válaszok

Fájlelérési utak tömböt ad vissza.

Visszatérési típus

Megjegyzések

A fájlelérési utak a helyi fájlok relatív elérési útjai a fájlstreamek letöltésekor vagy csatlakoztatásakor.

A rendszer eltávolít egy közös előtagot a fájl elérési útjaiból az adatforrásnak az adathalmaz létrehozásához való megadása alapján. Például:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']