FileDataset Osztály

Referencia

Az Azure Machine Learningben használandó adattárakban vagy nyilvános URL-címekben található fájlhivatkozások gyűjteményét jelöli.

A FileDataset egy lazilyan kiértékelt, nem módosítható műveletsorozatot határoz meg az adatforrásból származó adatok fájlstreamekbe való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a FileDataset nem kéri az adatok továbbítását.

Létrejön egy FileDataset a FileDatasetFactory osztály metódusával from_files .

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook.

Inicializálja a FileDataset objektumot.

Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával FileDatasetFactory kell létrehozni.

Öröklődés: AbstractDataset

FileDataset

Konstruktor

FileDataset()

Megjegyzések

A FileDataset egy kísérletfuttatás bemeneteként használható. A munkaterületen is regisztrálható egy megadott névvel, és később lekérhető a név alapján.

A FileDataset az osztályban elérhető különböző albeállítási módszerek meghívásával alhálózatosítható. Az albeállítás eredménye mindig egy új FileDataset.

A tényleges adatbetöltés akkor történik, ha a FileDataset egy másik tárolási mechanizmusba (például a letöltött vagy a helyi elérési útra csatlakoztatott fájlokba) kéri az adatokat.

Metódusok

as_cache	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hozzon létre egy datacache_store és egy adatkészletre leképezett DatacacheConsumptionConfig-t.
as_download	Hozzon létre egy DatasetConsumptionConfig fájlt a letöltési mód beállításával. Az elküldött futtatás során az adathalmaz fájljai a számítási cél helyi elérési útjára lesznek letöltve. A letöltési hely lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust. # Given a run submitted with dataset input like this: dataset_input = dataset.as_download() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The download location can be retrieved from argument values import sys download_location = sys.argv[1] # The download location can also be retrieved from input_datasets of the run context. from azureml.core import Run download_location = Run.get_context().input_datasets['input_1']
as_hdfs	Állítsa a módot hdfs értékre. A beküldött synapse-futtatás során az adathalmazokban lévő fájlok helyi elérési útra lesznek konvertálva a számítási célon. A hdfs elérési útja lekérhető az argumentumértékekből és az operációs rendszer környezeti változóiból. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_hdfs() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The hdfs path can be retrieved from argument values import sys hdfs_path = sys.argv[1] # The hdfs path can also be retrieved from input_datasets of the run context. import os hdfs_path = os.environ['input_<hash>']`
as_mount	Hozzon létre egy DatasetConsumptionConfig konfigurációt a csatlakoztatási mód beállításával. Az elküldött futtatás során az adathalmazokban lévő fájlok a számítási cél helyi elérési útjára lesznek csatlakoztatva. A csatlakoztatási pont lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_mount() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The mount point can be retrieved from argument values import sys mount_point = sys.argv[1] # The mount point can also be retrieved from input_datasets of the run context. from azureml.core import Run mount_point = Run.get_context().input_datasets['input_1']`
download	Töltse le az adatkészlet által meghatározott fájlstreameket helyi fájlokként.
file_metadata	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. A metaadatoszlop nevének megadásával lekérheti a fájl metaadat-kifejezését. A fájl metaadatainak támogatott oszlopai: Méret, LastModifiedTime, CreationTime, Extension és CanSeek
filter	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.
hydrate	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hidratálja az adathalmazt a datacache_store megadott kért replikákba.
mount	Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához.
random_split	Ossza fel az adathalmazban lévő fájlstreameket véletlenszerűen két részre, és körülbelül a megadott százalékkal. Az első visszaadott adathalmaz körülbelül `percentage` a fájlhivatkozások teljes számát tartalmazza, a második adatkészlet pedig a fennmaradó fájlhivatkozásokat.
skip	Hagyja ki a fájlstreameket az adathalmaz tetejéről a megadott szám alapján.
take	Vegyünk egy mintát a fájlstreamekből az adathalmaz tetejéről a megadott szám alapján.
take_sample	Vegyünk egy véletlenszerű mintát az adathalmazban lévő fájlstreamekről a megadott valószínűség szerint.
to_path	Lekérheti az adatkészlet által definiált egyes fájlstreamek fájlelérési útvonalainak listáját.

as_cache

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy datacache_store és egy adatkészletre leképezett DatacacheConsumptionConfig-t.

as_cache(datacache_store)

Paraméterek

Name	Description
datacache_store Kötelező	DatacacheStore A hidratálandó adatkachestore.

Válaszok

Típus	Description
DatacacheConsumptionConfig	A konfigurációs objektum, amely leírja, hogyan kell materializálni a datacache-t a futtatás során.

as_download

Hozzon létre egy DatasetConsumptionConfig fájlt a letöltési mód beállításával.

Az elküldött futtatás során az adathalmaz fájljai a számítási cél helyi elérési útjára lesznek letöltve. A letöltési hely lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Paraméterek

Name	Description
path_on_compute	str A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: . alapértelmezett érték: None

Megjegyzések

Amikor az adatkészlet egyetlen fájl elérési útjából jön létre, a letöltési hely az egyetlen letöltött fájl elérési útja lesz. Ellenkező esetben a letöltési hely az összes letöltött fájlhoz tartozó beágyazási mappa elérési útja lesz.

Ha path_on_compute egy /-val kezdődik, akkor az abszolút elérési útként lesz kezelve. Ha nem a /-val kezdődik, akkor a rendszer relatív elérési útként kezeli a munkakönyvtárhoz képest. Ha abszolút elérési utat adott meg, győződjön meg arról, hogy a feladat rendelkezik engedéllyel az adott könyvtárba való íráshoz.

as_hdfs

Állítsa a módot hdfs értékre.

A beküldött synapse-futtatás során az adathalmazokban lévő fájlok helyi elérési útra lesznek konvertálva a számítási célon. A hdfs elérési útja lekérhető az argumentumértékekből és az operációs rendszer környezeti változóiból.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']

as_hdfs()

Megjegyzések

Ha az adatkészlet egyetlen fájl elérési útjából jön létre, a hdfs elérési útja az egyetlen fájl elérési útja lesz. Ellenkező esetben a hdfs elérési útja az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

as_mount

Hozzon létre egy DatasetConsumptionConfig konfigurációt a csatlakoztatási mód beállításával.

Az elküldött futtatás során az adathalmazokban lévő fájlok a számítási cél helyi elérési útjára lesznek csatlakoztatva. A csatlakoztatási pont lekérhető az argumentumértékekből és a futtatási környezet input_datasets mezőjéből. Automatikusan létrehozunk egy bemeneti nevet. Ha egyéni bemeneti nevet szeretne megadni, hívja meg a as_named_input metódust.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Paraméterek

Name	Description
path_on_compute	str A számítás célútvonala az adatok elérhetővé tétele érdekében a következő helyen: . alapértelmezett érték: None

Megjegyzések

Ha az adathalmaz egyetlen fájl elérési útjából jön létre, a csatlakoztatási pont az egyetlen csatlakoztatott fájl elérési útja lesz. Ellenkező esetben a csatlakoztatási pont az összes csatlakoztatott fájlhoz tartozó beágyazási mappa elérési útja lesz.

download

Töltse le az adatkészlet által meghatározott fájlstreameket helyi fájlokként.

download(target_path=None, overwrite=False, ignore_not_found=False)

Paraméterek

Name	Description
target_path Kötelező	str A helyi könyvtár, amelybe letölti a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek letöltve.
overwrite Kötelező	bool Azt jelzi, hogy felülírja-e a meglévő fájlokat. Az alapértelmezett érték Hamis. A meglévő fájlok felülíródnak, ha a felülírás Értéke Igaz; ellenkező esetben kivétel lép fel.
ignore_not_found Kötelező	bool Azt jelzi, hogy sikertelen-e a letöltés, ha az adathalmaz által mutatott egyes fájlok nem találhatók. Az alapértelmezett érték Hamis. A letöltés sikertelen lesz, ha a fájlletöltés bármilyen okból meghiúsul, ha ignore_not_found False (Hamis) értékre van állítva; ellenkező esetben a rendszer naplózza a nem talált hibákat, és a dowload mindaddig sikeres lesz, amíg más hibatípusok nem fordulnak elő.

Válaszok

Típus	Description
list(str)	Az egyes letöltött fájlok fájlelérési útjait tartalmazó tömböt ad vissza.

Megjegyzések

Ha target_path egy /-val kezdődik, akkor abszolút elérési útként fogjuk kezelni. Ha nem /-val kezdődik, akkor a rendszer az aktuális munkakönyvtárhoz képest relatív elérési útként kezeli.

file_metadata

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

A metaadatoszlop nevének megadásával lekérheti a fájl metaadat-kifejezését.

A fájl metaadatainak támogatott oszlopai: Méret, LastModifiedTime, CreationTime, Extension és CanSeek

file_metadata(col)

Paraméterek

Name	Description
col Kötelező	str Oszlop neve

Válaszok

Típus	Description
<xref:azureml.dataprep.api.expression.RecordFieldExpression>	Egy kifejezést ad vissza, amely lekéri az értéket a megadott oszlopban.

filter

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.

filter(expression)

Paraméterek

Name	Description
expression Kötelező	<xref:azureml.dataprep.api.expression.Expression> A kiértékelendő kifejezés.

Válaszok

Típus	Description
FileDataset	A módosított adatkészlet (regisztráció nélkül).

Megjegyzések

A kifejezések a dataset oszlopnévvel történő indexelésével kezdődnek. Számos függvényt és operátort támogatnak, és logikai operátorokkal kombinálhatók. Az eredményül kapott kifejezés lazán lesz kiértékelve minden rekord esetében, amikor adat lekérés történik, és nem ott, ahol meg van adva.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hidratálja az adathalmazt a datacache_store megadott kért replikákba.

hydrate(datacache_store, replica_count=None)

Paraméterek

Name	Description
datacache_store Kötelező	DatacacheStore A hidratálandó adatkachestore.
replica_count Kötelező	<xref:Int>, <xref:optional> Hidratálandó replikák száma.

Válaszok

Típus	Description
DatacacheHydrationTracker	A konfigurációs objektum, amely leírja, hogyan kell materializálni a datacache-t a futtatás során.

mount

Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához.

mount(mount_point=None, **kwargs)

Paraméterek

Name	Description
mount_point Kötelező	str A helyi könyvtár, amelyhez csatlakoztatni szeretné a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek csatlakoztatva, amelyet a MountContext.mount_point példány metódusának meghívásával talál meg.

Válaszok

Típus	Description
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>	Egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez.

Típus

Description

<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>

Egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez.

Megjegyzések

A rendszer egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez. A csatlakoztatáshoz be kell írnia a környezetkezelőt, és le kell választania, és ki kell lépnie a környezetkezelőből.

A csatlakoztatást kizárólag a Unix vagy a Unixhoz hasonló operációs rendszerek támogatják a libfuse natív csomag telepítése mellett. Ha docker-tárolóban fut, a docker-tárolót a –privileged jelzővel vagy a –cap-add SYS_ADMIN –device /dev/fuse paranccsal kell elindítani.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

Ha target_path a /-val kezdődik, akkor abszolút elérési útként fogjuk kezelni. Ha nem /-val kezdődik, akkor a rendszer relatív elérési útként kezeli az aktuális munkakönyvtárhoz képest.

random_split

Ossza fel az adathalmazban lévő fájlstreameket véletlenszerűen két részre, és körülbelül a megadott százalékkal.

Az első visszaadott adathalmaz körülbelül percentage a fájlhivatkozások teljes számát tartalmazza, a második adatkészlet pedig a fennmaradó fájlhivatkozásokat.

random_split(percentage, seed=None)

Paraméterek

Name	Description
percentage Kötelező	float Az adathalmaz felosztásának hozzávetőleges százaléka. Ennek 0,0 és 1,0 közötti számnak kell lennie.
seed Kötelező	int Egy választható mag, amelyet a véletlenszerű generátorhoz használhat.

Válaszok

Típus	Description
(FileDataset, FileDataset)	A felosztás után a két adathalmazt képviselő új FileDataset-objektumok rekordját adja vissza.

skip

Hagyja ki a fájlstreameket az adathalmaz tetejéről a megadott szám alapján.

skip(count)

Paraméterek

Name	Description
count Kötelező	int A kihagyandó fájlstreamek száma.

Válaszok

Típus	Description
FileDataset	Egy új FileDataset objektumot ad vissza, amely egy olyan adathalmazt jelöl, amelynek a fájlstreamjei kimaradtak.

take

Vegyünk egy mintát a fájlstreamekből az adathalmaz tetejéről a megadott szám alapján.

take(count)

Paraméterek

Name	Description
count Kötelező	int A fájlstreamek száma.

Válaszok

Típus	Description
FileDataset	Egy új FileDataset objektumot ad vissza, amely a mintavételezett adatkészletet jelöli.

take_sample

Vegyünk egy véletlenszerű mintát az adathalmazban lévő fájlstreamekről a megadott valószínűség szerint.

take_sample(probability, seed=None)

Paraméterek

Name	Description
probability Kötelező	float Annak valószínűsége, hogy egy fájlstream szerepel a mintában.
seed Kötelező	int Egy választható mag, amelyet a véletlenszerű generátorhoz használhat.

Válaszok

Típus	Description
FileDataset	Egy új FileDataset objektumot ad vissza, amely a mintavételezett adatkészletet jelöli.

to_path

Lekérheti az adatkészlet által definiált egyes fájlstreamek fájlelérési útvonalainak listáját.

to_path()

Válaszok

Típus	Description
list(str)	Fájlelérési utak tömböt ad vissza.

Megjegyzések

A fájlelérési utak a helyi fájlok relatív elérési útjai a fájlstreamek letöltésekor vagy csatlakoztatásakor.

A rendszer eltávolít egy közös előtagot a fájl elérési útjaiból az adatforrásnak az adathalmaz létrehozásához való megadása alapján. Például:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']

Megosztás a következőn keresztül:

FileDataset Osztály

Konstruktor

Megjegyzések

Metódusok

as_cache

Paraméterek

Válaszok

as_download

Paraméterek

Megjegyzések

as_hdfs

Megjegyzések

as_mount

Paraméterek

Megjegyzések

download

Paraméterek

Válaszok

Megjegyzések

file_metadata

Paraméterek

Válaszok

filter

Paraméterek

Válaszok

Megjegyzések

hydrate

Paraméterek

Válaszok

mount

Paraméterek

Válaszok

Megjegyzések

random_split

Paraméterek

Válaszok

skip

Paraméterek

Válaszok

take

Paraméterek

Válaszok

take_sample

Paraméterek

Válaszok

to_path

Válaszok

Megjegyzések

Visszajelzés

Visszajelzés

További források