TabularDataset Osztály
Az Azure Machine Learningben használandó táblázatos adatkészletet jelöli.
A TabularDataset lazán kiértékelt, nem módosítható műveletek sorozatát határozza meg az adatforrásból származó adatok táblázatos ábrázolásba való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a táblázatosadatkészlet nem kéri az adatok átadását.
A TabularDataset metódusok használatával jön létre, például from_delimited_files az TabularDatasetFactory osztályból.
További információ: Adathalmazok hozzáadása & regisztrálásához. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook.
TabularDataset objektum inicializálása.
Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával TabularDatasetFactory kell létrehozni.
- Öröklődés
-
TabularDataset
Konstruktor
TabularDataset()
Megjegyzések
A TabularDataset a osztály metódusainak TabularDatasetFactory használatával from_*
létrehozható CSV-, TSV-, Parquet-fájlokból vagy SQL-lekérdezésekből. A tabularDataseten albeállítási műveleteket hajthat végre, például a rekordok felosztását, kihagyását és szűrését.
Az albeállítás eredménye mindig egy vagy több új TabularDataset objektum.
A TabularDataset formátumot más formátumokká is konvertálhatja, például a pandas DataFrame-et. A tényleges adatbetöltés akkor történik, ha a Rendszer felkéri a TabularDatasetet, hogy az adatokat egy másik tárolási mechanizmusba (például Pandas Dataframe-be vagy CSV-fájlba) szállítsa.
A TabularDataset egy kísérletfuttatás bemeneteként használható. A munkaterületen is regisztrálható egy megadott névvel, és később lekérhető az adott névvel.
Metódusok
download |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Töltse le az adathalmaz által definiált fájlstreameket a helyi elérési útra. |
drop_columns |
A megadott oszlopok elvetése az adatkészletből. Ha a program elvet egy idősoroszlopot, a visszaadott adathalmaz megfelelő képességei is elvesznek. |
filter |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg. |
get_profile |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Kérje le az adatprofilt az ehhez vagy a munkaterületen található adatkészlethez elküldött legújabb profilfuttatásból. |
get_profile_runs |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. A munkaterületen ehhez vagy ugyanazhoz az adatkészlethez társított korábbi profilfuttatásokat adja vissza. |
keep_columns |
Tartsa meg a megadott oszlopokat, és távolítsa el az összes többit az adathalmazból. Ha a program elvet egy idősoroszlopot, a visszaadott adathalmaz megfelelő képességei is elvesznek. |
mount |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlokként definiált fájlstreamek csatlakoztatásához. |
partition_by |
A particionált adatokat a rendszer a cél által megadott célhelyre másolja és kimeneteli. hozza létre az adathalmazt a kimeneti adatútvonalból partícióformátummal, regisztrálja az adathalmazt, ha meg van adva a név, adja vissza az új adatútvonal adatkészletét partíciókkal
|
random_split |
Az adathalmaz rekordjainak felosztása két részre véletlenszerűen és körülbelül a megadott százalékkal. Az első adatkészlet körülbelül |
skip |
Hagyja ki a rekordokat az adathalmaz tetejéről a megadott szám alapján. |
submit_profile_run |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Küldjön be egy kísérletfuttatást az adatprofil kiszámításához. Az adatprofilok nagyon hasznosak lehetnek a bemeneti adatok megértéséhez, az anomáliák és a hiányzó értékek azonosításához, ha hasznos információkat nyújtanak az adatokról, például az oszloptípusról, a hiányzó értékekről stb. |
take |
Vegyünk egy rekordmintát az adathalmaz tetejéről a megadott szám szerint. |
take_sample |
Vegyen egy véletlenszerű rekordmintát az adathalmazban a megadott valószínűség szerint. |
time_after |
A TabularDataset szűrése időbélyegoszlopokkal egy megadott kezdési időpont után. |
time_before |
A TabularDataset szűrése időbélyeg-oszlopokkal egy megadott befejezési időpont előtt. |
time_between |
A TabularDataset szűrése egy megadott kezdési és befejezési időpont között. |
time_recent |
Szűrje a TabularDataset szűrőt, hogy csak a legutóbbi adatok megadott időtartamát (mennyiségét) tartalmazza. |
to_csv_files |
Alakítsa át az aktuális adatkészletet CSV-fájlokat tartalmazó FileDataset-fájllá. Az eredményül kapott adathalmaz egy vagy több CSV-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket. |
to_dask_dataframe |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Olyan Dask DataFrame-et ad vissza, amely lustán beolvassa az adathalmazban lévő adatokat. |
to_pandas_dataframe |
Töltse be az adathalmaz összes rekordjait egy pandas DataFrame-be. |
to_parquet_files |
Konvertálja az aktuális adatkészletet Parquet-fájlokat tartalmazó FileDataset-fájllá. Az eredményként kapott adathalmaz egy vagy több Parquet-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket. |
to_spark_dataframe |
Töltse be az adathalmaz összes rekordjait egy Spark DataFrame-be. |
with_timestamp_columns |
Időbélyegoszlopok definiálása az adathalmazhoz. |
download
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Töltse le az adathalmaz által definiált fájlstreameket a helyi elérési útra.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Paraméterek
- target_path
- str
A helyi könyvtár, amelybe letölti a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek letöltve.
- overwrite
- bool
Azt jelzi, hogy felülírja-e a meglévő fájlokat. Az alapértelmezett érték Hamis. A meglévő fájlok felülíródnak, ha a felülírás Értéke Igaz; ellenkező esetben kivétel lép fel.
- ignore_not_found
- bool
Azt jelzi, hogy sikertelen-e a letöltés, ha az adathalmaz által mutatott egyes fájlok nem találhatók. Az alapértelmezett érték Igaz. A letöltés sikertelen lesz, ha a fájlletöltés bármilyen okból meghiúsul, ha ignore_not_found False (Hamis) értékre van állítva; ellenkező esetben a rendszer naplózza a nem talált hibákat, és a dowload mindaddig sikeres lesz, amíg más hibatípusok nem fordulnak elő.
Válaszok
Az egyes letöltött fájlok fájlelérési útjait tartalmazó tömböt ad vissza.
Visszatérési típus
drop_columns
A megadott oszlopok elvetése az adatkészletből.
Ha a program elvet egy idősoroszlopot, a visszaadott adathalmaz megfelelő képességei is elvesznek.
drop_columns(columns)
Paraméterek
Válaszok
Egy új TabularDataset objektumot ad vissza, a megadott oszlopok elvetve.
Visszatérési típus
filter
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.
filter(expression)
Paraméterek
Válaszok
A módosított adatkészlet (regisztráció nélkül).
Visszatérési típus
Megjegyzések
A kifejezések a dataset oszlopnévvel történő indexelésével kezdődnek. Számos függvényt és operátort támogatnak, és logikai operátorokkal kombinálhatók. Az eredményül kapott kifejezés lazán lesz kiértékelve minden rekord esetében, amikor adat lekérés történik, és nem ott, ahol meg van adva.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Kérje le az adatprofilt az ehhez vagy a munkaterületen található adatkészlethez elküldött legújabb profilfuttatásból.
get_profile(workspace=None)
Paraméterek
- workspace
- Workspace
A munkaterület, ahol a profilfuttatás el lett küldve. Az adathalmaz munkaterületének alapértelmezett értéke. Akkor szükséges, ha az adatkészlet nincs munkaterülethez társítva. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace információt a munkaterületekről talál.
Válaszok
A profil eredménye a DatasetProfile típus legújabb profilfuttatásából származik.
Visszatérési típus
get_profile_runs
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
A munkaterületen ehhez vagy ugyanazhoz az adatkészlethez társított korábbi profilfuttatásokat adja vissza.
get_profile_runs(workspace=None)
Paraméterek
- workspace
- Workspace
A munkaterület, ahol a profilfuttatás el lett küldve. Az adathalmaz munkaterületének alapértelmezett értéke. Akkor szükséges, ha az adatkészlet nincs munkaterülethez társítva. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace információt a munkaterületekről talál.
Válaszok
az azureml.core.Run típusú iterátorobjektum.
Visszatérési típus
keep_columns
Tartsa meg a megadott oszlopokat, és távolítsa el az összes többit az adathalmazból.
Ha a program elvet egy idősoroszlopot, a visszaadott adathalmaz megfelelő képességei is elvesznek.
keep_columns(columns, validate=False)
Paraméterek
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy az adatok betölthetők-e a visszaadott adatkészletből. Az alapértelmezett érték Hamis. Az érvényesítéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
Egy új TabularDataset objektumot ad vissza, amely csak a megadott oszlopokat tartalmazza.
Visszatérési típus
mount
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlokként definiált fájlstreamek csatlakoztatásához.
mount(stream_column, mount_point=None)
Paraméterek
- mount_point
- str
A helyi könyvtár, amelyhez csatlakoztatni szeretné a fájlokat. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek csatlakoztatva, amelyet a MountContext.mount_point példány metódusának meghívásával talál meg.
Válaszok
Egy környezeti kezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez.
Visszatérési típus
partition_by
A particionált adatokat a rendszer a cél által megadott célhelyre másolja és kimeneteli.
hozza létre az adathalmazt a kimeneti adatútvonalból partícióformátummal, regisztrálja az adathalmazt, ha meg van adva a név, adja vissza az új adatútvonal adatkészletét partíciókkal
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Paraméterek
Kötelező megadni az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A rendszer létrehoz egy guid mappát a célútvonal alatt az ütközés elkerülése érdekében.
- show_progress
- bool
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint igaz.
- partition_as_file_dataset
Nem kötelező, azt jelzi, hogy egy fájladatkészletet ad-e vissza, vagy sem. Alapértelmezés szerint Hamis.
Válaszok
A mentett vagy regisztrált adatkészlet.
Visszatérési típus
random_split
Az adathalmaz rekordjainak felosztása két részre véletlenszerűen és körülbelül a megadott százalékkal.
Az első adatkészlet körülbelül percentage
az összes rekordot, a második pedig a többi rekordot tartalmazza.
random_split(percentage, seed=None)
Paraméterek
- percentage
- float
Az adathalmaz felosztásának hozzávetőleges százaléka. Ennek 0,0 és 1,0 közötti számnak kell lennie.
Válaszok
A felosztás után a két adathalmazt képviselő új TabularDataset-objektumok rekordját adja vissza.
Visszatérési típus
skip
Hagyja ki a rekordokat az adathalmaz tetejéről a megadott szám alapján.
skip(count)
Paraméterek
Válaszok
Egy új TabularDataset objektumot ad vissza, amely egy kihagyott rekordokat tartalmazó adathalmazt jelöl.
Visszatérési típus
submit_profile_run
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Küldjön be egy kísérletfuttatást az adatprofil kiszámításához.
Az adatprofilok nagyon hasznosak lehetnek a bemeneti adatok megértéséhez, az anomáliák és a hiányzó értékek azonosításához, ha hasznos információkat nyújtanak az adatokról, például az oszloptípusról, a hiányzó értékekről stb.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Paraméterek
- compute_target
- Union[str, ComputeTarget]
A profilszámítási kísérlet futtatására szolgáló számítási cél. A helyi számítás használatához adja meg a "local" értéket. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget információ a számítási célokról.
- experiment
- Experiment
A kísérletobjektum. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment információ a kísérletekről.
- cache_datastore_name
- str
a profilgyorsítótár tárolására szolgáló adattár neve, ha nincs, akkor az alapértelmezett adattár lesz használva
Válaszok
DatasetProfileRun osztály típusú objektum.
Visszatérési típus
take
Vegyünk egy rekordmintát az adathalmaz tetejéről a megadott szám szerint.
take(count)
Paraméterek
Válaszok
A mintaadatkészletet képviselő új TabularDataset objektumot ad vissza.
Visszatérési típus
take_sample
Vegyen egy véletlenszerű rekordmintát az adathalmazban a megadott valószínűség szerint.
take_sample(probability, seed=None)
Paraméterek
Válaszok
A mintaadatkészletet képviselő új TabularDataset objektumot ad vissza.
Visszatérési típus
time_after
A TabularDataset szűrése időbélyegoszlopokkal egy megadott kezdési időpont után.
time_after(start_time, include_boundary=True, validate=True)
Paraméterek
- include_boundary
- bool
Adja meg, hogy a határidőhöz (start_time
) társított sor szerepeljen-e benne.
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
TabularDataset az új szűrt adatkészlettel.
Visszatérési típus
time_before
A TabularDataset szűrése időbélyeg-oszlopokkal egy megadott befejezési időpont előtt.
time_before(end_time, include_boundary=True, validate=True)
Paraméterek
- include_boundary
- bool
Adja meg, hogy a határidőhöz (end_time
) társított sor szerepeljen-e benne.
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
TabularDataset az új szűrt adatkészlettel.
Visszatérési típus
time_between
A TabularDataset szűrése egy megadott kezdési és befejezési időpont között.
time_between(start_time, end_time, include_boundary=True, validate=True)
Paraméterek
- include_boundary
- bool
Adja meg, hogy a határidőhöz (start_end
és end_time
) társított sor bele legyen-e foglalva.
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
TabularDataset az új szűrt adatkészlettel.
Visszatérési típus
time_recent
Szűrje a TabularDataset szűrőt, hogy csak a legutóbbi adatok megadott időtartamát (mennyiségét) tartalmazza.
time_recent(time_delta, include_boundary=True, validate=True)
Paraméterek
- include_boundary
- bool
Adja meg, hogy a határidőhöz (time_delta
) társított sor szerepeljen-e benne.
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
TabularDataset az új szűrt adatkészlettel.
Visszatérési típus
to_csv_files
Alakítsa át az aktuális adatkészletet CSV-fájlokat tartalmazó FileDataset-fájllá.
Az eredményül kapott adathalmaz egy vagy több CSV-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket.
to_csv_files(separator=',')
Paraméterek
Válaszok
Egy új FileDataset objektumot ad vissza, amelyben csv-fájlok találhatók, amelyek az adathalmazban lévő adatokat tartalmazzák.
Visszatérési típus
to_dask_dataframe
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Olyan Dask DataFrame-et ad vissza, amely lustán beolvassa az adathalmazban lévő adatokat.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Paraméterek
- sample_size
A séma és a típus meghatározásához beolvasandó rekordok száma.
- dtypes
Választható diktálás, amely megadja a várt oszlopokat és azok dtype-jait. sample_size a rendszer figyelmen kívül hagyja, ha ez meg van adva.
- on_error
Hogyan kezelhetők az adathalmazban található hibaértékek, például az értékek elemzése során hiba által generált értékek. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez.
- out_of_range_datetime
A Pandas által támogatott tartományon kívüli dátum-idő értékek kezelése. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez.
Válaszok
dask.dataframe.core.DataFrame
to_pandas_dataframe
Töltse be az adathalmaz összes rekordjait egy pandas DataFrame-be.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Paraméterek
- on_error
Hogyan kezelhetők az adathalmazban található hibaértékek, például az értékek elemzése során hiba által generált értékek. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez.
- out_of_range_datetime
A Pandas által támogatott tartományon kívüli dátum-idő értékek kezelése. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez.
Válaszok
Pandas DataFrame-et ad vissza.
Visszatérési típus
to_parquet_files
Konvertálja az aktuális adatkészletet Parquet-fájlokat tartalmazó FileDataset-fájllá.
Az eredményként kapott adathalmaz egy vagy több Parquet-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket.
to_parquet_files()
Válaszok
Egy új FileDataset objektumot ad vissza, amely parquet-fájlokat tartalmaz, amelyek az adatkészlet adatait tartalmazzák.
Visszatérési típus
to_spark_dataframe
Töltse be az adathalmaz összes rekordjait egy Spark DataFrame-be.
to_spark_dataframe()
Válaszok
Spark DataFrame-et ad vissza.
Visszatérési típus
with_timestamp_columns
Időbélyegoszlopok definiálása az adathalmazhoz.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Paraméterek
- timestamp
- str
Az oszlop neve időbélyegként (más néven fine_grain_timestamp) (nem kötelező). Az alapértelmezett érték a Nincs(clear).
- partition_timestamp
- str
A partition_timestamp oszlop neve (amelyet durva szemcsés időbélyegnek neveznek) (nem kötelező). Az alapértelmezett érték a Nincs(clear).
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Hamis. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
Válaszok
Egy új TabularDataset értéket ad vissza, amely definiált időbélyeg-oszlopokat tartalmaz.
Visszatérési típus
Megjegyzések
A metódus időbélyegként használandó oszlopokat határoz meg. Az adathalmaz időbélyegző oszlopai lehetővé teszik az adatok idősoros adatokként való kezelését és további képességek engedélyezését. Ha egy adathalmaz rendelkezik és partition_timestamp (used to be referred as coarse grain timestamp)
meg van timestamp (used to be referred as fine_grain_timestamp)
adva, a két oszlopnak ugyanazt az ütemtervet kell jelölnie.
Attribútumok
timestamp_columns
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: