Dataset Osztály

Az Azure Machine Learningben az adatok feltárására, átalakítására és kezelésére szolgáló erőforrást jelöli.

Az adatkészletek nyilvános webes URL-címeken vagy mögött található Datastore adatokra mutató hivatkozások.

Az osztályban elavult metódusok esetében ellenőrizze AbstractDataset a továbbfejlesztett API-k osztályát.

A következő adathalmaztípusok támogatottak:

  • A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.

  • A FileDataset adathalmaz az adattárakban található vagy nyilvános URL-címeken elérhető egy vagy több fájlra hivatkozik.

Az adathalmazok használatának megkezdéséhez tekintse meg az Adathalmazok hozzáadása & regisztrálása című cikket, vagy tekintse meg a jegyzetfüzeteket https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebooka .

Inicializálja az Adathalmaz objektumot.

A munkaterületen már regisztrált adatkészlet beszerzéséhez használja a get metódust.

Öröklődés
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Paraméterek

definition
<xref:azureml.data.DatasetDefinition>
Kötelező

Az Adathalmaz definíciója.

workspace
Workspace
Kötelező

Az a munkaterület, amelyben az adathalmaz létezik.

name
str
Kötelező

Az adatkészlet neve.

id
str
Kötelező

Az adatkészlet egyedi azonosítója.

Megjegyzések

Az Adathalmaz osztály két kényelmi osztályattribútumot (File és Tabular) tesz elérhetővé, amelyekkel a megfelelő gyári metódusok használata nélkül hozhat létre adatkészletet. Például az alábbi attribútumok használatával hozhat létre adatkészletet:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Létrehozhat egy új TabularDataset vagy FileDataset elemet is, ha közvetlenül meghívja a és FileDatasetFactorya osztályban TabularDatasetFactory definiált osztály megfelelő gyári metódusait.

Az alábbi példa bemutatja, hogyan hozható létre az adattár adott útvonalára mutató táblázatos adathalmaz.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

A teljes minta a következő forrásból érhető el: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Változók

azureml.core.Dataset.File

Egy osztályattribútum, amely hozzáférést biztosít a FileDatasetFactory metódusokhoz új FileDataset-objektumok létrehozásához. Használat: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Egy osztályattribútum, amely hozzáférést biztosít a TabularDatasetFactory metódusokhoz új TabularDataset-objektumok létrehozásához. Használat: Dataset.Tabular.from_delimited_files().

Metódusok

archive

Aktív vagy elavult adathalmaz archiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

auto_read_files

Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation.

compare_profiles

Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal.

Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali".

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

create_snapshot

Hozzon létre egy pillanatképet a regisztrált adatkészletről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

delete_snapshot

Az adathalmaz pillanatképének törlése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

deprecate

Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

diff

Az aktuális adatkészletet rhs_dataset.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

from_binary_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation.

from_delimited_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

from_json_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation.

from_parquet_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation.

from_sql_query

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation.

generate_profile

Hozzon létre új profilt az adatkészlethez.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get

A munkaterületen már létező adathalmazt a nevének vagy azonosítójának megadásával szerezheti be.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább a és get_by_id a elemet használjaget_by_name. További információ: https://aka.ms/dataset-deprecation.

get_all

Szerezze be a munkaterület összes regisztrált adathalmazát.

get_all_snapshots

Kérje le az adathalmaz összes pillanatképét.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_by_id

Szerezze be a munkaterületre mentett adatkészletet.

get_by_name

Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján.

get_definition

Kérje le az adatkészlet meghatározott definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definitions

Az adathalmaz összes definíciójának lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_profile

A korábban kiszámított adathalmaz összegző statisztikáinak lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_snapshot

Az adathalmaz pillanatképének lekérése név alapján.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

head

Lekéri az adatkészletből megadott számú rekordot, és adatkeretként adja vissza őket.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

list

Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket is_visible is.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation.

reactivate

Archivált vagy elavult adathalmaz újraaktiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

register

Regisztrálja az Adatkészletet a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation.

sample

Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_spark_dataframe

Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation.

update

Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update_definition

Frissítse az Adathalmaz definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

archive

Aktív vagy elavult adathalmaz archiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

archive()

Válaszok

Nincsenek.

Visszatérési típus

Megjegyzések

Az archiválás után az adathalmaz felhasználására tett kísérletek hibát eredményeznek. Ha az archiválás véletlenül történik, az újraaktiválás aktiválja azt.

auto_read_files

Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Paraméterek

path
DataReference vagy str
Kötelező

Adatútvonal egy regisztrált adattárban, egy helyi útvonalon vagy EGY HTTP URL-címen (CSV/TSV).

include_path
bool
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Több fájl olvasásakor hasznos, és tudni szeretné, hogy egy adott rekord melyik fájlból származik. Akkor is hasznos, ha egy oszlopban a fájl elérési útja vagy neve szerepel.

partition_format
str
Kötelező

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Adathalmaz-objektum.

Visszatérési típus

Megjegyzések

Ezt a módszert akkor használja, ha automatikusan észleli a fájlformátumokat és a határolójeleket.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

compare_profiles

Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal.

Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali".

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paraméterek

rhs_dataset
Dataset
Kötelező

Egy második adatkészlet, más néven "jobb oldali" adatkészlet az összehasonlításhoz.

profile_arguments
dict
Kötelező

Adott profil újrapróbálkozásához használható argumentumok.

include_columns
list[str]
Kötelező

Az összehasonlításban szerepeltetni kívánt oszlopnevek listája.

exclude_columns
list[str]
Kötelező

Az összehasonlításban kizárandó oszlopnevek listája.

histogram_compare_method
HistogramCompareMethod
Kötelező

Az összehasonlítási módszert leíró enumerálási módszer, például: Wasserstein vagy Energy

Válaszok

Különbség a két adathalmaz-profil között.

Visszatérési típus

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Megjegyzések

Ez csak regisztrált adathalmazokra vonatkozik. Kivételt okoz, ha az aktuális adathalmaz profilja nem létezik. A nem regisztrált adathalmazok esetében használja a profile.compare metódust.

create_snapshot

Hozzon létre egy pillanatképet a regisztrált adatkészletről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Paraméterek

snapshot_name
str
Kötelező

A pillanatkép neve. A pillanatképek nevének egyedinek kell lennie egy adatkészleten belül.

compute_target
Union[ComputeTarget, str]
Kötelező

Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja.

create_data_snapshot
bool
Kötelező

Ha igaz, létrejön az adatok materializált másolata.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Kötelező

Céladattár a pillanatkép mentéséhez. Ha nincs megadva, a pillanatkép a munkaterület alapértelmezett tárolójában jön létre.

Válaszok

Adathalmaz-pillanatkép-objektum.

Visszatérési típus

Megjegyzések

A pillanatképek az alapul szolgáló adatok időösszesítő statisztikáit és magát az adatok egy opcionális másolatát rögzítik. A pillanatképek létrehozásával kapcsolatos további információkért látogasson el a webhelyre https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Az adathalmaz pillanatképének törlése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Paraméterek

snapshot_name
str
Kötelező

A pillanatkép neve.

Válaszok

Nincsenek.

Visszatérési típus

Megjegyzések

Ezzel felszabadíthatja a pillanatképekbe mentett adatok által felhasznált tárterületet, amelyekre már nincs szüksége.

deprecate

Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Paraméterek

deprecate_by_dataset_id
str
Kötelező

Az adathalmaz-azonosító, amely az adathalmaz kívánt pótlása.

Válaszok

Nincsenek.

Visszatérési típus

Megjegyzések

Az elavult adathalmazok a használatukkor naplóznak figyelmeztetéseket. Az adathalmaz elavultsága az összes definícióját elavultnak tekinti.

Az elavult adathalmazok továbbra is felhasználhatók. Az adathalmazok felhasználásának teljes letiltásához archiválja azt.

Ha véletlenül elavult, az újraaktiválás aktiválja azt.

diff

Az aktuális adatkészletet rhs_dataset.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Paraméterek

rhs_dataset
Dataset
Kötelező

Egy másik adatkészletet jobb oldali adathalmaznak is neveznek az összehasonlításhoz

compute_target
Union[ComputeTarget, str]
Kötelező

számítási cél a szórás végrehajtásához. Ha nincs megadva, a rendszer a helyi számítást használja.

columns
list[str]
Kötelező

A diffben szerepeltetni kívánt oszlopnevek listája.

Válaszok

Adathalmaz-művelet futtassa az objektumot.

Visszatérési típus

from_binary_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Paraméterek

path
DataReference vagy str
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

Válaszok

Az Adathalmaz objektum.

Visszatérési típus

Megjegyzések

Ezzel a módszerrel fájlokat olvashat bináris adatok adatfolyamaként. Fájlolvasásonként egy fájlstream objektumot ad vissza. Ezt a módszert akkor használja, ha képeket, videókat, hangot vagy más bináris adatokat olvas.

get_profile és create_snapshot nem a várt módon fog működni az ezzel a módszerrel létrehozott adatkészlet esetében.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_delimited_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Paraméterek

path
DataReference vagy str
Kötelező

Egy regisztrált adattár adatútvonala, helyi elérési útja vagy HTTP-URL-címe.

separator
str
Kötelező

Az oszlopok felosztásához használt elválasztó.

header
PromoteHeadersBehavior
Kötelező

Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor.

encoding
FileEncoding
Kötelező

Az éppen olvasott fájlok kódolása.

quoting
bool
Kötelező

Itt adhatja meg, hogyan kezelhetők az új sorkarakterek az idézőjelekben. Az alapértelmezett (Hamis) az új sorkarakterek kezdő új sorként való értelmezése, függetlenül attól, hogy az új sorkarakterek idézőjelek között vannak-e. Ha Igaz értékre van állítva, az idézőjelekben lévő új sorkarakterek nem eredményeznek új sorokat, és a fájl olvasási sebessége lelassul.

infer_column_types
bool
Kötelező

Azt jelzi, hogy az oszlop adattípusai következtethetők-e.

skip_rows
int
Kötelező

Hány sort kell kihagyni az éppen olvasott fájl(ok)ban.

skip_mode
SkipLinesBehavior
Kötelező

Azt szabályozza, hogy a sorok hogyan legyenek kihagyva a fájlokból való olvasáskor.

comment
str
Kötelező

Az olvasott fájlok megjegyzéssorainak jelzésére szolgáló karakter. Az ezzel a sztringgel kezdődő vonalakat a program kihagyja.

include_path
bool
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Kötelező

Az archív fájl beállításai, beleértve az archív típust és a belépési gömbmintát. Jelenleg csak a ZIP-t támogatjuk archív típusként. Például a


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

Beolvassa az összes olyan fájlt, amelynek neve "10-20.csv" végződésű a ZIP-ben.

partition_format
str
Kötelező

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Adathalmaz-objektum.

Visszatérési típus

Megjegyzések

Ezzel a módszerrel beolvashatja a tagolt szövegfájlokat, amikor szabályozni szeretné a használt beállításokat.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_excel_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Paraméterek

path
DataReference vagy str
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

sheet_name
str
Kötelező

A betöltendő Excel-munkalap neve. Alapértelmezés szerint minden Excel-fájlból elolvassuk az első lapot.

use_column_headers
bool
Kötelező

Azt szabályozza, hogy az első sort oszlopfejlécként kell-e használni.

skip_rows
int
Kötelező

Hány sort kell kihagyni az éppen olvasott fájl(ok)ban.

include_path
bool
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

infer_column_types
bool
Kötelező

Ha igaz, az oszlop adattípusai kikövetkeztethetők.

partition_format
str
Kötelező

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.xlsx, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Adathalmaz-objektum.

Visszatérési típus

Megjegyzések

Ezzel a módszerrel excel-fájlokat olvashat .xlsx formátumban. Az adatok minden Excel-fájl egy lapjáról olvashatók. Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia. A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_json_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Paraméterek

path
DataReference vagy str
Kötelező

A betölteni és elemezni kívánt fájl(ok) vagy mappa(ok) elérési útja. Ez lehet egy helyi elérési út vagy egy Azure Blob URL-cím. A Globbing támogatott. Használhatja például a path = "./data*" elérési utat az összes olyan fájl olvasásához, amelynek a neve "data" (adatok) kezdetű.

encoding
FileEncoding
Kötelező

Az éppen olvasott fájlok kódolása.

flatten_nested_arrays
bool
Kötelező

A tulajdonságvezérlő program kezeli a beágyazott tömböket. Ha a beágyazott JSON-tömbök simítása mellett dönt, az sokkal több sort eredményezhet.

include_path
bool
Kötelező

Szerepeljen-e olyan oszlop, amely azt az elérési utat tartalmazza, amelyből az adatokat beolvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
str
Kötelező

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.json" és az adatok részlegnév és idő szerint particionálva találhatók. A "/{Department}/{PartitionDate:yyyy/MM/dd}/data.json" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához definiálhatjuk.

Válaszok

A helyi Adathalmaz objektum.

Visszatérési típus

from_pandas_dataframe

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Paraméterek

dataframe
DataFrame
Kötelező

A Pandas DataFrame.

path
Union[DataReference, str]
Kötelező

Egy adatútvonal a regisztrált adattárban vagy a helyi mappa elérési útján.

in_memory
bool
Kötelező

Azt jelzi, hogy a DataFrame-et a memóriából szeretné-e beolvasni a lemezen való megőrzése helyett.

Válaszok

Adathalmaz-objektum.

Visszatérési típus

Megjegyzések

Ezzel a módszerrel konvertálhat egy Pandas-adatkeretet adathalmaz-objektummá. Az ezzel a módszerrel létrehozott adatkészlet nem regisztrálható, mivel az adatok a memóriából származnak.

Ha in_memory Hamis, a Pandas DataFrame helyileg CSV-fájllá lesz konvertálva. Ha pat DataReference típusú, akkor a Pandas-keret fel lesz töltve az adattárba, és az adatkészlet a DataReference függvényen alapul. Ha az "elérési út" egy helyi mappa, az adatkészlet a helyi fájlból jön létre, amely nem törölhető.

Kivételt jelez, ha az aktuális DataReference nem mappaútvonal.

from_parquet_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Paraméterek

path
DataReference vagy str
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

include_path
bool
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
str
Kötelező

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.parquet" ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" oszlopokat a "Department" karakterlánctípus és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Adathalmaz-objektum.

Visszatérési típus

Megjegyzések

Ezzel a módszerrel olvashat parquet-fájlokat.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_sql_query

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Paraméterek

data_source
AzureSqlDatabaseDatastore
Kötelező

A Azure SQL adattár részletei.

query
str
Kötelező

Az adatok olvasásához végrehajtandó lekérdezés.

Válaszok

A helyi Adathalmaz objektum.

Visszatérési típus

generate_profile

Hozzon létre új profilt az adatkészlethez.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Paraméterek

compute_target
Union[ComputeTarget, str]
Kötelező

Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja.

workspace
Workspace
Kötelező

Az átmeneti (nem regisztrált) adathalmazokhoz szükséges munkaterület.

arguments
dict[str, object]
Kötelező

Profilargumentumok. Az érvényes argumentumok a következők:

  • "include_stype_counts" típusú bool. Ellenőrizze, hogy az értékek jól ismert szemantikai típusokhoz hasonlóan néznek-e ki, például e-mail-cím, IP-cím (V4/V6), USA-telefonszám, USA irányítószáma, Szélesség/Hosszúság. Ennek engedélyezése hatással van a teljesítményre.

  • "number_of_histogram_bins" típusú int. A számadatokhoz használandó hisztogramtárolók számát jelöli. Az alapértelmezett érték 10.

Válaszok

Adathalmaz-művelet futtassa az objektumot.

Visszatérési típus

Megjegyzések

A szinkron hívás blokkolni fogja, amíg befejeződik. Hívás get_result a művelet eredményének lekéréséhez.

get

A munkaterületen már létező adathalmazt a nevének vagy azonosítójának megadásával szerezheti be.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább a és get_by_id a elemet használjaget_by_name. További információ: https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Paraméterek

workspace
Workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adatkészlet létre lett hozva.

name
str
Kötelező

A lekérendő adathalmaz neve.

id
str
Kötelező

Az adatkészlet egyedi azonosítója a munkaterületen.

Válaszok

Az adatkészlet a megadott névvel vagy azonosítóval.

Visszatérési típus

Megjegyzések

Megadhatja a name vagy ida értéket. Kivétel keletkezik, ha:

  • és id mindkettő name meg van adva, de nem egyezik.

  • a megadott name vagy id nem található adatkészlet a munkaterületen.

get_all

Szerezze be a munkaterület összes regisztrált adathalmazát.

get_all()

Paraméterek

workspace
Workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adathalmazok regisztrálva lettek.

Válaszok

A TabularDataset és a FileDataset objektumok szótára, amely a regisztrációs nevük alapján van meghatározva.

Visszatérési típus

get_all_snapshots

Kérje le az adathalmaz összes pillanatképét.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_all_snapshots()

Válaszok

Adathalmaz-pillanatképek listája.

Visszatérési típus

get_by_id

Szerezze be a munkaterületre mentett adatkészletet.

get_by_id(id, **kwargs)

Paraméterek

workspace
Workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adathalmaz mentve van.

id
str
Kötelező

Az adathalmaz azonosítója.

Válaszok

Az adathalmaz-objektum. Ha az adathalmaz regisztrálva van, a rendszer a regisztrációs nevét és verzióját is visszaadja.

Visszatérési típus

get_by_name

Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján.

get_by_name(name, version='latest', **kwargs)

Paraméterek

workspace
Workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adathalmaz regisztrálva lett.

name
str
Kötelező

A regisztrációs név.

version
int
Kötelező

A regisztrációs verzió. Alapértelmezés szerint a "legújabb".

Válaszok

A regisztrált adathalmaz-objektum.

Visszatérési típus

get_definition

Kérje le az adatkészlet meghatározott definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Paraméterek

version_id
str
Kötelező

Az adathalmaz-definíció verzióazonosítója

Válaszok

Az Adathalmaz definíciója.

Visszatérési típus

Megjegyzések

Ha version_id meg van adva, az Azure Machine Learning megpróbálja lekérni az adott verziónak megfelelő definíciót. Ha ez a verzió nem létezik, kivétel jelenik meg. Ha version_id nincs megadva, a rendszer lekéri a legújabb verziót.

get_definitions

Az adathalmaz összes definíciójának lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definitions()

Válaszok

Adathalmaz-definíciók szótára.

Visszatérési típus

Megjegyzések

Az AzureML-munkaterületen regisztrált adatkészletek több definícióval is rendelkezhetnek, amelyek mindegyike a meghívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbb létrehozott definíció.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

get_profile

A korábban kiszámított adathalmaz összegző statisztikáinak lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Paraméterek

arguments
dict[str, object]
Kötelező

Profilargumentumok.

generate_if_not_exist
bool
Kötelező

Azt jelzi, hogy létre kell-e hozni egy profilt, ha az nem létezik.

workspace
Workspace
Kötelező

Munkaterület, amely átmeneti (nem regisztrált) adathalmazokhoz szükséges.

compute_target
Union[ComputeTarget, str]
Kötelező

Számítási cél a profilművelet végrehajtásához.

Válaszok

Az adatkészlet DataProfile szolgáltatása.

Visszatérési típus

<xref:azureml.dataprep.DataProfile>

Megjegyzések

Az Azure Machine Learning-munkaterületen regisztrált adatkészletek esetében ez a metódus lekéri a korábban létrehozott, hívással get_profile létrehozott profilt, ha az még érvényes. A profilok érvénytelenednek, ha az adatkészletben módosult adatokat észlel, vagy a változó get_profile argumentumai eltérnek a profil létrehozásakor használttól. Ha a profil nincs jelen vagy érvénytelenített, meghatározza, generate_if_not_exist hogy létrejön-e új profil.

Az Azure Machine Learning-munkaterületen nem regisztrált adathalmazok esetében ez a metódus mindig fut generate_profile , és visszaadja az eredményt.

get_snapshot

Az adathalmaz pillanatképének lekérése név alapján.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Paraméterek

snapshot_name
str
Kötelező

A pillanatkép neve.

Válaszok

Adathalmaz pillanatkép-objektuma.

Visszatérési típus

head

Lekéri az adatkészletből megadott számú rekordot, és adatkeretként adja vissza őket.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

head(count)

Paraméterek

count
int
Kötelező

A lekérendő rekordok száma.

Válaszok

Egy Pandas DataFrame.

Visszatérési típus

list

Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket is_visible is.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation.

static list(workspace)

Paraméterek

workspace
Workspace
Kötelező

Az a munkaterület, amelyhez le szeretné kérni az adathalmazok listáját.

Válaszok

Adathalmaz-objektumok listája.

Visszatérési típus

reactivate

Archivált vagy elavult adathalmaz újraaktiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

reactivate()

Válaszok

Nincsenek.

Visszatérési típus

register

Regisztrálja az Adatkészletet a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Paraméterek

workspace
Workspace
Kötelező

Az Az AzureML-munkaterület, amelyben az adathalmaz regisztrálva lesz.

name
str
Kötelező

A munkaterület adatkészletének neve.

description
str
Kötelező

Az adathalmaz leírása.

tags
dict[str, str]
Kötelező

Az adatkészlethez társítandó címkék.

visible
bool
Kötelező

Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen. Ha Hamis, akkor az adatkészlet el van rejtve a felhasználói felületen, és az SDK-on keresztül érhető el.

exist_ok
bool
Kötelező

Ha igaz, a metódus visszaadja az Adatkészletet, ha már létezik az adott munkaterületen, máskülönben hiba.

update_if_exist
bool
Kötelező

Ha exist_ok igaz és update_if_exist igaz, ez a metódus frissíti a definíciót, és visszaadja a frissített adatkészletet.

Válaszok

Regisztrált Adathalmaz-objektum a munkaterületen.

Visszatérési típus

sample

Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Paraméterek

sample_strategy
str
Kötelező

Használandó mintastratégia. Az elfogadott értékek a következők: "top_n", "simple_random", vagy "rétegzett".

arguments
dict[str, object]
Kötelező

Egy szótár, amely a fenti listában szereplő "Választható argumentum" és a tye "Type" (Típus) oszlop értékeit tartalmazza. Csak a megfelelő mintavételezési módszer argumentumai használhatók. Például egy "simple_random" mintatípushoz csak "valószínűség" és "mag" kulcsokkal rendelkező szótárat adhat meg.

Válaszok

Az adathalmaz-objektum az eredeti adathalmaz mintája.

Visszatérési típus

Megjegyzések

A minták az adatkészlet által definiált átalakítási folyamat végrehajtásával jönnek létre, majd a mintavételezési stratégiát és a paramétereket a kimeneti adatokra alkalmazzák. Minden mintavételezési módszer a következő választható argumentumokat támogatja:

  • top_n

    • Választható argumentumok

      • n, írja be az egész számot. Mintaként válassza ki a felső N sorokat.
  • simple_random

    • Választható argumentumok

      • valószínűség, írja be a lebegőpontos értéket. Egyszerű véletlenszerű mintavételezés, ahol minden sor azonos valószínűséggel van kiválasztva. A valószínűségnek 0 és 1 közötti számnak kell lennie.

      • mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.

  • Rétegzett

    • Választható argumentumok

      • hasábok, írja be a list[str] kifejezést. Az adatok strataoszlopainak listája.

      • mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.

      • törtek, írja be a dict[tuple, float] kifejezést. Rekord: a réteget definiáló oszlopértékek az oszlopnevekkel azonos sorrendben lehetnek. Lebegőpontos: a mintavétel során egy réteghez rögzített súly.

Az alábbi kódrészletek mintatervezési mintákat jelentenek a különböző mintameta-metódusokhoz.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Válaszok

Egy Pandas DataFrame.

Visszatérési típus

Megjegyzések

A Pandas DataFrame teljes mértékben materializált memóriát ad vissza.

to_spark_dataframe

Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Válaszok

Egy Spark DataFrame.

Visszatérési típus

Megjegyzések

A visszaadott Spark-adatkeret csak végrehajtási terv, és valójában nem tartalmaz adatokat, mivel a Spark-adatkeretek lazán kiértékelve vannak.

update

Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Paraméterek

name
str
Kötelező

A munkaterület adathalmazának neve.

description
str
Kötelező

Az adatok leírása.

tags
dict[str, str]
Kötelező

Az adathalmaz társításához használandó címkék.

visible
bool
Kötelező

Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen.

Válaszok

Frissített Adathalmaz-objektum a munkaterületről.

Visszatérési típus

update_definition

Frissítse az Adathalmaz definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Paraméterek

definition
DatasetDefinition
Kötelező

Az adatkészlet új definíciója.

definition_update_message
str
Kötelező

A definíciófrissítés üzenete.

Válaszok

Frissített Adathalmaz-objektum a munkaterületről.

Visszatérési típus

Megjegyzések

A frissített adatkészlet felhasználásához használja az ezzel a módszerrel visszaadott objektumot.

Attribútumok

definition

Adja vissza az aktuális adathalmaz-definíciót.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Az Adathalmaz definíciója.

Visszatérési típus

Megjegyzések

Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.

Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. Ha több definícióval rendelkezik, akkor a meglévő adathalmazokat anélkül módosíthatja, hogy a régebbi definíciótól függő modelleket és folyamatokat használná.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

definition_version

Az adatkészlet aktuális definíciójának verzióját adja vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Az Adathalmazdefiníció verziója.

Visszatérési típus

str

Megjegyzések

Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.

Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbb létrehozott, amelynek azonosítóját ez adja vissza.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

description

Adja vissza az adatkészlet leírását.

Válaszok

Az Adathalmaz leírása.

Visszatérési típus

str

Megjegyzések

Az adatkészlet adatainak leírásának megadása lehetővé teszi a munkaterület felhasználói számára, hogy megértsék, mit jelentenek az adatok, és hogyan használhatják őket.

id

Ha az adathalmaz regisztrálva lett egy munkaterületen, adja vissza az adathalmaz azonosítóját. Ellenkező esetben a Nincs értéket adja vissza.

Válaszok

Az adathalmaz azonosítója.

Visszatérési típus

str

is_visible

Szabályozhatja egy regisztrált adatkészlet láthatóságát az Azure ML-munkaterület felhasználói felületén.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Az Adathalmaz láthatósága.

Visszatérési típus

Megjegyzések

Visszaadott értékek:

  • Igaz: Az adathalmaz látható a munkaterület felhasználói felületén. Default (Alapértelmezett):

  • Hamis: Az adathalmaz rejtett a munkaterület felhasználói felületén.

Nincs hatása a nem regisztrált adathalmazokra.

name

Adja vissza az adathalmaz nevét.

Válaszok

Az Adathalmaz neve.

Visszatérési típus

str

state

Az adatkészlet állapotát adja vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Az Adathalmaz állapota.

Visszatérési típus

str

Megjegyzések

Az állapotok jelentése és hatása a következő:

  • Aktív. Az aktív definíciók pontosan így hangzanak, minden művelet elvégezhető az aktív definíciókon.

  • Elavult. elavult definíció használható, de figyelmeztetést eredményez a naplókban minden alkalommal, amikor a mögöttes adatok elérhetővé válik.

  • Archivált. Az archivált definíciók nem használhatók műveletek végrehajtására. Ha archivált definíción szeretne műveleteket végrehajtani, újra kell aktiválni.

tags

Adja vissza az adatkészlethez társított címkéket.

Válaszok

Adathalmazcímkék.

Visszatérési típus

workspace

Ha az adathalmaz regisztrálva lett egy munkaterületen, azt adja vissza. Ellenkező esetben a Nincs értéket adja vissza.

Válaszok

A munkaterület.

Visszatérési típus

Tabular

Factory for creating FileDataset

aliasa TabularDatasetFactory