data Balíček

Reference

Obsahuje moduly podporující reprezentaci dat pro úložiště dat a datovou sadu ve službě Azure Machine Learning.

Tento balíček obsahuje základní funkce podporující Datastore a Dataset třídy v core balíčku. Objekty úložiště dat obsahují informace o připojení ke službám úložiště Azure, na které lze snadno odkazovat pomocí názvu, aniž by bylo nutné pracovat přímo s informacemi o připojení nebo je pevně kódovat ve skriptech. Úložiště dat podporuje řadu různých služeb reprezentovaných třídami v tomto balíčku, včetně AzureBlobDatastore, AzureFileDatastorea AzureDataLakeDatastore. Úplný seznam podporovaných služeb úložiště najdete ve Datastore třídě .

I když úložiště dat funguje jako kontejner pro datové soubory, datovou sadu si můžete představit jako odkaz nebo ukazatel na konkrétní data, která jsou ve vašem úložišti dat. Podporují se následující typy datových sad:

Objekt TabularDataset reprezentuje data v tabulkovém formátu vytvořeném parsováním zadaného souboru nebo seznamu souborů.
FileDataset odkazuje na jeden nebo více souborů ve vašich úložištích dat nebo veřejných adresách URL.

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s datovými sadami, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook a https://aka.ms/filedataset-samplenotebook.

Moduly

abstract_dataset	Obsahuje abstraktní základní třídu pro datové sady ve službě Azure Machine Learning.
abstract_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení ke službám úložiště Azure.
azure_data_lake_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Data Lake Storage.
azure_my_sql_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Database for MySQL.
azure_postgre_sql_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení k Azure Database for PostgreSQL.
azure_sql_database_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure SQL databáze.
azure_storage_datastore	Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do služby Azure Blob Storage a Azure File Storage.
constants	Konstanty použité v balíčku azureml.data. Pouze pro interní použití.
context_managers	Obsahuje funkce pro správu kontextu dat úložišť dat a datových sad. Pouze pro interní použití.
data_reference	Obsahuje funkci, která definuje, jak vytvořit odkazy na data v úložištích dat.
datacache	Obsahuje funkce pro správu úložiště DatacacheStore a Datacache ve službě Azure Machine Learning.
datacache_client	Pouze pro interní použití.
datacache_consumption_config	Obsahuje funkce pro konfiguraci využití služby DataCache.
datacache_singularity_settings	Obsahuje objekty potřebné pro reprezentaci nastavení Singularity mezipaměti Datacache.
datapath	Obsahuje funkci pro vytváření odkazů na data v úložištích dat. Tento modul obsahuje DataPath třídu, která představuje umístění dat, a DataPathComputeBinding třídu, která představuje způsob zpřístupnění dat na cílových výpočetních objektech.
dataset_action_run	Obsahuje funkci, která spravuje provádění akcí datových sad. Tento modul poskytuje pohodlné metody pro vytváření akcí datových sad a získání jejich výsledků po dokončení.
dataset_consumption_config	Obsahuje funkce pro konfiguraci využití datové sady.
dataset_definition	Obsahuje funkce pro správu definice datové sady a jejích operací. Poznámka Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
dataset_error_handling	Obsahuje výjimky pro zpracování chyb datových sad ve službě Azure Machine Learning.
dataset_factory	Obsahuje funkce pro vytváření datových sad pro Azure Machine Learning.
dataset_profile	Třída pro shromažďování souhrnných statistik o datech generovaných tokem dat. Funkce v tomto modulu zahrnují shromažďování informací o tom, které spuštění profil vytvořilo a jestli je profil zastaralý nebo ne.
dataset_profile_run	Obsahuje konfiguraci pro monitorování spuštění profilu datové sady ve službě Azure Machine Learning. Funkce v tomto modulu zahrnují zpracování a monitorování spuštění profilu datové sady přidružené k objektu experimentu a ID jednotlivých spuštění.
dataset_profile_run_config	Obsahuje konfiguraci pro generování souhrnu statistik datových sad ve službě Azure Machine Learning. Funkce v tomto modulu zahrnují metody pro odeslání místního nebo vzdáleného spuštění profilu a vizualizaci výsledku odeslaného spuštění profilu.
dataset_snapshot	Obsahuje funkce pro správu operací vytvoření datové sady. Poznámka Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
dataset_type_definitions	Obsahuje hodnoty výčtu použité s Dataset.
datastore_client	Pouze pro interní použití.
dbfs_datastore	Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do souboru Databricks File Sytem (DBFS).
file_dataset	Obsahuje funkci pro odkazování na jeden nebo více souborů v úložištích dat nebo veřejných adresách URL. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do clusteru HDFS.
output_dataset_config	Obsahuje konfigurace, které určují, jak se mají výstupy úlohy nahrávat a upřednostňují na datovou sadu. Další informace najdete v článku , jak zadat výstupy.
sql_data_reference	Obsahuje funkci pro vytváření odkazů na data v úložištích dat, které ukládají informace o připojení k databázím SQL.
stored_procedure_parameter	Obsahuje funkce pro vytvoření parametru, který se má předat uložené proceduře SQL.
tabular_dataset	Obsahuje funkce pro reprezentaci dat v tabulkovém formátu parsováním zadaného souboru nebo seznamu souborů. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook.

Třídy

DataType	Konfiguruje datové typy sloupců pro datovou sadu vytvořenou ve službě Azure Machine Learning. Metody DataType se používají v TabularDatasetFactory metodách třídy `from_*` , které se používají k vytvoření nových TabularDataset objektů.
DatacacheStore	Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje abstrakci úložiště nad účtem úložiště služby Azure Machine Learning. Úložiště datacacheStore jsou připojená k pracovním prostorům a používají se k ukládání informací souvisejících s podkladovým řešením datacache. V současné době se podporuje pouze řešení dělených objektů blob. Úložiště datacachestore definuje různá úložiště dat objektů blob, která se dají použít pro ukládání do mezipaměti. Tato třída slouží k provádění operací správy, včetně registrace, výpisu, získání a aktualizace úložiště mezipaměti dat. DatacacheStores pro každou službu jsou vytvořeny pomocí `register*` metod této třídy. Získejte úložiště mezipaměti dat podle názvu. Toto volání vytvoří požadavek na službu datacache.
FileDataset	Představuje kolekci odkazů na soubory v úložištích dat nebo veřejných adresÁCH URL pro použití ve službě Azure Machine Learning. FileDataset definuje řadu líně vyhodnocených, neměnných operací, které načtou data ze zdroje dat do datových proudů souborů. Data se nenačtou ze zdroje, dokud se nezobrazí výzva k doručení dat FileDataset. FileDataset je vytvořena pomocí from_files metody FileDatasetFactory třídy. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook. Inicializujte objekt FileDataset. Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí FileDatasetFactory třídy .
HDFSOutputDatasetConfig	Představuje způsob výstupu do cesty HDFS a být povýšen jako FileDataset. Inicializace HDFSOutputDatasetConfig.
LinkFileOutputDatasetConfig	Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje, jak propojit výstup spuštění a být povýšen jako FileDataset. LinkFileOutputDatasetConfig umožňuje propojit souborovou datovou sadu jako výstupní datovou sadu. workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicializace LinkFileOutputDatasetConfig.
LinkTabularOutputDatasetConfig	Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje způsob propojení výstupu spuštění a povýšení jako TabularDataset. LinkTabularOutputDatasetConfig umožňuje propojit soubor tabulkový jako výstupní datovou sadu. workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicializace LinkTabularOutputDatasetConfig.
OutputFileDatasetConfig	Představuje, jak kopírovat výstup spuštění a být povýšen jako FileDataset. OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu. Příklad nepředávky argumentů: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Inicializace OutputFileDatasetConfig. OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu. Příklad nepředávky argumentů: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Představuje tabulkovou datovou sadu, která se má použít ve službě Azure Machine Learning. TabularDataset definuje řadu nezměnitelných operací, které načtou data ze zdroje dat do tabulkové reprezentace. Data se nenačtou ze zdroje, dokud se k doručení dat nezobrazí výzva TabularDataset. TabularDataset se vytváří pomocí metod, jako from_delimited_files je třída TabularDatasetFactory . Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook. Inicializujte objekt TabularDataset. Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí TabularDatasetFactory třídy .

data Balíček

Moduly

Třídy

Váš názor

Váš názor

Další materiály