data Balíček

Obsahuje moduly podporující reprezentaci dat pro úložiště dat a datovou sadu ve službě Azure Machine Learning.

Tento balíček obsahuje základní funkce podporující Datastore a Dataset třídy v core balíčku. Objekty úložiště dat obsahují informace o připojení ke službám úložiště Azure, na které lze snadno odkazovat pomocí názvu, aniž by bylo nutné pracovat přímo s informacemi o připojení nebo je pevně kódovat ve skriptech. Úložiště dat podporuje řadu různých služeb reprezentovaných třídami v tomto balíčku, včetně AzureBlobDatastore, AzureFileDatastorea AzureDataLakeDatastore. Úplný seznam podporovaných služeb úložiště najdete ve Datastore třídě .

I když úložiště dat funguje jako kontejner pro datové soubory, datovou sadu si můžete představit jako odkaz nebo ukazatel na konkrétní data, která jsou ve vašem úložišti dat. Podporují se následující typy datových sad:

  • Objekt TabularDataset reprezentuje data v tabulkovém formátu vytvořeném parsováním zadaného souboru nebo seznamu souborů.

  • FileDataset odkazuje na jeden nebo více souborů ve vašich úložištích dat nebo veřejných adresách URL.

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s datovými sadami, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook a https://aka.ms/filedataset-samplenotebook.

Moduly

abstract_dataset

Obsahuje abstraktní základní třídu pro datové sady ve službě Azure Machine Learning.

abstract_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení ke službám úložiště Azure.

azure_data_lake_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Data Lake Storage.

azure_my_sql_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Database for MySQL.

azure_postgre_sql_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení k Azure Database for PostgreSQL.

azure_sql_database_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure SQL databáze.

azure_storage_datastore

Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do služby Azure Blob Storage a Azure File Storage.

constants

Konstanty použité v balíčku azureml.data. Pouze pro interní použití.

context_managers

Obsahuje funkce pro správu kontextu dat úložišť dat a datových sad. Pouze pro interní použití.

data_reference

Obsahuje funkci, která definuje, jak vytvořit odkazy na data v úložištích dat.

datacache

Obsahuje funkce pro správu úložiště DatacacheStore a Datacache ve službě Azure Machine Learning.

datacache_client

Pouze pro interní použití.

datacache_consumption_config

Obsahuje funkce pro konfiguraci využití služby DataCache.

datacache_singularity_settings

Obsahuje objekty potřebné pro reprezentaci nastavení Singularity mezipaměti Datacache.

datapath

Obsahuje funkci pro vytváření odkazů na data v úložištích dat.

Tento modul obsahuje DataPath třídu, která představuje umístění dat, a DataPathComputeBinding třídu, která představuje způsob zpřístupnění dat na cílových výpočetních objektech.

dataset_action_run

Obsahuje funkci, která spravuje provádění akcí datových sad.

Tento modul poskytuje pohodlné metody pro vytváření akcí datových sad a získání jejich výsledků po dokončení.

dataset_consumption_config

Obsahuje funkce pro konfiguraci využití datové sady.

dataset_definition

Obsahuje funkce pro správu definice datové sady a jejích operací.

Poznámka

Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

dataset_error_handling

Obsahuje výjimky pro zpracování chyb datových sad ve službě Azure Machine Learning.

dataset_factory

Obsahuje funkce pro vytváření datových sad pro Azure Machine Learning.

dataset_profile

Třída pro shromažďování souhrnných statistik o datech generovaných tokem dat.

Funkce v tomto modulu zahrnují shromažďování informací o tom, které spuštění profil vytvořilo a jestli je profil zastaralý nebo ne.

dataset_profile_run

Obsahuje konfiguraci pro monitorování spuštění profilu datové sady ve službě Azure Machine Learning.

Funkce v tomto modulu zahrnují zpracování a monitorování spuštění profilu datové sady přidružené k objektu experimentu a ID jednotlivých spuštění.

dataset_profile_run_config

Obsahuje konfiguraci pro generování souhrnu statistik datových sad ve službě Azure Machine Learning.

Funkce v tomto modulu zahrnují metody pro odeslání místního nebo vzdáleného spuštění profilu a vizualizaci výsledku odeslaného spuštění profilu.

dataset_snapshot

Obsahuje funkce pro správu operací vytvoření datové sady.

Poznámka

Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

dataset_type_definitions

Obsahuje hodnoty výčtu použité s Dataset.

datastore_client

Pouze pro interní použití.

dbfs_datastore

Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do souboru Databricks File Sytem (DBFS).

file_dataset

Obsahuje funkci pro odkazování na jeden nebo více souborů v úložištích dat nebo veřejných adresách URL.

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do clusteru HDFS.

output_dataset_config

Obsahuje konfigurace, které určují, jak se mají výstupy úlohy nahrávat a upřednostňují na datovou sadu.

Další informace najdete v článku , jak zadat výstupy.

sql_data_reference

Obsahuje funkci pro vytváření odkazů na data v úložištích dat, které ukládají informace o připojení k databázím SQL.

stored_procedure_parameter

Obsahuje funkce pro vytvoření parametru, který se má předat uložené proceduře SQL.

tabular_dataset

Obsahuje funkce pro reprezentaci dat v tabulkovém formátu parsováním zadaného souboru nebo seznamu souborů.

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook.

Třídy

DataType

Konfiguruje datové typy sloupců pro datovou sadu vytvořenou ve službě Azure Machine Learning.

Metody DataType se používají v TabularDatasetFactory metodách třídy from_* , které se používají k vytvoření nových TabularDataset objektů.

DatacacheStore

Poznámka

Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Představuje abstrakci úložiště nad účtem úložiště služby Azure Machine Learning.

Úložiště datacacheStore jsou připojená k pracovním prostorům a používají se k ukládání informací souvisejících s podkladovým řešením datacache. V současné době se podporuje pouze řešení dělených objektů blob. Úložiště datacachestore definuje různá úložiště dat objektů blob, která se dají použít pro ukládání do mezipaměti.

Tato třída slouží k provádění operací správy, včetně registrace, výpisu, získání a aktualizace úložiště mezipaměti dat. DatacacheStores pro každou službu jsou vytvořeny pomocí register* metod této třídy.

Získejte úložiště mezipaměti dat podle názvu. Toto volání vytvoří požadavek na službu datacache.

FileDataset

Představuje kolekci odkazů na soubory v úložištích dat nebo veřejných adresÁCH URL pro použití ve službě Azure Machine Learning.

FileDataset definuje řadu líně vyhodnocených, neměnných operací, které načtou data ze zdroje dat do datových proudů souborů. Data se nenačtou ze zdroje, dokud se nezobrazí výzva k doručení dat FileDataset.

FileDataset je vytvořena pomocí from_files metody FileDatasetFactory třídy.

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook.

Inicializujte objekt FileDataset.

Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí FileDatasetFactory třídy .

HDFSOutputDatasetConfig

Představuje způsob výstupu do cesty HDFS a být povýšen jako FileDataset.

Inicializace HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Poznámka

Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Představuje, jak propojit výstup spuštění a být povýšen jako FileDataset.

LinkFileOutputDatasetConfig umožňuje propojit souborovou datovou sadu jako výstupní datovou sadu.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicializace LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Poznámka

Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Představuje způsob propojení výstupu spuštění a povýšení jako TabularDataset.

LinkTabularOutputDatasetConfig umožňuje propojit soubor tabulkový jako výstupní datovou sadu.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicializace LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Představuje, jak kopírovat výstup spuštění a být povýšen jako FileDataset.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializace OutputFileDatasetConfig.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Představuje tabulkovou datovou sadu, která se má použít ve službě Azure Machine Learning.

TabularDataset definuje řadu nezměnitelných operací, které načtou data ze zdroje dat do tabulkové reprezentace. Data se nenačtou ze zdroje, dokud se k doručení dat nezobrazí výzva TabularDataset.

TabularDataset se vytváří pomocí metod, jako from_delimited_files je třída TabularDatasetFactory .

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook.

Inicializujte objekt TabularDataset.

Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí TabularDatasetFactory třídy .