data 包

包含支持 Azure 机器学习中数据存储和数据集的数据表示形式的模块。

此包包含支持 core 包中的 DatastoreDataset 类的核心功能。 数据存储对象包含与 Azure 存储服务的连接信息,这些信息可以通过名称轻松引用,而无需直接使用或在脚本中硬编码连接信息。 数据存储支持此包中的类表示的多种不同服务,包括 AzureBlobDatastoreAzureFileDatastoreAzureDataLakeDatastore。 有关支持的存储服务的完整列表,请参阅 Datastore 类。

虽然数据存储充当数据文件的容器,但可以将数据集视为数据存储中特定数据的引用或指针。 支持以下数据集类型:

  • TabularDataset 表示表格格式的、通过分析提供的文件或文件列表所创建的数据。

  • FileDataset 引用数据存储或公共 URL 中的单个或多个文件。

有关详细信息,请参阅 添加 & 注册数据集一文。 要开始使用数据集,请参阅 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook

模块

abstract_dataset

包含 Azure 机器学习中的数据集的抽象基类。

abstract_datastore

包含将连接信息保存到 Azure 存储服务的数据存储的基本功能。

azure_data_lake_datastore

包含将连接信息保存到 Azure Data Lake Storage 的数据存储的基本功能。

azure_my_sql_datastore

包含将连接信息保存到 Azure Database for MySQL 的数据存储的基本功能。

azure_postgre_sql_datastore

包含将连接信息保存到 Azure Database for PostgreSQL 的数据存储的基本功能。

azure_sql_database_datastore

包含将连接信息保存到 Azure SQL 数据库的数据存储的基本功能。

azure_storage_datastore

包含将连接信息保存到 Azure Blob 和 Azure 文件存储的数据存储功能。

constants

azureml.data 包中使用的常数。 仅限内部使用。

context_managers

包含用于管理数据存储和数据集的数据上下文的功能。 仅限内部使用。

data_reference

包含定义如何创建对数据存储中数据的引用的功能。

datacache

包含用于管理 Azure 机器学习中的 DatacacheStore 和 Datacache 的功能。

datacache_client

仅限内部使用。

datacache_consumption_config

包含 DataCache 使用配置的功能。

datacache_singularity_settings

包含 Datacache 奇点设置表示形式所需的对象。

datapath

包含创建对数据存储中的数据的引用的功能。

此模块包含 DataPath 类,该类表示数据的位置;它还包含 DataPathComputeBinding 类,该类表示数据如何在计算目标上可用。

dataset_action_run

包含管理数据集操作执行的功能。

该模块提供了用于创建数据集操作并在完成后获取其结果的便捷方法。

dataset_consumption_config

包含数据集使用配置的功能。

dataset_definition

包含管理数据集定义及其操作的功能。

注意

此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

dataset_error_handling

包含 Azure 机器学习中数据集错误处理的异常。

dataset_factory

包含用于为 Azure 机器学习创建数据集的功能。

dataset_profile

用于收集数据流生成的数据的汇总统计信息的类。

此模块中的功能包括收集有关哪个运行生成配置文件、配置文件是否过时的信息。

dataset_profile_run

包含用于监视 Azure 机器学习中运行的数据集配置文件的配置。

此模块中的功能包括处理和监视与实验对象以及单个运行 ID 关联的数据集配置文件的运行。

dataset_profile_run_config

包含用于在 Azure 机器学习中生成数据集统计摘要的配置。

此模块中的功能包括提交本地或远程配置文件运行和可视化提交的配置文件运行结果的方法。

dataset_snapshot

包含管理数据集快照操作的功能。

注意

此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

dataset_type_definitions

包含与 Dataset 一起使用的枚举值。

datastore_client

仅限内部使用。

dbfs_datastore

包含用于将连接信息保存到 Databricks 文件系统 (DBFS) 的数据存储的功能。

file_dataset

包含引用数据存储或公共 URL 中的单个或多个文件的功能。

有关详细信息,请参阅 添加 & 注册数据集一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook

hdfs_datastore

包含将连接信息保存到 HDFS 群集的数据存储的基本功能。

output_dataset_config

包含指定应如何将作业的输出上传和提升到数据集的配置。

有关详细信息,请参阅如何指定输出一文。

sql_data_reference

包含用于创建对数据存储中数据的引用的功能,这些数据将连接信息保存到 SQL 数据库。

stored_procedure_parameter

包含用于创建参数以传递给 SQL 存储过程的功能。

tabular_dataset

包含通过分析提供的文件或文件列表来以表格格式表示数据的功能。

有关详细信息,请参阅 添加 & 注册数据集一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook

DataType

为在 Azure 机器学习中创建的数据集配置列数据类型。

TabularDatasetFactory 类的 from_* 方法中使用 DataType 方法,用于新建 TabularDataset 对象。

DatacacheStore

注意

这是一个试验性的类,随时可能更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示通过 Azure 机器学习存储帐户的存储抽象。

DatacacheStore 附加到工作区,用于存储与基础 Datacache 解决方案相关的信息。 目前,仅支持分区 Blob 解决方案。 Datacachestore 定义可用于缓存的各种 Blob 数据存储。

使用此类可以执行管理操作,包括注册、列出、获取和更新Datacachestore。 每个服务的 DatacacheStore 都是使用此类的 register* 方法创建的。

按名称获取 datacachestore。 此调用将向 datacache 服务发出请求。

FileDataset

表示要在 Azure 机器学习中使用的数据存储或公共 URL 中的文件引用集合。

FileDataset 定义了一系列延迟求值的不可变操作,以将数据从数据源加载到文件流中。 在要求 FileDataset 传送数据之前,不会从源加载数据。

FileDataset 是使用 FileDatasetFactory 类的 from_files 方法创建的。

有关详细信息,请参阅 添加 & 注册数据集一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook

初始化 FileDataset 对象。

不应直接调用此构造函数。 数据集旨在使用 FileDatasetFactory 类创建。

HDFSOutputDatasetConfig

表示如何输出到 HDFS 路径并升级为 FileDataset。

初始化 HDFSOutputDatasetConfig。

LinkFileOutputDatasetConfig

注意

这是一个试验性的类,随时可能更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示如何链接运行的输出并将其提升为 FileDataset。

可使用 LinkFileOutputDatasetConfig 将文件数据集链接为输出数据集


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

初始化 LinkFileOutputDatasetConfig。

LinkTabularOutputDatasetConfig

注意

这是一个试验性的类,随时可能更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示如何链接运行的输出以及如何将其提升为 TabularDataset。

可使用 LinkTabularOutputDatasetConfig 将文件 Tabular 链接为输出数据集


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

初始化 LinkTabularOutputDatasetConfig。

OutputFileDatasetConfig

表示如何复制运行的输出并将其升级为 FileDataset。

可使用 OutputFileDatasetConfig 指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,将自动生成名称、目标和本地路径。

未传递任何参数的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其升级到表格数据集,然后使用名称 foo 进行注册的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

初始化 OutputFileDatasetConfig。

可使用 OutputFileDatasetConfig 指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,将自动生成名称、目标和本地路径。

未传递任何参数的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其升级到表格数据集,然后使用名称 foo 进行注册的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

表示要在 Azure 机器学习中使用的表格数据集。

TabularDataset 定义一系列延迟求值的不可变操作,用于将数据源中的数据加载到表格表示形式中。 在要求 TabularDataset 传送数据之前,不会从源加载数据。

TabularDataset 是使用 TabularDatasetFactory 类中的 from_delimited_files 之类的方法创建的。

有关详细信息,请参阅 添加 & 注册数据集一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook

初始化 TabularDataset 对象。

不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类创建。