experiment_store 模块

用于存储实验数据、元数据和转换器的模块。 有关详细信息,请参阅 ExperimentStore。

ExperimentData

包含给定试验的数据的对象。

此对象应仅由 ExperimentStore 使用。

此对象中存储的信息可以是内存支持的,也可以是缓存支持的。

ExperimentData 表示可在整个作业中使用的任何数据。 可以访问两种类型的数据格式:具体化和惰性。 具体化数据表示可在内存中完全具体化的数据。 具体化数据通常存储为 pandas 数据帧。 惰性数据表示太大而无法放入内存的数据,并且在使用时必须进行流式传输。 惰性数据通常存储为 TabularDataset。 具体化数据将始终是缓存的数据。

ExperimentMetadata

包含给定试验的元数据的对象。

此对象应仅由 ExperimentStore 使用。

此对象中存储的任何信息都将在内存中备份,在后续运行或子过程中使用之前,应将它们卸载(保存)到 CacheStore。

ExperimentMetadata 表示整个作业中使用的任何元数据。 ExperimentMetadata 分为各作业中使用的通用元数据属性(如 task、is_sparse、data_snapshot 等)和特定于给定作业的内容。 特定属性存储在其预期任务下:分类、回归和时序。 如果某些内容不是各任务中使用的通用元数据,则应将其放入正确的任务的元数据中。

ExperimentStore

用于存储在 AutoML 中完成任务所需的数据、元数据、转换器和其他信息的位置。

此对象替换 ClientDatasets 对象。 此对象的目的是在 AutoML 中的一组任务中存储任何必要的信息。 当前支持的示例作业包括:AutoML 特征、训练、说明和测试。 此对象不应执行任何与创建、修改或拆分数据/元数据相关的工作,只是在运行之间存储和整理信息的位置。

此对象表示为单一实例对象,在运行的入口点实例化一次并在使用时检索。 尝试重新创建单一实例,或在初始创建之前检索单一实例,都将导致异常。 通过缓存存储区跨运行或进程封送数据。 ExperimentStore 可以根据运行的要求,将数据卸载(写入)到基础缓存或从缓存加载(读取)数据。 此外,还包括一个只读标志,以确保仅当入口点需要此类写入时才将 ExperimentStore 写入到其中。

ExperimentStore 中的属性有两种存储模式 - 内存支持和缓存支持。 通常较大的属性(如训练数据或 cv 拆分)存储为缓存支持的属性。 所有其他属性(如转换器和元数据)均为内存支持。 读取或写入缓存支持的属性将导致读取或写入基础缓存存储。 读取或写入内存支持的属性会导致读取或写入内存中的对象。 确保内存支持的属性在运行或进程中持久保存的唯一方法是卸载(写入)和加载(读取)ExperimentStore 到缓存。 运行完成后,应始终重置其 ExperimentStore 状态,以确保在同一环境中的未来作业中不会保留以前作业的不需要的元素。 通过 ExperimentStore.reset() 进行此重置。


   # Create a read/write ExperimentStore
   expr_store = ExperimentStore(cache, read_only=False)

   # Retreive an ExperimentStore
   expr_store = ExperimentStore.get_instance()

   # Write the ExperimentStore to the cache
   expr_store.unload()

   # Create a read-only ExperimentStore and load the information from the cache
   exp = ExperimentStore(cache, read_only=True)
   expr_store.load()

   # Retrieve and ExperimentStore
   expr_store = ExperimentStore.get_instance()

ExperimentStore 有三个主要组件用于划分数据 - ExperimentData、ExperimentMetadata 和 ExperimentTransformers。 这些属性提供对其各自数据组件的访问:数据、元数据、转换器。

ExperimentData 表示可在整个作业中使用的任何数据。 可以访问两种类型的数据格式:具体化和惰性。 具体化数据表示可在内存中完全具体化的数据。 具体化数据通常存储为 pandas 数据帧。 惰性数据表示太大而无法放入内存的数据,并且在使用时必须进行流式传输。 惰性数据通常存储为 TabularDataset。 具体化数据将始终是缓存的数据。

ExperimentMetadata 表示整个作业中使用的任何元数据。 ExperimentMetadata 分为各作业中使用的通用元数据属性(如 task、is_sparse、data_snapshot 等)和特定于给定作业的内容。 特定属性存储在其预期任务下:分类、回归和时序。 如果某些内容不是各任务中使用的通用元数据,则应将其放入正确的任务的元数据中。 所有 ExperimentMetadata 均为内存支持。

ExperimentTransformers 表示在 AutoML 作业期间用于特征化数据的任何转换器。 ExperimentTransformers 为内存支持。

ExperimentTansformers

包含给定实验的转换器的对象。

此对象应仅由 ExperimentStore 使用。

此对象中存储的任何信息都将在内存中备份,在后续运行或子过程中使用之前,应将它们卸载(保存)到 CacheStore。

函数

get_x_y_sample_weight_from_merged_df

get_x_y_sample_weight_from_merged_df(merged_df: Optional[pandas.core.frame.DataFrame]) -> Tuple[Optional[Union[numpy.ndarray, pandas.core.frame.DataFrame]], Optional[Union[numpy.ndarray, pandas.core.frame.DataFrame]], Optional[Union[numpy.ndarray, pandas.core.frame.DataFrame]]]

参数

merged_df