Aggregator 类

针对使用联接键标识的指定列定义聚合。

继承
builtins.object
Aggregator

构造函数

Aggregator()

注解

通常不会直接实例化聚合器。 而是在使用扩充器(如 HolidayEnricher 对象)时指定聚合器的类型。

派生的聚合器包括 AggregatorAllAggregatorAvgAggregatorMaxAggregatorMinAggregatorTop

process(env, customer_data, public_data, join_keys, debug)方法执行聚合。

方法

get_log_property

获取日志属性元组,如果没有属性,则获取 None。

process

在 join_keys 上执行 customer_data 和 public_data 的左联接。

删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。

process_public_dataset

对指定的公共数据列执行聚合。

get_log_property

获取日志属性元组,如果没有属性,则获取 None。

get_log_property()

process

在 join_keys 上执行 customer_data 和 public_data 的左联接。

删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。

process(env: Union[azureml.opendatasets.environ.SparkEnv, azureml.opendatasets.environ.PandasEnv], customer_data: azureml.opendatasets.accessories.customer_data.CustomerData, public_data: azureml.opendatasets.accessories.public_data.PublicData, join_keys: list, debug: bool)

参数

env
RuntimeEnv
必需

运行时环境。

customer_data
CustomerData
必需

客户数据。

public_data
PublicData
必需

公共数据。

join_keys
list[tuple]
必需

联接键对的列表。

debug
bool
必需

指示是否要打印调试信息。

返回

(CustomerData 类的一个新实例,PublicData 的不变实例,CustomerData 类的一个新加入的实例,联接键(元组的列表))的一个元组

返回类型

tuple[<xref:azureml.opendatasets.accessories.customer_data.CustomerData,azureml.opendatasets.accessories.public_data.PublicData,azureml.opendatasets.accessories.customer_data.CustomerData,builtin.list>[tuple([str, str])]

process_public_dataset

对指定的公共数据列执行聚合。

process_public_dataset(env: azureml.opendatasets.environ.RuntimeEnv, _public_dataset: object, cols: Optional[List[str]] = None, join_keys: List[Tuple[str, str]] = []) -> object

参数

env
RuntimeEnv
必需

运行时环境。

_public_dataset
DataFrame
必需

公共数据集数据帧。

cols
list
默认值: None

要检索的列名列表。

join_keys
list
默认值: []

要使用的联接键的列表。

返回

公共数据集的新 DataFrame。

返回类型

属性

should_direct_join

should_direct_join = True