Aggregator 类
针对使用联接键标识的指定列定义聚合。
- 继承
-
builtins.objectAggregator
构造函数
Aggregator()
注解
通常不会直接实例化聚合器。 而是在使用扩充器(如 HolidayEnricher 对象)时指定聚合器的类型。
派生的聚合器包括 AggregatorAll、AggregatorAvg、AggregatorMax、AggregatorMin、AggregatorTop。
process(env, customer_data, public_data, join_keys, debug)方法执行聚合。
方法
| get_log_property |
获取日志属性元组,如果没有属性,则获取 None。 |
| process |
在 join_keys 上执行 customer_data 和 public_data 的左联接。 删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。 |
| process_public_dataset |
对指定的公共数据列执行聚合。 |
get_log_property
获取日志属性元组,如果没有属性,则获取 None。
get_log_property()
process
在 join_keys 上执行 customer_data 和 public_data 的左联接。
删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。
process(env: Union[azureml.opendatasets.environ.SparkEnv, azureml.opendatasets.environ.PandasEnv], customer_data: azureml.opendatasets.accessories.customer_data.CustomerData, public_data: azureml.opendatasets.accessories.public_data.PublicData, join_keys: list, debug: bool)
参数
返回
(CustomerData 类的一个新实例,PublicData 的不变实例,CustomerData 类的一个新加入的实例,联接键(元组的列表))的一个元组
返回类型
process_public_dataset
对指定的公共数据列执行聚合。
process_public_dataset(env: azureml.opendatasets.environ.RuntimeEnv, _public_dataset: object, cols: Optional[List[str]] = None, join_keys: List[Tuple[str, str]] = []) -> object
参数
返回
公共数据集的新 DataFrame。
返回类型
属性
should_direct_join
should_direct_join = True
反馈
提交和查看相关反馈