Share via


Aggregator Classe

Définit une agrégation par rapport aux colonnes spécifiées identifiées par des clés de jointure.

Héritage
builtins.object
Aggregator

Constructeur

Aggregator()

Remarques

En règle générale, les agrégateurs ne sont pas instanciés directement. À la place, spécifiez le type d’agrégateur quand vous utilisez un enrichisseur tel que l’objet HolidayEnricher.

Les agrégateurs dérivés incluent AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin et AggregatorTop.

La méthode process(env, customer_data, public_data, join_keys, debug) effectue l’agrégation.

Méthodes

get_log_property

Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.

process

Customer_data de jointure gauche avec public_data sur join_keys.

Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.

process_public_dataset

Effectue une agrégation sur les colonnes de données publiques spécifiées.

get_log_property

Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.

get_log_property()

process

Customer_data de jointure gauche avec public_data sur join_keys.

Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Paramètres

Nom Description
env
Obligatoire

Environnement d’exécution.

customer_data
Obligatoire

Données client.

public_data
Obligatoire

Données publiques.

join_keys
Obligatoire

Liste de paires de clés de jointure.

debug
Obligatoire

Indique s’il est nécessaire d’imprimer les informations de débogage.

Retours

Type Description

Un tuple de ( une nouvelle instance de la classe CustomerData, une instance inchangée de PublicData, une nouvelle instance jointe de la classe CustomerData, des clés de jointure (liste de tuples))

process_public_dataset

Effectue une agrégation sur les colonnes de données publiques spécifiées.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Paramètres

Nom Description
env
Obligatoire

Environnement d’exécution.

_public_dataset
Obligatoire

Trame de données du jeu de données public.

cols

Liste des noms de colonnes à récupérer.

valeur par défaut: None
join_keys

Liste des clés de jointure à utiliser.

valeur par défaut: []

Retours

Type Description

Nouvelle trame de données du jeu de données public.

Attributs

should_direct_join

should_direct_join = True