Aggregator Classe

Référence

Définit une agrégation par rapport aux colonnes spécifiées identifiées par des clés de jointure.

Héritage: builtins.object

Aggregator

Constructeur

Aggregator()

Remarques

En règle générale, les agrégateurs ne sont pas instanciés directement. À la place, spécifiez le type d’agrégateur quand vous utilisez un enrichisseur tel que l’objet HolidayEnricher.

Les agrégateurs dérivés incluent AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin et AggregatorTop.

La méthode process(env, customer_data, public_data, join_keys, debug) effectue l’agrégation.

Méthodes

get_log_property

Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.

process

Customer_data de jointure gauche avec public_data sur join_keys.

Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.

process_public_dataset

Effectue une agrégation sur les colonnes de données publiques spécifiées.

get_log_property

Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.

get_log_property()

process

Customer_data de jointure gauche avec public_data sur join_keys.

Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Paramètres

Nom	Description
env Obligatoire	RuntimeEnv Environnement d’exécution.
customer_data Obligatoire	CustomerData Données client.
public_data Obligatoire	PublicData Données publiques.
join_keys Obligatoire	list[tuple] Liste de paires de clés de jointure.
debug Obligatoire	bool Indique s’il est nécessaire d’imprimer les informations de débogage.

Retours

Type	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Un tuple de ( une nouvelle instance de la classe CustomerData, une instance inchangée de PublicData, une nouvelle instance jointe de la classe CustomerData, des clés de jointure (liste de tuples))

process_public_dataset

Effectue une agrégation sur les colonnes de données publiques spécifiées.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Paramètres

Nom	Description
env Obligatoire	RuntimeEnv Environnement d’exécution.
_public_dataset Obligatoire	DataFrame Trame de données du jeu de données public.
cols	list Liste des noms de colonnes à récupérer. valeur par défaut: None
join_keys	list Liste des clés de jointure à utiliser. valeur par défaut: []

Retours

Type	Description
object	Nouvelle trame de données du jeu de données public.

Attributs

should_direct_join

should_direct_join = True

Share via

Aggregator Classe

Constructeur

Remarques

Méthodes

get_log_property

process

Paramètres

Retours

process_public_dataset

Paramètres

Retours

Attributs

should_direct_join

Commentaires

Commentaires

Ressources supplémentaires