Aggregator Classe
Définit une agrégation par rapport aux colonnes spécifiées identifiées par des clés de jointure.
- Héritage
-
builtins.objectAggregator
Constructeur
Aggregator()
Remarques
En règle générale, les agrégateurs ne sont pas instanciés directement. À la place, spécifiez le type d’agrégateur quand vous utilisez un enrichisseur tel que l’objet HolidayEnricher.
Les agrégateurs dérivés incluent AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin et AggregatorTop.
La méthode process(env, customer_data, public_data, join_keys, debug)
effectue l’agrégation.
Méthodes
get_log_property |
Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété. |
process |
Customer_data de jointure gauche avec public_data sur join_keys. Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite. |
process_public_dataset |
Effectue une agrégation sur les colonnes de données publiques spécifiées. |
get_log_property
Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.
get_log_property()
process
Customer_data de jointure gauche avec public_data sur join_keys.
Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Paramètres
Nom | Description |
---|---|
env
Obligatoire
|
Environnement d’exécution. |
customer_data
Obligatoire
|
Données client. |
public_data
Obligatoire
|
Données publiques. |
join_keys
Obligatoire
|
Liste de paires de clés de jointure. |
debug
Obligatoire
|
Indique s’il est nécessaire d’imprimer les informations de débogage. |
Retours
Type | Description |
---|---|
Un tuple de ( une nouvelle instance de la classe CustomerData, une instance inchangée de PublicData, une nouvelle instance jointe de la classe CustomerData, des clés de jointure (liste de tuples)) |
process_public_dataset
Effectue une agrégation sur les colonnes de données publiques spécifiées.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Paramètres
Nom | Description |
---|---|
env
Obligatoire
|
Environnement d’exécution. |
_public_dataset
Obligatoire
|
Trame de données du jeu de données public. |
cols
|
Liste des noms de colonnes à récupérer. valeur par défaut: None
|
join_keys
|
Liste des clés de jointure à utiliser. valeur par défaut: []
|
Retours
Type | Description |
---|---|
Nouvelle trame de données du jeu de données public. |
Attributs
should_direct_join
should_direct_join = True
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour