Udostępnij za pośrednictwem


Aggregator Klasa

Definiuje agregację dla określonych kolumn zidentyfikowanych przy użyciu kluczy sprzężenia.

Dziedziczenie
builtins.object
Aggregator

Konstruktor

Aggregator()

Uwagi

Agregatory zwykle nie są tworzone bezpośrednio. Zamiast tego określ typ agregatora podczas korzystania z wzbogacacza, takiego jak HolidayEnricher obiekt.

Pochodne agregatory obejmują AggregatorAll, , AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

Metoda process(env, customer_data, public_data, join_keys, debug) wykonuje agregację.

Metody

get_log_property

Pobierz krotkę właściwości dziennika, Brak, jeśli nie ma właściwości.

process

Customer_data sprzężenia lewego z public_data w join_keys.

Upuść wszystkie kolumny w join_keys i wszystkie kolumny, które znajdują się na liście to_be_cleaned_up_column_names później.

process_public_dataset

Wykonaj agregację dla określonych kolumn danych publicznych.

get_log_property

Pobierz krotkę właściwości dziennika, Brak, jeśli nie ma właściwości.

get_log_property()

process

Customer_data sprzężenia lewego z public_data w join_keys.

Upuść wszystkie kolumny w join_keys i wszystkie kolumny, które znajdują się na liście to_be_cleaned_up_column_names później.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametry

Nazwa Opis
env
Wymagane

Środowisko uruchomieniowe.

customer_data
Wymagane

Dane klienta.

public_data
Wymagane

Dane publiczne.

join_keys
Wymagane

Lista par kluczy sprzężenia.

debug
Wymagane

Wskazuje, czy mają być drukowane informacje o debugowaniu.

Zwraca

Typ Opis

Krotka klasy CustomerData ( nowe wystąpienie klasy CustomerData, niezmienione wystąpienie publicData, nowe dołączone wystąpienie klasy CustomerData, klucze sprzężenia (lista krotki))

process_public_dataset

Wykonaj agregację dla określonych kolumn danych publicznych.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametry

Nazwa Opis
env
Wymagane

Środowisko uruchomieniowe.

_public_dataset
Wymagane

Publiczna ramka danych zestawu danych.

cols

Lista nazw kolumn do pobrania.

wartość domyślna: None
join_keys

Lista kluczy sprzężenia do użycia.

wartość domyślna: []

Zwraca

Typ Opis

Nowa ramka danych publicznego zestawu danych.

Atrybuty

should_direct_join

should_direct_join = True