azureml-opendatasets Pakiet

Pakiety

opendatasets

Zawiera funkcje korzystania z usługi Azure Open Datasets jako ramek danych i wzbogacania danych klientów.

Usługa Azure Open Datasets to wyselekcjonowane publiczne zestawy danych, których można użyć do dodawania funkcji specyficznych dla scenariuszy do rozwiązań uczenia maszynowego w celu uzyskania bardziej dokładnych modeli. Te publiczne zestawy danych można przekonwertować na ramki danych Platformy Spark i biblioteki pandas z zastosowanymi filtrami. W przypadku niektórych zestawów danych można użyć wzbogacacza, aby połączyć dane publiczne z danymi. Możesz na przykład połączyć dane z danymi pogodowymi według długości geograficznej i szerokości geograficznej lub kodu pocztowego i czasu.

W usłudze Azure Open Datasets znajdują się dane publicznej domeny dotyczące pogody, spisu, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Otwarte zestawy danych znajdują się w chmurze na platformie Microsoft Azure i są zintegrowane z usługą Azure Machine Learning. Aby uzyskać więcej informacji na temat pracy z usługą Azure Open Datasets, zobacz Tworzenie zestawów danych za pomocą usługi Azure Open Datasets.

Aby uzyskać ogólne informacje na temat usługi Azure Open Datasets, zobacz dokumentację usługi Azure Open Datasets.

Moduły

country_or_region_time_customer_data

Dane klienta z kolumnami lokalizacji i godziny powinny być opakowane przy użyciu tej klasy.

country_or_region_time_public_data

Dane publiczne z kolumnami country_or_region i time można opakować za pomocą tej klasy.

country_region_data

Zawiera fucntionality do pracy z danymi lokalizacji, z obsługiwanymi klasami kolumn.

customer_data

Zawiera klasę bazową wszystkich danych klientów.

location_data

Zawiera funkcje pracy z danymi lokalizacji z obsługiwanymi klasami kolumn.

location_time_customer_data

Zawiera funkcje opakowujące dane klienta z kolumnami lokalizacji i czasu.

location_time_public_data

Zawiera funkcje opakowujące dane publiczne z kolumnami lokalizacji i godziny.

open_dataset_base

Klasa bazowa dla tabelarycznych otwartych zestawów danych.

public_data

Zawiera publiczną klasę bazową danych.

time_data

Zawiera funkcje reprezentujące dane czasu i powiązane operacje w zestawach opendataset.

aggregator

Definiuje klasę bazową dla wszystkich agregatorów.

aggregator_all

Zawiera agregator zawierający wszystkie kolumny, czyli gdy nie jest wykonywana agregacja.

aggregator_avg

Zawiera średnią klasę agregatora.

aggregator_max

Zawiera maksymalną klasę agregatora.

aggregator_min

Zawiera minimalną klasę agregatora.

aggregator_top

Zawiera najwyższą klasę agregatora.

base_blob_info

Zawiera klasę bazową informacji o obiekcie blob.

blob_parquet_descriptor

Zawiera deskryptor obiektów blob parquet.

dataset_partition_prep

Zawiera funkcje służące do określania przygotowywania partycji zestawu danych.

Przygotowywanie partycji odbywa się automatycznie, gdy używasz opendatasets klasy, która wymaga partycji danych, takich jak NycTlcGreen klasa.

pandas_data_load_limit

Zawiera funkcje do kontrolowania sposobu ładowania danych biblioteki pandas w przypadku dużych plików parquet.

Korzystając z funkcji tego modułu, można określić, jak ograniczyć sposób ładowania danych biblioteki pandas, gdy pliki parquet są zbyt duże do załadowania.

common_weather_enricher

Zawiera funkcje wzbogacania danych niestandardowych za pomocą danych publicznych o pogodę.

enricher

Definiuje klasę ogólnego wzbogacacza do łączenia danych z różnymi stopniami szczegółowości i agregatorami.

Ten moduł zawiera przeciążenia funkcji statycznych: get_max_date_by_granularity(max_date, granularity) gdzie stopień szczegółowości jest jednym z MonthGranularity, DayGranularitylub HourGranularity. Te metody statyczne zwracają maksymalne dane na podstawie określonego stopnia szczegółowości.

holiday_enricher

Zawiera funkcje wzbogacania danych niestandardowych przy użyciu danych publicznych dni wolnych.

environ

Definiuje klasy środowiska uruchomieniowego, w których są używane usługi Azure Open Datasets.

Klasy w tym module zapewniają, że funkcje usługi Azure Open Datasets są zoptymalizowane pod kątem różnych środowisk. Ogólnie rzecz biorąc, nie trzeba wykonywać wystąpień tych klas środowiska ani martwić się o ich implementację. Zamiast tego użyj funkcji modułu get_environ , aby zwrócić środowisko.

granularity

Zawiera definicje szczegółowości dla czasu i lokalizacji.

Stopień szczegółowości są zorganizowane w następujący sposób:

Możesz pracować z dokładnością, określając ją w funkcji wzbogacającej. Na przykład w przypadku używania HolidayEnricher metod klasy do wzbogacania danych należy określić TimeGranularity parametr wejściowy dla metody .

country_region_selector

Zawiera klasę selektora regionów kraju.

enricher_selector

Zawiera klasy podstawowe selektorów lokalizacji i czasu.

Istnieją dwie podklasy obiektu EnricherSelector:

Jest EnricherSelector to klasa główna klasy LocationClosestSelector i TimeNearestSelector.

location_closest_selector

Zawiera lokalizację najbliższej klasy selektora.

time_nearest_selector

Zawiera klasę selektora czasu najbliższego.