azureml-opendatasets Pakiet

Odwołanie

Pakiety

Zawiera funkcje korzystania z usługi Azure Open Datasets jako ramek danych i wzbogacania danych klientów.

Usługa Azure Open Datasets to wyselekcjonowane publiczne zestawy danych, których można użyć do dodawania funkcji specyficznych dla scenariuszy do rozwiązań uczenia maszynowego w celu uzyskania bardziej dokładnych modeli. Te publiczne zestawy danych można przekonwertować na ramki danych Platformy Spark i biblioteki pandas z zastosowanymi filtrami. W przypadku niektórych zestawów danych można użyć wzbogacacza, aby połączyć dane publiczne z danymi. Możesz na przykład połączyć dane z danymi pogodowymi według długości geograficznej i szerokości geograficznej lub kodu pocztowego i czasu.

W usłudze Azure Open Datasets znajdują się dane publicznej domeny dotyczące pogody, spisu, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Otwarte zestawy danych znajdują się w chmurze na platformie Microsoft Azure i są zintegrowane z usługą Azure Machine Learning. Aby uzyskać więcej informacji na temat pracy z usługą Azure Open Datasets, zobacz Tworzenie zestawów danych za pomocą usługi Azure Open Datasets.

Aby uzyskać ogólne informacje na temat usługi Azure Open Datasets, zobacz dokumentację usługi Azure Open Datasets.

Moduły

country_or_region_time_customer_data	Dane klienta z kolumnami lokalizacji i godziny powinny być opakowane przy użyciu tej klasy.
country_or_region_time_public_data	Dane publiczne z kolumnami country_or_region i time można opakować za pomocą tej klasy.
country_region_data	Zawiera fucntionality do pracy z danymi lokalizacji, z obsługiwanymi klasami kolumn.
customer_data	Zawiera klasę bazową wszystkich danych klientów.
location_data	Zawiera funkcje pracy z danymi lokalizacji z obsługiwanymi klasami kolumn.
location_time_customer_data	Zawiera funkcje opakowujące dane klienta z kolumnami lokalizacji i czasu.
location_time_public_data	Zawiera funkcje opakowujące dane publiczne z kolumnami lokalizacji i godziny.
open_dataset_base	Klasa bazowa dla tabelarycznych otwartych zestawów danych.
public_data	Zawiera publiczną klasę bazową danych.
time_data	Zawiera funkcje reprezentujące dane czasu i powiązane operacje w zestawach opendataset.
aggregator	Definiuje klasę bazową dla wszystkich agregatorów.
aggregator_all	Zawiera agregator zawierający wszystkie kolumny, czyli gdy nie jest wykonywana agregacja.
aggregator_avg	Zawiera średnią klasę agregatora.
aggregator_max	Zawiera maksymalną klasę agregatora.
aggregator_min	Zawiera minimalną klasę agregatora.
aggregator_top	Zawiera najwyższą klasę agregatora.
base_blob_info	Zawiera klasę bazową informacji o obiekcie blob.
blob_parquet_descriptor	Zawiera deskryptor obiektów blob parquet.
dataset_partition_prep	Zawiera funkcje służące do określania przygotowywania partycji zestawu danych. Przygotowywanie partycji odbywa się automatycznie, gdy używasz opendatasets klasy, która wymaga partycji danych, takich jak NycTlcGreen klasa.
pandas_data_load_limit	Zawiera funkcje do kontrolowania sposobu ładowania danych biblioteki pandas w przypadku dużych plików parquet. Korzystając z funkcji tego modułu, można określić, jak ograniczyć sposób ładowania danych biblioteki pandas, gdy pliki parquet są zbyt duże do załadowania.
common_weather_enricher	Zawiera funkcje wzbogacania danych niestandardowych za pomocą danych publicznych o pogodę.
enricher	Definiuje klasę ogólnego wzbogacacza do łączenia danych z różnymi stopniami szczegółowości i agregatorami. Ten moduł zawiera przeciążenia funkcji statycznych: `get_max_date_by_granularity(max_date, granularity)` gdzie stopień szczegółowości jest jednym z MonthGranularity, DayGranularitylub HourGranularity. Te metody statyczne zwracają maksymalne dane na podstawie określonego stopnia szczegółowości.
holiday_enricher	Zawiera funkcje wzbogacania danych niestandardowych przy użyciu danych publicznych dni wolnych.
environ	Definiuje klasy środowiska uruchomieniowego, w których są używane usługi Azure Open Datasets. Klasy w tym module zapewniają, że funkcje usługi Azure Open Datasets są zoptymalizowane pod kątem różnych środowisk. Ogólnie rzecz biorąc, nie trzeba wykonywać wystąpień tych klas środowiska ani martwić się o ich implementację. Zamiast tego użyj funkcji modułu `get_environ` , aby zwrócić środowisko.
granularity	Zawiera definicje szczegółowości dla czasu i lokalizacji. Stopień szczegółowości są zorganizowane w następujący sposób: LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity Możesz pracować z dokładnością, określając ją w funkcji wzbogacającej. Na przykład w przypadku używania HolidayEnricher metod klasy do wzbogacania danych należy określić TimeGranularity parametr wejściowy dla metody .
country_region_selector	Zawiera klasę selektora regionów kraju.
enricher_selector	Zawiera klasy podstawowe selektorów lokalizacji i czasu. Istnieją dwie podklasy obiektu EnricherSelector: EnricherLocationSelector - zapewnia podstawowe obliczenia odległości sferycznej. EnricherTimeSelector — udostępnia `round_to` funkcje otoki. Jest EnricherSelector to klasa główna klasy LocationClosestSelector i TimeNearestSelector.
location_closest_selector	Zawiera lokalizację najbliższej klasy selektora.
time_nearest_selector	Zawiera klasę selektora czasu najbliższego.

azureml-opendatasets Pakiet

Pakiety

Moduły

Opinia

Opinia

Dodatkowe zasoby