azureml-opendatasets Pakiet
Pakiety
opendatasets |
Zawiera funkcje korzystania z usługi Azure Open Datasets jako ramek danych i wzbogacania danych klientów. Usługa Azure Open Datasets to wyselekcjonowane publiczne zestawy danych, których można użyć do dodawania funkcji specyficznych dla scenariuszy do rozwiązań uczenia maszynowego w celu uzyskania bardziej dokładnych modeli. Te publiczne zestawy danych można przekonwertować na ramki danych Platformy Spark i biblioteki pandas z zastosowanymi filtrami. W przypadku niektórych zestawów danych można użyć wzbogacacza, aby połączyć dane publiczne z danymi. Możesz na przykład połączyć dane z danymi pogodowymi według długości geograficznej i szerokości geograficznej lub kodu pocztowego i czasu. W usłudze Azure Open Datasets znajdują się dane publicznej domeny dotyczące pogody, spisu, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Otwarte zestawy danych znajdują się w chmurze na platformie Microsoft Azure i są zintegrowane z usługą Azure Machine Learning. Aby uzyskać więcej informacji na temat pracy z usługą Azure Open Datasets, zobacz Tworzenie zestawów danych za pomocą usługi Azure Open Datasets. Aby uzyskać ogólne informacje na temat usługi Azure Open Datasets, zobacz dokumentację usługi Azure Open Datasets. |
Moduły
country_or_region_time_customer_data |
Dane klienta z kolumnami lokalizacji i godziny powinny być opakowane przy użyciu tej klasy. |
country_or_region_time_public_data |
Dane publiczne z kolumnami country_or_region i time można opakować za pomocą tej klasy. |
country_region_data |
Zawiera fucntionality do pracy z danymi lokalizacji, z obsługiwanymi klasami kolumn. |
customer_data |
Zawiera klasę bazową wszystkich danych klientów. |
location_data |
Zawiera funkcje pracy z danymi lokalizacji z obsługiwanymi klasami kolumn. |
location_time_customer_data |
Zawiera funkcje opakowujące dane klienta z kolumnami lokalizacji i czasu. |
location_time_public_data |
Zawiera funkcje opakowujące dane publiczne z kolumnami lokalizacji i godziny. |
open_dataset_base |
Klasa bazowa dla tabelarycznych otwartych zestawów danych. |
public_data |
Zawiera publiczną klasę bazową danych. |
time_data |
Zawiera funkcje reprezentujące dane czasu i powiązane operacje w zestawach opendataset. |
aggregator |
Definiuje klasę bazową dla wszystkich agregatorów. |
aggregator_all |
Zawiera agregator zawierający wszystkie kolumny, czyli gdy nie jest wykonywana agregacja. |
aggregator_avg |
Zawiera średnią klasę agregatora. |
aggregator_max |
Zawiera maksymalną klasę agregatora. |
aggregator_min |
Zawiera minimalną klasę agregatora. |
aggregator_top |
Zawiera najwyższą klasę agregatora. |
base_blob_info |
Zawiera klasę bazową informacji o obiekcie blob. |
blob_parquet_descriptor |
Zawiera deskryptor obiektów blob parquet. |
dataset_partition_prep |
Zawiera funkcje służące do określania przygotowywania partycji zestawu danych. Przygotowywanie partycji odbywa się automatycznie, gdy używasz opendatasets klasy, która wymaga partycji danych, takich jak NycTlcGreen klasa. |
pandas_data_load_limit |
Zawiera funkcje do kontrolowania sposobu ładowania danych biblioteki pandas w przypadku dużych plików parquet. Korzystając z funkcji tego modułu, można określić, jak ograniczyć sposób ładowania danych biblioteki pandas, gdy pliki parquet są zbyt duże do załadowania. |
common_weather_enricher |
Zawiera funkcje wzbogacania danych niestandardowych za pomocą danych publicznych o pogodę. |
enricher |
Definiuje klasę ogólnego wzbogacacza do łączenia danych z różnymi stopniami szczegółowości i agregatorami. Ten moduł zawiera przeciążenia funkcji statycznych: |
holiday_enricher |
Zawiera funkcje wzbogacania danych niestandardowych przy użyciu danych publicznych dni wolnych. |
environ |
Definiuje klasy środowiska uruchomieniowego, w których są używane usługi Azure Open Datasets. Klasy w tym module zapewniają, że funkcje usługi Azure Open Datasets są zoptymalizowane pod kątem różnych środowisk.
Ogólnie rzecz biorąc, nie trzeba wykonywać wystąpień tych klas środowiska ani martwić się o ich implementację.
Zamiast tego użyj funkcji modułu |
granularity |
Zawiera definicje szczegółowości dla czasu i lokalizacji. Stopień szczegółowości są zorganizowane w następujący sposób: Możesz pracować z dokładnością, określając ją w funkcji wzbogacającej. Na przykład w przypadku używania HolidayEnricher metod klasy do wzbogacania danych należy określić TimeGranularity parametr wejściowy dla metody . |
country_region_selector |
Zawiera klasę selektora regionów kraju. |
enricher_selector |
Zawiera klasy podstawowe selektorów lokalizacji i czasu. Istnieją dwie podklasy obiektu EnricherSelector:
Jest EnricherSelector to klasa główna klasy LocationClosestSelector i TimeNearestSelector. |
location_closest_selector |
Zawiera lokalizację najbliższej klasy selektora. |
time_nearest_selector |
Zawiera klasę selektora czasu najbliższego. |
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla