azureml-opendatasets Balíček

Balíčky

opendatasets

Obsahuje funkce pro využívání datových sad Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.

Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje spojit veřejná data s vašimi daty. Data můžete například spojit s daty o počasí podle zeměpisné délky a zeměpisné šířky nebo PSČ a času.

Součástí datových sad Azure Open Datasets jsou data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která vám pomůžou trénovat modely strojového učení a obohacovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do Služby Azure Machine Learning. Další informace o práci s Otevřenými datovými sadami Azure najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.

Obecné informace o otevřených datových sadách Azure najdete v dokumentaci k Azure Open Datasets.

Moduly

country_or_region_time_customer_data

Zákaznická data se sloupci umístění a času by měla být zabalena pomocí této třídy.

country_or_region_time_public_data

Veřejná data se sloupci country_or_region a časem mohou být zabalena s touto třídou.

country_region_data

Obsahuje fucntionalitu pro práci s daty o poloze s podporovanými třídami sloupců.

customer_data

Obsahuje základní třídu všech zákaznických dat.

location_data

Obsahuje funkce pro práci s daty o poloze s podporovanými třídami sloupců.

location_time_customer_data

Obsahuje funkci pro zabalení zákaznických dat se sloupci umístění a času.

location_time_public_data

Obsahuje funkci pro zabalení veřejných dat se sloupci umístění a času.

open_dataset_base

Základní třída pro tabulkové otevřené datové sady.

public_data

Obsahuje třídu veřejné datové báze.

time_data

Obsahuje funkce pro reprezentaci časových dat a souvisejících operací v otevřených datových sadách.

aggregator

Definuje základní třídu pro všechny agregátory.

aggregator_all

Obsahuje agregátor pro zahrnutí všech sloupců, to znamená, že se neprovádí žádná agregace.

aggregator_avg

Obsahuje průměrnou třídu agregátoru.

aggregator_max

Obsahuje třídu max agregátoru.

aggregator_min

Obsahuje min. třídu agregátoru.

aggregator_top

Obsahuje nejvyšší třídu agregátoru.

base_blob_info

Obsahuje základní třídu informací o objektech blob.

blob_parquet_descriptor

Obsahuje popisovač objektů blob parquet.

dataset_partition_prep

Obsahuje funkci pro zadání přípravy oddílu datové sady.

K přípravě oddílu dojde automaticky, když použijete opendatasets třídu, která vyžaduje oddíl dat, například NycTlcGreen třídu.

pandas_data_load_limit

Obsahuje funkci, která určuje, jak se limit dat knihovny pandas načítá, když jsou soubory parquet velké.

Pomocí funkcí tohoto modulu můžete určit, jak omezit způsob načítání dat pandas, když jsou soubory parquet příliš velké pro načtení.

common_weather_enricher

Obsahuje funkci pro rozšiřování vlastních dat o veřejné údaje o počasí.

enricher

Definuje obecnou třídu enricheru pro spojování dat s různými členitostmi a agregátory.

Tento modul obsahuje přetížení statických funkcí: get_max_date_by_granularity(max_date, granularity) kde členitost je jedno z MonthGranularity, DayGranularitynebo HourGranularity. Tyto statické metody vrací maximální počet dat na základě zadané členitosti.

holiday_enricher

Obsahuje funkci pro rozšiřování vlastních dat o sváteční veřejná data.

environ

Definuje třídy prostředí runtime, ve kterých se používají otevřené datové sady Azure.

Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí. Obecně platí, že tyto třídy prostředí nemusíte vytvářet instance ani se starat o jejich implementaci. Místo toho použijte get_environ k vrácení prostředí funkci modulu.

granularity

Obsahuje definice členitosti pro čas a umístění.

Členitosti jsou uspořádané takto:

S členitostí pracujete tak, že ji zadáte ve funkci rozšiřujícího nástroje. Pokud například používáte HolidayEnricher metody třídy k obohacení dat, zadejte TimeGranularity jako vstupní parametr pro metodu .

country_region_selector

Obsahuje třídu výběru oblasti země.

enricher_selector

Obsahuje základní třídy pro selektory polohy a času.

Existují dvě podtřídy EnricherSelector:

Je EnricherSelector kořenová třída a LocationClosestSelectorTimeNearestSelector.

location_closest_selector

Obsahuje nejbližší třídu selektoru umístění.

time_nearest_selector

Obsahuje třídu selektoru nejbližšího času.