azureml-opendatasets Balíček

Reference

Balíčky

Obsahuje funkce pro využívání datových sad Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.

Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje spojit veřejná data s vašimi daty. Data můžete například spojit s daty o počasí podle zeměpisné délky a zeměpisné šířky nebo PSČ a času.

Součástí datových sad Azure Open Datasets jsou data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která vám pomůžou trénovat modely strojového učení a obohacovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do Služby Azure Machine Learning. Další informace o práci s Otevřenými datovými sadami Azure najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.

Obecné informace o otevřených datových sadách Azure najdete v dokumentaci k Azure Open Datasets.

Moduly

country_or_region_time_customer_data	Zákaznická data se sloupci umístění a času by měla být zabalena pomocí této třídy.
country_or_region_time_public_data	Veřejná data se sloupci country_or_region a časem mohou být zabalena s touto třídou.
country_region_data	Obsahuje fucntionalitu pro práci s daty o poloze s podporovanými třídami sloupců.
customer_data	Obsahuje základní třídu všech zákaznických dat.
location_data	Obsahuje funkce pro práci s daty o poloze s podporovanými třídami sloupců.
location_time_customer_data	Obsahuje funkci pro zabalení zákaznických dat se sloupci umístění a času.
location_time_public_data	Obsahuje funkci pro zabalení veřejných dat se sloupci umístění a času.
open_dataset_base	Základní třída pro tabulkové otevřené datové sady.
public_data	Obsahuje třídu veřejné datové báze.
time_data	Obsahuje funkce pro reprezentaci časových dat a souvisejících operací v otevřených datových sadách.
aggregator	Definuje základní třídu pro všechny agregátory.
aggregator_all	Obsahuje agregátor pro zahrnutí všech sloupců, to znamená, že se neprovádí žádná agregace.
aggregator_avg	Obsahuje průměrnou třídu agregátoru.
aggregator_max	Obsahuje třídu max agregátoru.
aggregator_min	Obsahuje min. třídu agregátoru.
aggregator_top	Obsahuje nejvyšší třídu agregátoru.
base_blob_info	Obsahuje základní třídu informací o objektech blob.
blob_parquet_descriptor	Obsahuje popisovač objektů blob parquet.
dataset_partition_prep	Obsahuje funkci pro zadání přípravy oddílu datové sady. K přípravě oddílu dojde automaticky, když použijete opendatasets třídu, která vyžaduje oddíl dat, například NycTlcGreen třídu.
pandas_data_load_limit	Obsahuje funkci, která určuje, jak se limit dat knihovny pandas načítá, když jsou soubory parquet velké. Pomocí funkcí tohoto modulu můžete určit, jak omezit způsob načítání dat pandas, když jsou soubory parquet příliš velké pro načtení.
common_weather_enricher	Obsahuje funkci pro rozšiřování vlastních dat o veřejné údaje o počasí.
enricher	Definuje obecnou třídu enricheru pro spojování dat s různými členitostmi a agregátory. Tento modul obsahuje přetížení statických funkcí: `get_max_date_by_granularity(max_date, granularity)` kde členitost je jedno z MonthGranularity, DayGranularitynebo HourGranularity. Tyto statické metody vrací maximální počet dat na základě zadané členitosti.
holiday_enricher	Obsahuje funkci pro rozšiřování vlastních dat o sváteční veřejná data.
environ	Definuje třídy prostředí runtime, ve kterých se používají otevřené datové sady Azure. Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí. Obecně platí, že tyto třídy prostředí nemusíte vytvářet instance ani se starat o jejich implementaci. Místo toho použijte `get_environ` k vrácení prostředí funkci modulu.
granularity	Obsahuje definice členitosti pro čas a umístění. Členitosti jsou uspořádané takto: LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity S členitostí pracujete tak, že ji zadáte ve funkci rozšiřujícího nástroje. Pokud například používáte HolidayEnricher metody třídy k obohacení dat, zadejte TimeGranularity jako vstupní parametr pro metodu .
country_region_selector	Obsahuje třídu výběru oblasti země.
enricher_selector	Obsahuje základní třídy pro selektory polohy a času. Existují dvě podtřídy EnricherSelector: EnricherLocationSelector - poskytuje základní výpočty sférické vzdálenosti. EnricherTimeSelector - poskytuje `round_to` funkce obálky. Je EnricherSelector kořenová třída a LocationClosestSelector TimeNearestSelector.
location_closest_selector	Obsahuje nejbližší třídu selektoru umístění.
time_nearest_selector	Obsahuje třídu selektoru nejbližšího času.

azureml-opendatasets Balíček

Balíčky

Moduly

Váš názor

Váš názor

Další materiály