azureml-opendatasets Balíček
Balíčky
opendatasets |
Obsahuje funkce pro využívání datových sad Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat. Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje spojit veřejná data s vašimi daty. Data můžete například spojit s daty o počasí podle zeměpisné délky a zeměpisné šířky nebo PSČ a času. Součástí datových sad Azure Open Datasets jsou data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která vám pomůžou trénovat modely strojového učení a obohacovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do Služby Azure Machine Learning. Další informace o práci s Otevřenými datovými sadami Azure najdete v tématu Vytváření datových sad pomocí Azure Open Datasets. Obecné informace o otevřených datových sadách Azure najdete v dokumentaci k Azure Open Datasets. |
Moduly
country_or_region_time_customer_data |
Zákaznická data se sloupci umístění a času by měla být zabalena pomocí této třídy. |
country_or_region_time_public_data |
Veřejná data se sloupci country_or_region a časem mohou být zabalena s touto třídou. |
country_region_data |
Obsahuje fucntionalitu pro práci s daty o poloze s podporovanými třídami sloupců. |
customer_data |
Obsahuje základní třídu všech zákaznických dat. |
location_data |
Obsahuje funkce pro práci s daty o poloze s podporovanými třídami sloupců. |
location_time_customer_data |
Obsahuje funkci pro zabalení zákaznických dat se sloupci umístění a času. |
location_time_public_data |
Obsahuje funkci pro zabalení veřejných dat se sloupci umístění a času. |
open_dataset_base |
Základní třída pro tabulkové otevřené datové sady. |
public_data |
Obsahuje třídu veřejné datové báze. |
time_data |
Obsahuje funkce pro reprezentaci časových dat a souvisejících operací v otevřených datových sadách. |
aggregator |
Definuje základní třídu pro všechny agregátory. |
aggregator_all |
Obsahuje agregátor pro zahrnutí všech sloupců, to znamená, že se neprovádí žádná agregace. |
aggregator_avg |
Obsahuje průměrnou třídu agregátoru. |
aggregator_max |
Obsahuje třídu max agregátoru. |
aggregator_min |
Obsahuje min. třídu agregátoru. |
aggregator_top |
Obsahuje nejvyšší třídu agregátoru. |
base_blob_info |
Obsahuje základní třídu informací o objektech blob. |
blob_parquet_descriptor |
Obsahuje popisovač objektů blob parquet. |
dataset_partition_prep |
Obsahuje funkci pro zadání přípravy oddílu datové sady. K přípravě oddílu dojde automaticky, když použijete opendatasets třídu, která vyžaduje oddíl dat, například NycTlcGreen třídu. |
pandas_data_load_limit |
Obsahuje funkci, která určuje, jak se limit dat knihovny pandas načítá, když jsou soubory parquet velké. Pomocí funkcí tohoto modulu můžete určit, jak omezit způsob načítání dat pandas, když jsou soubory parquet příliš velké pro načtení. |
common_weather_enricher |
Obsahuje funkci pro rozšiřování vlastních dat o veřejné údaje o počasí. |
enricher |
Definuje obecnou třídu enricheru pro spojování dat s různými členitostmi a agregátory. Tento modul obsahuje přetížení statických funkcí: |
holiday_enricher |
Obsahuje funkci pro rozšiřování vlastních dat o sváteční veřejná data. |
environ |
Definuje třídy prostředí runtime, ve kterých se používají otevřené datové sady Azure. Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí.
Obecně platí, že tyto třídy prostředí nemusíte vytvářet instance ani se starat o jejich implementaci.
Místo toho použijte |
granularity |
Obsahuje definice členitosti pro čas a umístění. Členitosti jsou uspořádané takto: S členitostí pracujete tak, že ji zadáte ve funkci rozšiřujícího nástroje. Pokud například používáte HolidayEnricher metody třídy k obohacení dat, zadejte TimeGranularity jako vstupní parametr pro metodu . |
country_region_selector |
Obsahuje třídu výběru oblasti země. |
enricher_selector |
Obsahuje základní třídy pro selektory polohy a času. Existují dvě podtřídy EnricherSelector:
Je EnricherSelector kořenová třída a LocationClosestSelectorTimeNearestSelector. |
location_closest_selector |
Obsahuje nejbližší třídu selektoru umístění. |
time_nearest_selector |
Obsahuje třídu selektoru nejbližšího času. |
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro