azureml-opendatasets 套件

套件

opendatasets

包含使用 Azure 開放資料集作為資料框架以及擴充客戶資料的功能。

Azure 開放資料集是策劃的公用資料集,您可以使用這些公用資料集,將案例專有的功能新增至機器學習解決方案,以獲得更準確的模型。 您可以將這些公用資料集轉換成已套用篩選的 Spark 和 pandas 資料框架。 對於某些資料集,您可以使用擴充器來聯結公用資料與您的資料。 例如,您可以依經度和緯度或郵遞區號和時間,聯結資料與天氣資料。

Azure 開放資料集包含天氣、人口普查、假日、公用安全及位置的公用領域資料,可協助您定型機器學習模型並擴充預測解決方案。 開放式資料集位於 Microsoft Azure 上的雲端,並已整合到 Azure Machine Learning 中。 如需使用 Azure 開放資料集的詳細資訊,請參閱 使用 Azure 開放資料集建立資料集

如需 Azure 開放資料集的一般資訊,請參閱 Azure 開放資料集檔

單元

country_or_region_time_customer_data

具有位置和時間資料行的客戶資料應該使用此類別來包裝。

country_or_region_time_public_data

具有country_or_region和時間資料行的公用資料可以使用這個類別包裝。

country_region_data

包含使用位置資料的模糊性,以及支援的資料行類別。

customer_data

包含所有客戶資料的基類。

location_data

包含使用位置資料的功能,以及支援的資料行類別。

location_time_customer_data

包含使用位置和時間資料行包裝客戶資料的功能。

location_time_public_data

包含以位置和時間資料行包裝公用資料的功能。

open_dataset_base

表格式開啟資料集的基類。

public_data

包含公用資料基類。

time_data

包含用來表示 opendataset 中時間資料和相關作業的功能。

aggregator

定義所有匯總工具的基類。

aggregator_all

包含包含所有資料行的匯總工具,也就是未執行匯總時。

aggregator_avg

包含匯總工具平均類別。

aggregator_max

包含匯總工具 max 類別。

aggregator_min

包含匯總工具 min 類別。

aggregator_top

包含匯總工具最上層類別。

base_blob_info

包含 Blob 資訊基類。

blob_parquet_descriptor

包含 Blob parquet 的描述項。

dataset_partition_prep

包含指定資料集資料分割準備的功能。

當您使用 opendatasets 需要資料分割的類別時,例如 類別,就會 NycTlcGreen 自動進行資料分割準備。

pandas_data_load_limit

包含可控制在 parquet 檔案很大時,pandas 資料載入限制的功能。

透過本課程模組的功能,您可以指定如何在 Parquet 檔案太大而無法載入時限制 pandas 資料載入的方式。

common_weather_enricher

包含使用天氣公用資料擴充自訂資料的功能。

enricher

定義泛型擴充器類別,以將具有不同細微性和匯總工具的資料聯結在一起。

此模組包含靜態函式多載: get_max_date_by_granularity(max_date, granularity) 其中細微性是 、 DayGranularityHourGranularityMonthGranularity 其中一個。 這些靜態方法會根據指定的細微性傳回最大資料。

holiday_enricher

包含使用假日公用資料擴充自訂資料的功能。

environ

定義使用 Azure 開放資料集的執行時間環境類別。

本課程模組中的類別可確保 Azure 開放資料集功能已針對不同的環境優化。 一般而言,您不需要具現化這些環境類別,或擔心其實作。 請改用 get_environ 模組函式傳回環境。

granularity

包含時間與位置的資料細微性定義。

資料細微性的組織方式如下:

您可以在擴充函式中指定資料細微性,藉此處理資料細微性。 例如,使用 HolidayEnricher 類別方法來擴充資料時,請將 指定 TimeGranularity 為 方法的輸入參數。

country_region_selector

包含國家/地區選取器類別。

enricher_selector

包含位置和時間選取器的基類。

EnricherSelector 有兩個子類別:

EnricherSelector是 和 TimeNearestSelectorLocationClosestSelector 根類別。

location_closest_selector

包含最接近選取器類別的位置。

time_nearest_selector

包含最接近選取器類別的時間。