azureml-opendatasets 套件
套件
opendatasets |
包含使用 Azure 開放資料集作為資料框架以及擴充客戶資料的功能。 Azure 開放資料集是策劃的公用資料集,您可以使用這些公用資料集,將案例專有的功能新增至機器學習解決方案,以獲得更準確的模型。 您可以將這些公用資料集轉換成已套用篩選的 Spark 和 pandas 資料框架。 對於某些資料集,您可以使用擴充器來聯結公用資料與您的資料。 例如,您可以依經度和緯度或郵遞區號和時間,聯結資料與天氣資料。 Azure 開放資料集包含天氣、人口普查、假日、公用安全及位置的公用領域資料,可協助您定型機器學習模型並擴充預測解決方案。 開放式資料集位於 Microsoft Azure 上的雲端,並已整合到 Azure Machine Learning 中。 如需使用 Azure 開放資料集的詳細資訊,請參閱 使用 Azure 開放資料集建立資料集。 如需 Azure 開放資料集的一般資訊,請參閱 Azure 開放資料集檔。 |
單元
country_or_region_time_customer_data |
具有位置和時間資料行的客戶資料應該使用此類別來包裝。 |
country_or_region_time_public_data |
具有country_or_region和時間資料行的公用資料可以使用這個類別包裝。 |
country_region_data |
包含使用位置資料的模糊性,以及支援的資料行類別。 |
customer_data |
包含所有客戶資料的基類。 |
location_data |
包含使用位置資料的功能,以及支援的資料行類別。 |
location_time_customer_data |
包含使用位置和時間資料行包裝客戶資料的功能。 |
location_time_public_data |
包含以位置和時間資料行包裝公用資料的功能。 |
open_dataset_base |
表格式開啟資料集的基類。 |
public_data |
包含公用資料基類。 |
time_data |
包含用來表示 opendataset 中時間資料和相關作業的功能。 |
aggregator |
定義所有匯總工具的基類。 |
aggregator_all |
包含包含所有資料行的匯總工具,也就是未執行匯總時。 |
aggregator_avg |
包含匯總工具平均類別。 |
aggregator_max |
包含匯總工具 max 類別。 |
aggregator_min |
包含匯總工具 min 類別。 |
aggregator_top |
包含匯總工具最上層類別。 |
base_blob_info |
包含 Blob 資訊基類。 |
blob_parquet_descriptor |
包含 Blob parquet 的描述項。 |
dataset_partition_prep |
包含指定資料集資料分割準備的功能。 當您使用 opendatasets 需要資料分割的類別時,例如 類別,就會 NycTlcGreen 自動進行資料分割準備。 |
pandas_data_load_limit |
包含可控制在 parquet 檔案很大時,pandas 資料載入限制的功能。 透過本課程模組的功能,您可以指定如何在 Parquet 檔案太大而無法載入時限制 pandas 資料載入的方式。 |
common_weather_enricher |
包含使用天氣公用資料擴充自訂資料的功能。 |
enricher |
定義泛型擴充器類別,以將具有不同細微性和匯總工具的資料聯結在一起。 此模組包含靜態函式多載: |
holiday_enricher |
包含使用假日公用資料擴充自訂資料的功能。 |
environ |
定義使用 Azure 開放資料集的執行時間環境類別。 本課程模組中的類別可確保 Azure 開放資料集功能已針對不同的環境優化。
一般而言,您不需要具現化這些環境類別,或擔心其實作。
請改用 |
granularity |
包含時間與位置的資料細微性定義。 資料細微性的組織方式如下: 您可以在擴充函式中指定資料細微性,藉此處理資料細微性。 例如,使用 HolidayEnricher 類別方法來擴充資料時,請將 指定 TimeGranularity 為 方法的輸入參數。 |
country_region_selector |
包含國家/地區選取器類別。 |
enricher_selector |
包含位置和時間選取器的基類。 EnricherSelector 有兩個子類別:
EnricherSelector是 和 TimeNearestSelector 的 LocationClosestSelector 根類別。 |
location_closest_selector |
包含最接近選取器類別的位置。 |
time_nearest_selector |
包含最接近選取器類別的時間。 |
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應