AbstractDataset 類別

Azure Machine Learning 中資料集的基類。

請參考 TabularDatasetFactory 類別和 FileDatasetFactory 類別,以建立資料集的實例。

類別 AbstractDataset 建構函式。

此建構函式不應該直接叫用。 資料集旨在使用 TabularDatasetFactory 類別和 FileDatasetFactory 類別來建立。

繼承
builtins.object
AbstractDataset

建構函式

AbstractDataset()

方法

add_tags

將索引鍵值組新增至此資料集的標記字典。

as_named_input

提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。

get_all

取得工作區中的所有已註冊資料集。

get_by_id

取得儲存至工作區的資料集。

get_by_name

依註冊名稱從工作區取得已註冊的資料集。

get_partition_key_values

傳回partition_keys的唯一索引鍵值。

驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

向提供的工作區註冊資料集。

remove_tags

從此資料集的標記字典中移除指定的索引鍵。

unregister_all_versions

從工作區取消註冊此資料集註冊名稱下的所有版本。

update

執行資料集的就地更新。

add_tags

將索引鍵值組新增至此資料集的標記字典。

add_tags(tags=None)

參數

tags
dict[str, str]
必要

要加入之標籤的字典。

傳回

更新的資料集物件。

傳回類型

as_named_input

提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。

as_named_input(name)

參數

name
str
必要

執行之資料集的名稱。

傳回

組態物件,描述如何在執行中具體化資料集。

傳回類型

備註

此處的名稱僅適用于 Azure Machine Learning 執行。 名稱只能包含英數位元和底線字元,因此可以做為環境變數使用。 您可以使用下列兩種方法來擷取執行內容中的資料集:

  • 環境變數:

    此名稱會是環境變數名稱,而具體化資料集將可做為環境變數的值。 如果資料集已下載或掛接,此值將會是已下載/掛接的路徑。 例如:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注意

如果資料集設定為直接模式,則此值會是資料集識別碼。 然後,您可以

執行 Dataset.get_by_id (os.environ['foo']) 來擷取資料集物件

  • Run.input_datasets:

    這是字典,其中索引鍵會是您在此方法中指定的資料集名稱,而值將會是具體化的資料集。 針對已下載和掛接的資料集,此值會是已下載/掛接的路徑。 針對直接模式,此值會與您在作業提交腳本中指定的資料集物件相同。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

取得工作區中的所有已註冊資料集。

static get_all(workspace)

參數

workspace
Workspace
必要

已註冊資料集的現有 AzureML 工作區。

傳回

TabularDataset 和 FileDataset 物件的字典,以其註冊名稱為索引鍵。

傳回類型

get_by_id

取得儲存至工作區的資料集。

static get_by_id(workspace, id, **kwargs)

參數

workspace
Workspace
必要

儲存資料集的現有 AzureML 工作區。

id
str
必要

資料集的識別碼。

傳回

資料集物件。 如果已註冊資料集,也會傳回其註冊名稱和版本。

傳回類型

get_by_name

依註冊名稱從工作區取得已註冊的資料集。

static get_by_name(workspace, name, version='latest', **kwargs)

參數

workspace
Workspace
必要

已註冊資料集的現有 AzureML 工作區。

name
str
必要

註冊名稱。

version
int
必要

註冊版本。 預設為 'latest'。

傳回

已註冊的資料集物件。

傳回類型

get_partition_key_values

傳回partition_keys的唯一索引鍵值。

驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

參數

partition_keys
list[str]
必要

分割區索引鍵

register

向提供的工作區註冊資料集。

register(workspace, name, description=None, tags=None, create_new_version=False)

參數

workspace
Workspace
必要

要註冊資料集的工作區。

name
str
必要

要註冊資料集的名稱。

description
str
必要

資料集的文字描述。 預設為 [無]。

tags
dict[str, str]
必要

索引鍵值標籤的字典,以提供資料集。 預設為 [無]。

create_new_version
bool
必要

布林值,以在指定的名稱下將資料集註冊為新版本。

傳回

已註冊的資料集物件。

傳回類型

remove_tags

從此資料集的標記字典中移除指定的索引鍵。

remove_tags(tags=None)

參數

tags
list[str]
必要

要移除的索引鍵清單。

傳回

更新的資料集物件。

傳回類型

unregister_all_versions

從工作區取消註冊此資料集註冊名稱下的所有版本。

unregister_all_versions()

備註

此作業不會變更任何來源資料。

update

執行資料集的就地更新。

update(description=None, tags=None)

參數

description
str
必要

要用於資料集的新描述。 此描述會取代現有的描述。 預設為現有描述。 若要清除描述,請輸入空字串。

tags
dict[str, str]
必要

要用來更新資料集的標記字典。 這些標記會取代資料集的現有標籤。 預設為現有的標籤。 若要清除標籤,請輸入空的字典。

傳回

更新的資料集物件。

傳回類型

屬性

data_changed_time

傳回來源資料變更的時間。

傳回

最近變更來源資料的時間。

傳回類型

備註

資料變更時間適用于檔案型資料來源。 當資料來源不支援檢查變更發生時,將不會傳回任何專案。

description

傳回註冊描述。

傳回

資料集描述。

傳回類型

str

id

傳回資料集的識別碼。

傳回

資料集識別碼。如果資料集未儲存至任何工作區,則識別碼會是 None。

傳回類型

str

name

傳回註冊名稱。

傳回

資料集名稱。

傳回類型

str

partition_keys

傳回分割區索引鍵。

傳回

分割區索引鍵

傳回類型

tags

傳回註冊標記。

傳回

資料集標籤。

傳回類型

str

version

傳回註冊版本。

傳回

資料集版本。

傳回類型

int