ClassificationJob 類別

AutoML 分類作業的設定。

初始化新的 AutoML 分類工作。

繼承
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

建構函式

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

參數

primary_metric
Optional[str]

要用於優化的主要計量,預設為 None

positive_label
Optional[str]

二進位計量計算的正標籤,預設值為 None

featurization
Optional[TabularFeaturizationSettings]

特徵化設定。 預設值為 [無]。

limits
Optional[TabularLimitSettings]

限制設定。 預設值為 [無]。

training
Optional[TrainingSettings]

訓練設定。 預設值為 [無]。

primary_metric
Optional[str]

要用於優化的主要計量,預設為 None

positive_label
Optional[str]

二進位計量計算的正標籤,預設值為 None

featurization
Optional[TabularFeaturizationSettings]

特徵化設定。 預設值為 [無]。

limits
Optional[TabularLimitSettings]

會限制設定。 預設值為 [無]。

training
Optional[TrainingSettings]

訓練設定。 預設值為 [無]。

方法

dump

以 YAML 格式將作業內容傾印到檔案中。

set_data

定義資料組態。

set_featurization

定義特徵工程組態。

set_limits

設定作業的限制。

set_training

設定定型相關設定的方法。

dump

以 YAML 格式將作業內容傾印到檔案中。

dump(dest: str | PathLike | IO, **kwargs) -> None

參數

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
必要

要寫入 YAML 內容的本機路徑或檔案資料流程。 如果 dest 是檔案路徑,將會建立新的檔案。 如果 dest 是開啟的檔案,則會直接將檔案寫入。

kwargs
dict

要傳遞至 YAML 序列化程式的其他引數。

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則會引發 。

如果 dest 是開啟的檔案,而且檔案無法寫入,則引發。

set_data

定義資料組態。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

參數

training_data
Input

定型資料。

target_column_name
str

目標資料行的資料行名稱。

weight_column_name
Optional[str]

加權資料行名稱,預設值為 None

validation_data
Optional[Input]

驗證資料,預設值為 None

validation_data_size
Optional[float]

驗證資料大小,預設值為 None

n_cross_validations
Optional[Union[str, int]]

n_cross_validations,預設值為 None

cv_split_column_names
Optional[List[str]]

cv_split_column_names,預設值為 None

test_data
Optional[Input]

測試資料,預設值為 None

test_data_size
Optional[float]

測試資料大小,預設值為 None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則會引發 。

如果 dest 是開啟的檔案,而且檔案無法寫入,則引發。

set_featurization

定義特徵工程組態。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

參數

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

特徵化期間要封鎖的轉換程式名稱清單,預設為 [無]

column_name_and_types
Optional[Dict[str, str]]

用來更新資料行用途的資料行名稱和功能類型的字典,預設為 None

dataset_language
Optional[str]

資料集中所含語言 () 語言的三個字元 ISO 639-3 代碼。 只有在您使用已啟用 GPU 的計算時,才支援英文以外的語言。 如果資料集包含多種語言,則應該使用language_code 'mul'。 若要尋找不同語言的 ISO 639-3 代碼,請參閱 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes ,預設值為 None

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

轉換器和對應的自訂參數字典,預設為 None

mode
Optional[str]

「off」、「auto」 預設為 「auto」、預設值為 None

enable_dnn_featurization
Optional[bool]

是否要包含以 DNN 為基礎的特徵工程方法,預設值為 None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則會引發 。

如果 dest 是開啟的檔案,而且檔案無法寫入,則引發。

set_limits

設定作業的限制。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

參數

enable_early_termination
Optional[bool]

如果分數未在短期內改善,是否要啟用早期終止,預設為 None。

早期停止邏輯:

  • (地標) ,前 20 個反復專案不會提早停止。

  • 早期停止視窗會在第 21 次反復專案上啟動,並尋找early_stopping_n_iters反復專案

    (目前設定為 10) 。 這表示可以停止的第一次反復專案是第 31 個反復專案。

  • AutoML 仍會排程 2 個反復專案 AFTER 早期停止,這可能會導致分數較高。

  • 如果過去計算的最佳分數絕對值相同,就會觸發早期停止

    early_stopping_n_iters反復專案,也就是說,如果early_stopping_n_iters反覆運算的分數沒有改善。

exit_score
Optional[float]

實驗的目標分數。 實驗會在達到此分數之後終止。 如果未指定 (沒有準則) ,則實驗會執行,直到主要計量沒有進一步的進度為止。 如需結束準則的詳細資訊,請參閱 本文 ,預設值為 None

max_concurrent_trials
Optional[int]

這是平行執行的反復專案數目上限。 預設值為 1。

  • AmlCompute 叢集支援每個節點執行的一個反復專案。

對於在單一 AmlCompute 叢集上平行執行的多個 AutoML 實驗父執行,所有實驗的值總和 max_concurrent_trials 應該小於或等於節點數目上限。 否則,執行將會排入佇列,直到節點可用為止。

  • DSVM 支援每個節點的多個反復專案。 max_concurrent_trials 應該

小於或等於 DSVM 上的核心數目。 對於在單一 DSVM 上平行執行的多個實驗,所有實驗的值總和 max_concurrent_trials 應該小於或等於節點數目上限。

  • Databricks - max_concurrent_trials 應小於或等於 數目

Databricks 上的背景工作節點。

max_concurrent_trials 不適用於本機執行。 先前,此參數的名稱為 concurrent_iterations

max_cores_per_trial
Optional[int]

要用於指定定型反復專案的執行緒數目上限。 可接受的值:

  • 大於 1 且小於或等於計算目標上的核心數目上限。

  • 等於 -1,這表示每個子執行每個反復專案使用所有可能的核心。

  • 等於 1,預設值。

max_nodes
Optional[int]

[實驗性]用於分散式定型的節點數目上限。

  • 針對預測,每個模型都會使用最大 (2、int (max_nodes/ max_concurrent_trials) ) 節點來定型。

  • 針對分類/回歸,每個模型都會使用max_nodes節點來定型。

注意- 此參數處於公開預覽狀態,未來可能會變更。

max_trials
Optional[int]

自動化 ML 實驗期間要測試的不同演算法和參數組合總數。 如果未指定,則預設值為 1000 個反復專案。

timeout_minutes
Optional[int]

在實驗終止之前,所有反覆運算合在一起所花費的時間量上限 (以分鐘為單位)。 如果未指定,預設實驗逾時為 6 天。 若要指定小於或等於 1 小時的逾時,請確定資料集的大小不大於 10,000,000 (資料列時間資料行) 或錯誤結果,預設值為 None

trial_timeout_minutes
Optional[int]

每個反復專案在終止前可以執行的最大時間。 如果未指定,則會使用 1 個月或 43200 分鐘的值,預設值為 None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則會引發 。

如果 dest 是開啟的檔案,而且檔案無法寫入,則引發。

set_training

設定定型相關設定的方法。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

參數

enable_onnx_compatible_models
Optional[bool]

是否啟用或停用強制執行 ONNX 相容的模型。 預設值是 False。 如需 Open Neural Network Exchange (ONNX) 和 Azure Machine Learning 的詳細資訊,請參閱 這篇文章

enable_dnn_training
Optional[bool]

是否要在模型選取期間包含 DNN 型模型。 不過,DNN NLP 工作的預設值為 True,所有其他 AutoML 工作則為 False。

enable_model_explainability
Optional[bool]

是否要在所有 AutoML 定型反復專案結束時啟用說明最佳 AutoML 模型。 如需詳細資訊,請參閱 自動化機器學習中的解譯性:模型說明。 ,預設為 None

enable_stack_ensemble
Optional[bool]

是否要啟用/停用 StackEnsemble 反復專案。 如果 已設定enable_onnx_compatible_models 旗標,則會停用 StackEnsemble 反復專案。 同樣地,對於 Timeseries 工作,StackEnsemble 反復專案預設會停用,以避免因為用於調整中繼學習工具的小型定型集而造成過度學習的風險。 如需 ensembles 的詳細資訊,請參閱 Ensemble 組態 ,預設值為 None

enable_vote_ensemble
Optional[bool]

是否要啟用/停用 VotingEnsemble 反復專案。 如需 ensembles 的詳細資訊,請參閱 Ensemble 組態 ,預設值為 None

stack_ensemble_settings
Optional[StackEnsembleSettings]

StackEnsemble 反復專案的設定,預設為 None

ensemble_model_download_timeout
Optional[int]

在 VotingEnsemble 和 StackEnsemble 模型產生期間,會下載來自先前子回合的多個適合模型。 若需要更多時間,請以高於 300 秒的值設定此參數,預設值為 None

allowed_training_algorithms
Optional[List[str]]

要搜尋實驗的模型名稱清單。 如果未指定,則會使用工作支援的所有模型減去或已被取代的 TensorFlow 模型中的任何指定 blocked_training_algorithms ,預設值為 None

blocked_training_algorithms
Optional[List[str]]

實驗要忽略的演算法清單,預設為 [無]

training_mode
Optional[Union[str, TabularTrainingMode]]

[實驗性]要使用的定型模式。 可能的值如下:

  • distributed- 可針對支援的演算法啟用分散式定型。

  • non_distributed- 會停用分散式定型。

  • auto- 目前與non_distributed相同。 未來可能會變更。

注意:此參數處於公開預覽狀態,未來可能會變更。

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則會引發 。

如果 dest 是開啟的檔案,而且檔案無法寫入,則引發。

屬性

base_path

資源的基底路徑。

傳回

資源的基底路徑。

傳回類型

str

creation_context

資源的建立內容。

傳回

資源的建立中繼資料。

傳回類型

featurization

取得 AutoML 作業的表格式特徵化設定。

傳回

AutoML 作業的表格式特徵化設定

傳回類型

id

資源識別碼。

傳回

資源的全域識別碼,Azure Resource Manager (ARM) 識別碼。

傳回類型

inputs

limits

取得 AutoML 作業的表格式限制。

傳回

AutoML 作業的表格式限制

傳回類型

log_files

作業輸出檔案。

傳回

記錄名稱和 URL 的字典。

傳回類型

log_verbosity

取得 AutoML 作業的記錄詳細資訊。

傳回

AutoML 作業的記錄詳細資訊

傳回類型

<xref:LogVerbosity>

outputs

primary_metric

要用於優化的主要計量。

傳回

要用於優化的主要計量。

傳回類型

status

工作的狀態。

傳回的常見值包括「執行中」、「已完成」和「失敗」。 所有可能的值為:

  • NotStarted - 這是用戶端 Run 物件在雲端提交之前所在的暫時狀態。

  • 啟動 - 執行已在雲端中開始處理。 呼叫端此時具有執行識別碼。

  • 布建 - 正在針對指定的作業提交建立隨選計算。

  • 準備 - 正在準備執行環境,且處於兩個階段之一:

    • Docker 映射組建

    • conda 環境設定

  • 已排入佇列 - 作業已排入計算目標上的佇列。 例如,在 BatchAI 中,作業處於佇列狀態

    等候所有要求的節點準備就緒時。

  • 執行 - 作業已開始在計算目標上執行。

  • 完成 - 使用者程式碼執行已完成,且執行處於後續處理階段。

  • CancelRequested - 作業已要求取消。

  • 已完成 - 執行已順利完成。 這包括使用者程式碼執行和執行

    後續處理階段。

  • 失敗 - 執行失敗。 執行上的 Error 屬性通常會提供原因的詳細資料。

  • 已取消 - 遵循取消要求,並指出現在已成功取消執行。

  • NotResponding - 針對已啟用活動訊號的執行,最近不會傳送活動訊號。

傳回

作業的狀態。

傳回類型

studio_url

Azure ML Studio 端點。

傳回

作業詳細資料頁面的 URL。

傳回類型

task_type

取得工作類型。

傳回

要執行的工作類型。 可能的值包括:「classification」、「regression」、「forecasting」。

傳回類型

str

test_data

取得測試資料。

傳回

測試資料輸入

傳回類型

training

AutoML 分類作業的訓練設定。

傳回

用於 AutoML 分類作業的訓練設定。

傳回類型

<xref:ClassificationTrainingSettings>

training_data

取得定型資料。

傳回

定型資料輸入

傳回類型

type

作業的類型。

傳回

作業的類型。

傳回類型

validation_data

取得驗證資料。

傳回

驗證資料輸入

傳回類型