ClassificationJob 類別

參考

AutoML 分類作業的設定。

初始化新的 AutoML 分類工作。

繼承: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

建構函式

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

參數

primary_metric: Optional[str]

要用於優化的主要計量，預設為 None

positive_label: Optional[str]

二進位計量計算的正標籤，預設值為 None

featurization: Optional[TabularFeaturizationSettings]

特徵化設定。預設值為 [無]。

limits: Optional[TabularLimitSettings]

限制設定。預設值為 [無]。

training: Optional[TrainingSettings]

訓練設定。預設值為 [無]。

primary_metric: Optional[str]

要用於優化的主要計量，預設為 None

positive_label: Optional[str]

二進位計量計算的正標籤，預設值為 None

featurization: Optional[TabularFeaturizationSettings]

特徵化設定。預設值為 [無]。

limits: Optional[TabularLimitSettings]

會限制設定。預設值為 [無]。

training: Optional[TrainingSettings]

訓練設定。預設值為 [無]。

方法

dump	以 YAML 格式將作業內容傾印到檔案中。
set_data	定義資料組態。
set_featurization	定義特徵工程組態。
set_limits	設定作業的限制。
set_training	設定定型相關設定的方法。

dump

以 YAML 格式將作業內容傾印到檔案中。

dump(dest: str | PathLike | IO, **kwargs) -> None

參數

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

必要

要寫入 YAML 內容的本機路徑或檔案資料流程。如果 dest 是檔案路徑，將會建立新的檔案。如果 dest 是開啟的檔案，則會直接將檔案寫入。

kwargs: dict

要傳遞至 YAML 序列化程式的其他引數。

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則會引發。

IOError

如果 dest 是開啟的檔案，而且檔案無法寫入，則引發。

set_data

定義資料組態。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

參數

training_data: Input

定型資料。

target_column_name: str

目標資料行的資料行名稱。

weight_column_name: Optional[str]

加權資料行名稱，預設值為 None

validation_data: Optional[Input]

驗證資料，預設值為 None

validation_data_size: Optional[float]

驗證資料大小，預設值為 None

n_cross_validations: Optional[Union[str, int]]

n_cross_validations，預設值為 None

cv_split_column_names: Optional[List[str]]

cv_split_column_names，預設值為 None

test_data: Optional[Input]

測試資料，預設值為 None

test_data_size: Optional[float]

測試資料大小，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則會引發。

IOError

如果 dest 是開啟的檔案，而且檔案無法寫入，則引發。

set_featurization

定義特徵工程組態。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

參數

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

特徵化期間要封鎖的轉換程式名稱清單，預設為 [無]

column_name_and_types: Optional[Dict[str, str]]

用來更新資料行用途的資料行名稱和功能類型的字典，預設為 None

dataset_language: Optional[str]

資料集中所含語言 () 語言的三個字元 ISO 639-3 代碼。只有在您使用已啟用 GPU 的計算時，才支援英文以外的語言。如果資料集包含多種語言，則應該使用language_code 'mul'。若要尋找不同語言的 ISO 639-3 代碼，請參閱 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes ，預設值為 None

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

轉換器和對應的自訂參數字典，預設為 None

mode: Optional[str]

「off」、「auto」預設為「auto」、預設值為 None

enable_dnn_featurization: Optional[bool]

是否要包含以 DNN 為基礎的特徵工程方法，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則會引發。

IOError

如果 dest 是開啟的檔案，而且檔案無法寫入，則引發。

set_limits

設定作業的限制。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

參數

enable_early_termination: Optional[bool]

如果分數未在短期內改善，是否要啟用早期終止，預設為 None。

早期停止邏輯：

(地標) ，前 20 個反復專案不會提早停止。
早期停止視窗會在第 21 次反復專案上啟動，並尋找early_stopping_n_iters反復專案

(目前設定為 10) 。這表示可以停止的第一次反復專案是第 31 個反復專案。
AutoML 仍會排程 2 個反復專案 AFTER 早期停止，這可能會導致分數較高。
如果過去計算的最佳分數絕對值相同，就會觸發早期停止

early_stopping_n_iters反復專案，也就是說，如果early_stopping_n_iters反覆運算的分數沒有改善。

exit_score: Optional[float]

實驗的目標分數。實驗會在達到此分數之後終止。如果未指定 (沒有準則) ，則實驗會執行，直到主要計量沒有進一步的進度為止。如需結束準則的詳細資訊，請參閱本文，預設值為 None

max_concurrent_trials: Optional[int]

這是平行執行的反復專案數目上限。預設值為 1。

AmlCompute 叢集支援每個節點執行的一個反復專案。

對於在單一 AmlCompute 叢集上平行執行的多個 AutoML 實驗父執行，所有實驗的值總和 max_concurrent_trials 應該小於或等於節點數目上限。否則，執行將會排入佇列，直到節點可用為止。

DSVM 支援每個節點的多個反復專案。 max_concurrent_trials 應該

小於或等於 DSVM 上的核心數目。對於在單一 DSVM 上平行執行的多個實驗，所有實驗的值總和 max_concurrent_trials 應該小於或等於節點數目上限。

Databricks - max_concurrent_trials 應小於或等於數目

Databricks 上的背景工作節點。

max_concurrent_trials 不適用於本機執行。先前，此參數的名稱為 concurrent_iterations 。

max_cores_per_trial: Optional[int]

要用於指定定型反復專案的執行緒數目上限。可接受的值：

大於 1 且小於或等於計算目標上的核心數目上限。
等於 -1，這表示每個子執行每個反復專案使用所有可能的核心。
等於 1，預設值。

max_nodes: Optional[int]

[實驗性]用於分散式定型的節點數目上限。

針對預測，每個模型都會使用最大 (2、int (max_nodes/ max_concurrent_trials) ) 節點來定型。
針對分類/回歸，每個模型都會使用max_nodes節點來定型。

注意- 此參數處於公開預覽狀態，未來可能會變更。

max_trials: Optional[int]

自動化 ML 實驗期間要測試的不同演算法和參數組合總數。如果未指定，則預設值為 1000 個反復專案。

timeout_minutes: Optional[int]

在實驗終止之前，所有反覆運算合在一起所花費的時間量上限 (以分鐘為單位)。如果未指定，預設實驗逾時為 6 天。若要指定小於或等於 1 小時的逾時，請確定資料集的大小不大於 10,000,000 (資料列時間資料行) 或錯誤結果，預設值為 None

trial_timeout_minutes: Optional[int]

每個反復專案在終止前可以執行的最大時間。如果未指定，則會使用 1 個月或 43200 分鐘的值，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則會引發。

IOError

如果 dest 是開啟的檔案，而且檔案無法寫入，則引發。

set_training

設定定型相關設定的方法。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

參數

enable_onnx_compatible_models: Optional[bool]

是否啟用或停用強制執行 ONNX 相容的模型。預設值是 False。如需 Open Neural Network Exchange (ONNX) 和 Azure Machine Learning 的詳細資訊，請參閱這篇文章。

enable_dnn_training: Optional[bool]

是否要在模型選取期間包含 DNN 型模型。不過，DNN NLP 工作的預設值為 True，所有其他 AutoML 工作則為 False。

enable_model_explainability: Optional[bool]

是否要在所有 AutoML 定型反復專案結束時啟用說明最佳 AutoML 模型。如需詳細資訊，請參閱自動化機器學習中的解譯性：模型說明。，預設為 None

enable_stack_ensemble: Optional[bool]

是否要啟用/停用 StackEnsemble 反復專案。如果 已設定enable_onnx_compatible_models 旗標，則會停用 StackEnsemble 反復專案。同樣地，對於 Timeseries 工作，StackEnsemble 反復專案預設會停用，以避免因為用於調整中繼學習工具的小型定型集而造成過度學習的風險。如需 ensembles 的詳細資訊，請參閱 Ensemble 組態，預設值為 None

enable_vote_ensemble: Optional[bool]

是否要啟用/停用 VotingEnsemble 反復專案。如需 ensembles 的詳細資訊，請參閱 Ensemble 組態，預設值為 None

stack_ensemble_settings: Optional[StackEnsembleSettings]

StackEnsemble 反復專案的設定，預設為 None

ensemble_model_download_timeout: Optional[int]

在 VotingEnsemble 和 StackEnsemble 模型產生期間，會下載來自先前子回合的多個適合模型。若需要更多時間，請以高於 300 秒的值設定此參數，預設值為 None

allowed_training_algorithms: Optional[List[str]]

要搜尋實驗的模型名稱清單。如果未指定，則會使用工作支援的所有模型減去或已被取代的 TensorFlow 模型中的任何指定 blocked_training_algorithms ，預設值為 None

blocked_training_algorithms: Optional[List[str]]

實驗要忽略的演算法清單，預設為 [無]

training_mode: Optional[Union[str, TabularTrainingMode]]

[實驗性]要使用的定型模式。可能的值如下：

distributed- 可針對支援的演算法啟用分散式定型。
non_distributed- 會停用分散式定型。
auto- 目前與non_distributed相同。未來可能會變更。

注意：此參數處於公開預覽狀態，未來可能會變更。

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則會引發。

IOError

如果 dest 是開啟的檔案，而且檔案無法寫入，則引發。

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

要用於優化的主要計量。

傳回

要用於優化的主要計量。

傳回類型

Union[str, ClassificationPrimaryMetrics]

status

工作的狀態。

傳回的常見值包括「執行中」、「已完成」和「失敗」。所有可能的值為：

NotStarted - 這是用戶端 Run 物件在雲端提交之前所在的暫時狀態。
啟動 - 執行已在雲端中開始處理。呼叫端此時具有執行識別碼。
布建 - 正在針對指定的作業提交建立隨選計算。
準備 - 正在準備執行環境，且處於兩個階段之一：
- Docker 映射組建
- conda 環境設定
已排入佇列 - 作業已排入計算目標上的佇列。例如，在 BatchAI 中，作業處於佇列狀態

等候所有要求的節點準備就緒時。
執行 - 作業已開始在計算目標上執行。
完成 - 使用者程式碼執行已完成，且執行處於後續處理階段。
CancelRequested - 作業已要求取消。
已完成 - 執行已順利完成。這包括使用者程式碼執行和執行

後續處理階段。
失敗 - 執行失敗。執行上的 Error 屬性通常會提供原因的詳細資料。
已取消 - 遵循取消要求，並指出現在已成功取消執行。
NotResponding - 針對已啟用活動訊號的執行，最近不會傳送活動訊號。

參數

方法

dump

參數

例外狀況

set_data

參數

例外狀況

set_featurization

參數

例外狀況

set_limits

參數

例外狀況

set_training

參數

例外狀況

屬性

base_path

傳回

傳回類型

creation_context

傳回

傳回類型

featurization

傳回

傳回類型

id

傳回

傳回類型

inputs

limits

傳回

傳回類型

log_files

傳回

傳回類型

log_verbosity

傳回

傳回類型

outputs

primary_metric

傳回

傳回類型

status

傳回

傳回類型

studio_url

傳回

傳回類型

task_type

傳回

傳回類型

test_data

傳回

傳回類型

training

傳回

傳回類型

training_data

傳回

傳回類型

type

傳回

傳回類型

validation_data

傳回

傳回類型

意見反應

其他資源