Share via


RegressionJob 클래스

AutoML 회귀 작업에 대한 구성입니다.

새 AutoML 회귀 작업을 초기화합니다.

상속
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

생성자

RegressionJob(*, primary_metric: str | None = None, **kwargs)

매개 변수

primary_metric
str
필수

최적화에 사용할 기본 메트릭

kwargs
dict
필수

작업별 인수

메서드

dump

YAML 형식의 파일로 작업 콘텐츠를 덤프합니다.

set_data

데이터 구성을 정의합니다.

set_featurization

기능 엔지니어링 구성을 정의합니다.

set_limits

작업에 대한 제한을 설정합니다.

set_training

학습 관련 설정을 구성하는 메서드입니다.

dump

YAML 형식의 파일로 작업 콘텐츠를 덤프합니다.

dump(dest: str | PathLike | IO, **kwargs) -> None

매개 변수

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
필수

YAML 콘텐츠를 쓸 로컬 경로 또는 파일 스트림입니다. dest가 파일 경로인 경우 새 파일이 만들어집니다. dest가 열려 있는 파일인 경우 파일이 직접 에 기록됩니다.

kwargs
dict

YAML serializer에 전달할 추가 인수입니다.

예외

dest가 파일 경로이고 파일이 이미 있는 경우 발생합니다.

dest가 열려 있는 파일이고 파일을 쓸 수 없는 경우 발생합니다.

set_data

데이터 구성을 정의합니다.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

매개 변수

training_data
Input

학습 데이터입니다.

target_column_name
str

대상 열의 열 이름입니다.

weight_column_name
Optional[str]

가중치 열 이름, 기본값은 없음

validation_data
Optional[Input]

유효성 검사 데이터, 기본값은 없음

validation_data_size
Optional[float]

유효성 검사 데이터 크기, 기본값은 없음

n_cross_validations
Optional[Union[str, int]]

n_cross_validations 기본값은 없음입니다.

cv_split_column_names
Optional[List[str]]

cv_split_column_names 기본값은 없음입니다.

test_data
Optional[Input]

테스트 데이터, 기본값: 없음

test_data_size
Optional[float]

테스트 데이터 크기, 기본값은 없음

예외

dest가 파일 경로이고 파일이 이미 있는 경우 발생합니다.

dest가 열려 있는 파일이고 파일을 쓸 수 없는 경우 발생합니다.

set_featurization

기능 엔지니어링 구성을 정의합니다.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

매개 변수

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

기능화 중에 차단할 변환기 이름 목록이며, 기본값은 없음입니다.

column_name_and_types
Optional[Dict[str, str]]

열 용도 를 업데이트하는 데 사용되는 열 이름 및 기능 형식의 사전은 기본적으로 없음으로 설정됩니다.

dataset_language
Optional[str]

데이터 세트에 포함된 언어에 대한 세 문자 ISO 639-3 코드입니다. 영어 이외의 언어는 GPU 사용 컴퓨팅을 사용하는 경우에만 지원됩니다. 데이터 세트에 여러 언어가 포함된 경우 language_code 'mul'을 사용해야 합니다. 다른 언어에 대한 ISO 639-3 코드를 찾으려면 를 참조 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes하세요. 기본값은 없음입니다.

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

변환기 및 해당 사용자 지정 매개 변수의 사전은 기본적으로 없음으로 설정됩니다.

mode
Optional[str]

"off", "auto", 기본값은 "auto", 기본값은 없음

enable_dnn_featurization
Optional[bool]

DNN 기반 기능 엔지니어링 방법을 포함할지 여부, 기본값은 없음

예외

dest가 파일 경로이고 파일이 이미 있는 경우 발생합니다.

dest가 열려 있는 파일이고 파일을 쓸 수 없는 경우 발생합니다.

set_limits

작업에 대한 제한을 설정합니다.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

매개 변수

enable_early_termination
Optional[bool]

단기적으로 점수가 개선되지 않는 경우 조기 종료를 사용하도록 설정할지 여부는 기본적으로 없음으로 설정됩니다.

조기 중지 논리:

  • 처음 20회 반복(랜드마크)에는 조기 중지가 없습니다.

  • 조기 중지 기간은 21번째 반복에서 시작하고 early_stopping_n_iters 반복을 찾습니다.

    (현재 10으로 설정). 즉, 중지가 발생할 수 있는 첫 번째 반복은 31번째입니다.

  • AutoML은 조기 중지 후 2개의 앙상블 반복을 계속 예약하므로 점수가 높아질 수 있습니다.

  • 계산된 최고점의 절대값이 과거의

    early_stopping_n_iters 반복에 대해 동일한 경우, 즉 early_stopping_n_iters 반복에 대한 점수가 개선되지 않은 경우 조기 중지가 트리거됩니다.

exit_score
Optional[float]

실험의 대상 점수입니다. 이 점수에 도달하면 실험이 종료됩니다. 지정되지 않으면(기준 없음) 실험은 기본 메트릭에서 더 이상 진행되지 않을 때까지 실행됩니다. 종료 조건에 대한 자세한 내용은 이 문서 를 참조하세요. 기본값은 없음입니다.

max_concurrent_trials
Optional[int]

병렬로 실행되는 최대 반복 횟수입니다. 기본값은 1입니다.

  • AmlCompute 클러스터는 노드당 하나의 반복을 지원합니다.

단일 AmlCompute 클러스터에서 병렬로 실행되는 여러 AutoML 실험 부모 실행의 경우 모든 실험에 대한 max_concurrent_trials 값의 합계는 최대 노드 수보다 작거나 같아야 합니다. 이에 해당하지 않으면 노드를 사용할 수 있을 때까지 실행이 대기열에 추가됩니다.

  • DSVM은 노드당 여러 반복을 지원합니다. max_concurrent_trials 해야

은 DSVM의 코어 수보다 작거나 같아야 합니다. 단일 DSVM에서 병렬로 실행되는 여러 실험의 경우 모든 실험에 대한 max_concurrent_trials 값의 합은 최대 노드 수보다 작거나 같아야 합니다.

  • Databricks - max_concurrent_trials 의 수보다 작거나 같아야 합니다.

Databricks의 작업자 노드.

max_concurrent_trials는 로컬 실행에 적용되지 않습니다. 이전에는 이 매개 변수의 이름이 concurrent_iterations로 지정되었습니다.

max_cores_per_trial
Optional[int]

지정된 학습 반복에 사용할 최대 스레드 수입니다. 허용되는 값은 다음과 같습니다.

  • 1보다 크고 컴퓨팅 대상의 최대 코어 수보다 작거나 같습니다.

  • -1과 같으며, 이는 자식 실행당 반복당 가능한 모든 코어를 사용함을 의미합니다.

  • 기본값인 1과 같습니다.

max_nodes
Optional[int]

[실험적] 분산 학습에 사용할 최대 노드 수입니다.

  • 예측을 위해 각 모델은 max(2, int(max_nodes/max_concurrent_trials)) 노드를 사용하여 학습됩니다.

  • 분류/회귀의 경우 각 모델은 max_nodes 노드를 사용하여 학습됩니다.

참고- 이 매개 변수는 공개 미리 보기로 제공되며 나중에 변경될 수 있습니다.

max_trials
Optional[int]

자동화된 ML 실험 중에 테스트할 다양한 알고리즘 및 매개 변수 조합의 총 개수입니다. 지정하지 않으면 기본값은 1,000회 반복입니다.

timeout_minutes
Optional[int]

실험을 종료하기까지 모든 반복 조합에 소요되는 최대 시간(분)입니다. 지정하지 않으면 기본 실험 시간 제한은 6일입니다. 시간 제한을 1시간 미만 또는 같음으로 지정하려면 데이터 세트의 크기가 10,000,000(행 시간 열) 또는 오류 결과보다 크지 않은지 확인합니다. 기본값은 없음입니다.

trial_timeout_minutes
Optional[int]

각 반복이 종료되기 전에 실행할 수 있는 최대 시간(분)입니다. 지정하지 않으면 1개월 또는 43200분 값이 사용되며 기본값은 없음입니다.

예외

dest가 파일 경로이고 파일이 이미 있는 경우 발생합니다.

dest가 열려 있는 파일이고 파일을 쓸 수 없는 경우 발생합니다.

set_training

학습 관련 설정을 구성하는 메서드입니다.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

매개 변수

enable_onnx_compatible_models
Optional[bool]

ONNX 호환 모델 적용을 사용하거나 사용하지 않을지 여부입니다. 기본값은 False입니다. ONNX(Open Neural Network Exchange) 및 Azure Machine Learning에 대한 자세한 내용은 이 문서를 참조 하세요.

enable_dnn_training
Optional[bool]

모델을 선택하는 동안 DNN 기반 모델을 포함할지 여부입니다. 그러나 DNN NLP 태스크의 경우 기본값은 True이고 다른 모든 AutoML 작업에는 False입니다.

enable_model_explainability
Optional[bool]

모든 AutoML 학습 반복이 끝날 때 최상의 AutoML 모델을 설명할 수 있는지 여부입니다. 자세한 내용은 해석 가능성: 자동화된 Machine Learning의 모델 설명을 참조하세요. , 기본값: 없음

enable_stack_ensemble
Optional[bool]

StackEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. enable_onnx_compatible_models 플래그가 설정되면 StackEnsemble 반복을 사용할 수 없습니다. 마찬가지로, Timeseries 작업의 경우 StackEnsemble 반복을 기본적으로 사용할 수 없으므로 메타 학습자를 맞춤하는 데 사용되는 작은 학습 세트로 인한 과잉 맞춤의 위험을 방지합니다. 앙상블에 대한 자세한 내용은 앙상블 구성 , 기본값 없음을 참조하세요.

enable_vote_ensemble
Optional[bool]

VotingEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. 앙상블에 대한 자세한 내용은 앙상블 구성 , 기본값 없음을 참조하세요.

stack_ensemble_settings
Optional[StackEnsembleSettings]

StackEnsemble 반복에 대한 설정, 기본값은 없음

ensemble_model_download_timeout
Optional[int]

VotingEnsemble 및 StackEnsemble 모델 생성 중에 이전 자식 실행의 여러 맞춤 모델이 다운로드됩니다. 더 많은 시간이 필요한 경우 이 매개 변수를 300초보다 높은 값으로 구성합니다. 기본값은 없음입니다.

allowed_training_algorithms
Optional[List[str]]

실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델이 사용되며, TensorFlow 모델에 지정 blocked_training_algorithms 되거나 사용되지 않는 모든 모델은 기본적으로 없음으로 사용됩니다.

blocked_training_algorithms
Optional[List[str]]

실험에 대해 무시할 알고리즘 목록이며 기본값은 없음입니다.

training_mode
Optional[Union[str, TabularTrainingMode]]

[실험적] 사용할 학습 모드입니다. 가능한 값은 다음과 같습니다.

  • distributed- 지원되는 알고리즘에 대한 분산 학습을 사용하도록 설정합니다.

  • non_distributed- 분산 학습을 사용하지 않도록 설정합니다.

  • auto- 현재 non_distributed 동일합니다. 나중에 변경될 수 있습니다.

참고: 이 매개 변수는 공개 미리 보기로 제공되며 나중에 변경될 수 있습니다.

예외

dest가 파일 경로이고 파일이 이미 있는 경우 발생합니다.

dest가 열려 있는 파일이고 파일을 쓸 수 없는 경우 발생합니다.

특성

base_path

리소스의 기본 경로입니다.

반환

리소스의 기본 경로입니다.

반환 형식

str

creation_context

리소스의 만들기 컨텍스트입니다.

반환

리소스에 대한 만들기 메타데이터입니다.

반환 형식

featurization

AutoML 작업에 대한 테이블 형식 기능화 설정을 가져옵니다.

반환

AutoML 작업에 대한 테이블 형식 기능화 설정

반환 형식

id

리소스 ID입니다.

반환

리소스의 전역 ID인 ARM(Azure Resource Manager) ID입니다.

반환 형식

inputs

limits

AutoML 작업에 대한 테이블 형식 제한을 가져옵니다.

반환

AutoML 작업에 대한 테이블 형식 제한

반환 형식

log_files

작업 출력 파일.

반환

로그 이름 및 URL의 사전입니다.

반환 형식

log_verbosity

AutoML 작업에 대한 로그 세부 정보를 가져옵니다.

반환

AutoML 작업에 대한 로그 세부 정보 표시

반환 형식

<xref:LogVerbosity>

outputs

primary_metric

status

작업의 상태.

반환되는 일반적인 값에는 “Running”, “Completed”, “Failed”가 포함됩니다. 가능한 모든 값은 다음과 같습니다.

  • NotStarted - 클라우드 제출 전에 클라이언트 쪽 Run 개체가 있는 임시 상태입니다.

  • Starting - 실행이 클라우드에서 처리되기 시작했습니다. 호출자에게는 이 시점에서 실행 ID가 있습니다.

  • 프로비저닝 - 지정된 작업 제출을 위해 주문형 컴퓨팅을 만들고 있습니다.

  • 준비 중 - 실행 환경이 준비 중이며 다음 두 단계 중 하나입니다.

    • Docker 이미지 빌드

    • conda 환경 설정

  • 대기 중 - 작업이 컴퓨팅 대상에서 큐에 대기됩니다. 예를 들어 BatchAI에서 작업은 큐에 대기 상태입니다.

    요청된 모든 노드가 준비될 때까지 기다리는 동안 대기 상태입니다.

  • 실행 중 - 컴퓨팅 대상에서 작업이 실행되기 시작했습니다.

  • Finalizing - 사용자 코드 실행이 완료되었으며 실행이 사후 처리 단계에 있습니다.

  • CancelRequested - 작업에 대한 취소가 요청되었습니다.

  • 완료됨 - 실행이 성공적으로 완료되었습니다. 여기에는 사용자 코드 실행 및 실행이 모두 포함됩니다.

    사후 처리 단계입니다.

  • Failed - 실행이 실패했습니다. 일반적으로 실행의 오류 속성은 이유에 대한 세부 정보를 제공합니다.

  • Canceled - 취소 요청을 따르고 실행이 성공적으로 취소되었음을 나타냅니다.

  • NotResponding - 하트비트를 사용하도록 설정한 실행의 경우 최근에 하트비트를 보내지 않았습니다.

반환

작업의 상태.

반환 형식

studio_url

Azure ML 스튜디오 엔드포인트.

반환

작업 세부 정보 페이지의 URL입니다.

반환 형식

task_type

작업 유형을 가져옵니다.

반환

실행할 작업의 유형입니다. 가능한 값은 "분류", "회귀", "예측"입니다.

반환 형식

str

test_data

테스트 데이터를 가져옵니다.

반환

테스트 데이터 입력

반환 형식

training

training_data

학습 데이터를 가져옵니다.

반환

학습 데이터 입력

반환 형식

type

작업의 형식입니다.

반환

작업의 형식입니다.

반환 형식

validation_data

유효성 검사 데이터를 가져옵니다.

반환

유효성 검사 데이터 입력

반환 형식