azureml.train.automl.automlconfig.AutoMLConfig class - Azure Machine Learning Python

task: str 또는 Tasks

필수

실행할 작업의 유형입니다. 값은 해결할 자동화된 ML 문제 유형에 따라 ‘분류’, ‘회귀’ 또는 ‘예측’일 수 있습니다.

path: str

필수

Azure Machine Learning 프로젝트 폴더의 전체 경로입니다. 지정하지 않으면 기본값은 현재 디렉터리 또는 “.”를 사용하는 것입니다.

iterations: int

필수

자동화된 ML 실험 중에 테스트할 다양한 알고리즘 및 매개 변수 조합의 총 개수입니다. 지정하지 않으면 기본값은 1,000회 반복입니다.

primary_metric: str 또는 Metric

필수

자동화된 Machine Learning이 모델 선택에 최적화되는 메트릭입니다. 자동화된 Machine Learning은 최적화할 수 있는 것보다 더 많은 메트릭을 수집합니다. get_primary_metrics를 사용하여 지정된 작업에 대한 유효한 메트릭 목록을 가져올 수 있습니다. 메트릭을 계산하는 방법에 대한 자세한 내용은 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric을 참조하세요.

지정하지 않으면 정확도가 분류 작업에 사용되고, 정규화된 제곱 평균은 예측 및 회귀 작업에 사용되며, 정확도는 이미지 분류 및 이미지 다중 레이블 분류에 사용되고, 평균 정밀도는 이미지 개체 검색에 사용됩니다.

positive_label: Any

필수

자동화된 Machine Learning이 이진 메트릭을 계산하는 데 사용할 양수 클래스 레이블입니다. 이진 메트릭은 분류 작업에 대한 두 가지 조건으로 계산됩니다.

레이블 열은 이진 분류 태스크 AutoML이 positive_label에 전달될 때 지정된 양의 클래스를 사용함을 나타내는 두 개의 클래스로 구성됩니다. 그렇지 않으면 AutoML은 레이블로 인코딩된 값에 따라 양수 클래스를 선택합니다.
positive_label이 지정된 다중 클래스 분류 작업

분류에 대한 자세한 내용은 분류 시나리오에 대한 메트릭을 참조하세요.

compute_target: AbstractComputeTarget

필수

자동화된 Machine Learning 실험을 실행할 Azure Machine Learning 컴퓨팅 대상입니다. 컴퓨팅 대상에 관한 자세한 내용은 https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote를 참조하세요.

spark_context: <xref:SparkContext>

필수

Spark 컨텍스트입니다. Azure Databricks/Spark 환경 내에서 사용하는 경우에만 적용됩니다.

X: DataFrame 또는 ndarray 또는 Dataset 또는 TabularDataset

필수

실험 중에 파이프라인을 맞추는 데 사용할 학습 기능입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 label_column_name을 사용하세요.

y: DataFrame 또는 ndarray 또는 Dataset 또는 TabularDataset

필수

실험 중에 파이프라인을 맞추는 데 사용할 학습 레이블입니다. 모델이 예측하는 값입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 label_column_name을 사용하세요.

sample_weight: DataFrame 또는 ndarray 또는 TabularDataset

필수

맞춤 파이프라인을 실행할 때 각 학습 샘플에 부여할 가중치로, 각 행이 X 및 y 데이터의 행에 해당해야 합니다.

X를 지정할 때 이 매개 변수를 지정합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 weight_column_name을 사용하세요.

X_valid: DataFrame 또는 ndarray 또는 Dataset 또는 TabularDataset

필수

실험 중에 파이프라인을 맞출 때 사용할 유효성 검사 기능입니다.

지정된 경우에는 y_valid 또는 sample_weight_valid도 지정해야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 label_column_name을 사용하세요.

y_valid: DataFrame 또는 ndarray 또는 Dataset 또는 TabularDataset

필수

실험 중에 파이프라인을 맞출 때 사용할 유효성 검사 레이블입니다.

X_valid 및 y_valid 둘 다 함께 지정해야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 label_column_name을 사용하세요.

sample_weight_valid: DataFrame 또는 ndarray 또는 TabularDataset

필수

채점 파이프라인을 실행할 때 각 유효성 검사 샘플에 부여할 가중치로, 각 행이 X 및 y 데이터의 행에 해당해야 합니다.

X_valid를 지정할 때 이 매개 변수를 지정합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 weight_column_name을 사용하세요.

cv_splits_indices: List[List[ndarray]]

필수

교차 유효성 검사를 위해 학습 데이터를 분할해야 하는 인덱스입니다. 각 행은 별도의 크로스 폴드이며 각 크로스 폴드 내에서 2개의 numpy 배열을 제공합니다. 첫 번째 배열에는 학습 데이터에 사용할 샘플 인덱스가, 두 번째 배열에는 유효성 검사 데이터에 사용할 인덱스가 있습니다. 즉, [[t1, v1], [t2, v2], ...]에서 t1은 첫 번째 크로스 폴드의 학습 인덱스이고 v1은 첫 번째 크로스 폴드의 유효성 검사 인덱스입니다.

기존 데이터를 유효성 검사 데이터로 지정하려면 validation_data를 사용합니다. AutoML이 대신 학습 데이터에서 유효성 검사 데이터를 추출하도록 하려면 n_cross_validations 또는 validation_size 중 하나를 지정합니다. training_data에 교차 유효성 검사 열이 있는 경우 cv_split_column_names를 사용합니다.

validation_size: float

필수

사용자 유효성 검사 데이터가 지정되지 않은 경우 유효성 검사를 위해 유지할 데이터의 소수입니다. 이 값은 0.0에서 1.0 사이여야 합니다.

유효성 검사 데이터를 제공하려면 validation_data를 지정하고, 지정된 학습 데이터에서 유효성 검사 데이터를 추출하려면 n_cross_validations 또는 validation_size를 설정합니다. 사용자 지정 교차 유효성 검사 폴드의 경우 cv_split_column_names를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

n_cross_validations: int

필수

사용자 유효성 검사 데이터를 지정하지 않은 경우 수행할 교차 유효성 검사의 수입니다.

유효성 검사 데이터를 제공하려면 validation_data를 지정하고, 지정된 학습 데이터에서 유효성 검사 데이터를 추출하려면 n_cross_validations 또는 validation_size를 설정합니다. 사용자 지정 교차 유효성 검사 폴드의 경우 cv_split_column_names를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

y_min: float

필수

회귀 실험에 대한 y의 최솟값입니다. y_min 및 y_max 조합은 입력 데이터 범위를 기반으로 테스트 세트 메트릭을 정규화하는 데 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

y_max: float

필수

회귀 실험에 대한 y의 최댓값입니다. y_min 및 y_max 조합은 입력 데이터 범위를 기반으로 테스트 세트 메트릭을 정규화하는 데 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

num_classes: int

필수

분류 실험에 대한 레이블 데이터의 클래스 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

featurization: str 또는 FeaturizationConfig

필수

기능화 단계를 자동으로 수행해야 하는지 여부 또는 사용자 지정된 기능화를 사용해야 하는지 여부에 대한 ‘auto’ / ‘off’ / FeaturizationConfig 표시기입니다. 참고: 입력 데이터가 희소한 경우 기능화 설정을 켤 수 없습니다.

열 유형이 자동으로 검색됩니다. 검색된 열 유형 전처리/기능화에 따라 다음과 같이 수행됩니다.

범주: 대상 인코딩, 하나의 핫 인코딩, 높은 카디널리티 범주 삭제, 누락 값 귀속.
숫자: 누락 값, 클러스터 거리, 증거의 가중치 귀속.
날짜/시간: 일, 초, 분, 시간 등과 같은 몇 가지 기능.
텍스트: 단어 모음, 미리 학습된 Word 임베딩, 텍스트 대상 인코딩.

자세한 내용은 Python에서 자동화된 ML 실험 구성 문서를 참조하세요.

기능화 단계를 사용자 지정하려면 FeaturizationConfig 개체를 제공합니다. 사용자 지정 기능화는 현재 변환기 세트 차단, 열 용도 업데이트, 변환기 매개 변수 편집, 열 삭제를 지원합니다. 자세한 내용은 기능 엔지니어링 사용자 지정을 참조하세요.

참고: 시계열 기능은 작업 유형이 이 매개 변수와 독립적으로 예측으로 설정된 경우 별도로 처리됩니다.

max_cores_per_iteration: int

필수

지정된 학습 반복에 사용할 최대 스레드 수입니다. 허용되는 값은 다음과 같습니다.

1보다 크고 컴퓨팅 대상의 최대 코어 수보다 작거나 같습니다.
-1과 같으며, 이는 자식 실행당 반복당 가능한 모든 코어를 사용함을 의미합니다.
기본값인 1과 같습니다.

max_concurrent_iterations: int

필수

동시에 실행되는 최대 반복 횟수를 나타냅니다. 기본값은 1입니다.

AmlCompute 클러스터는 노드당 실행되는 하나의 상호 작용을 지원합니다. 단일 AmlCompute 클러스터에서 병렬로 실행되는 여러 AutoML 실험 부모 실행의 경우 모든 실험에 대한 max_concurrent_iterations 값의 합계는 최대 노드 수보다 작거나 같아야 합니다. 이에 해당하지 않으면 노드를 사용할 수 있을 때까지 실행이 대기열에 추가됩니다.
DSVM은 노드당 여러 반복을 지원합니다. max_concurrent_iterations는 DSVM의 코어 수보다 작거나 같아야 합니다. 단일 DSVM에서 병렬로 실행되는 여러 실험의 경우 모든 실험에 대한 max_concurrent_iterations 값의 합은 최대 노드 수보다 작거나 같아야 합니다.
Databricks - max_concurrent_iterations는 Databricks의 작업자 노드 수보다 작거나 같아야 합니다.

max_concurrent_iterations는 로컬 실행에 적용되지 않습니다. 이전에는 이 매개 변수의 이름이 concurrent_iterations로 지정되었습니다.

iteration_timeout_minutes: int

필수

각 반복이 종료되기 전에 실행할 수 있는 최대 시간(분)입니다. 지정하지 않으면 1개월 또는 43,200분 값이 사용됩니다.

mem_in_mb: int

필수

각 반복이 종료되기 전에 실행할 수 있는 최대 메모리 사용량입니다. 지정하지 않으면 1PB 또는 1,073,741,824MB 값이 사용됩니다.

enforce_time_on_windows: bool

필수

Windows의 각 반복에서 모델 학습에 시간 제한을 적용할지 여부입니다. 기본값은 true입니다. Python 스크립트 파일(.py)에서 실행하는 경우 Windows에서 리소스 제한 허용에 대한 설명서를 참조하세요.

experiment_timeout_hours: float

필수

실험을 종료하기까지 모든 반복 조합에 소요되는 최대 시간(시간)입니다. 15분을 나타내는 0.25와 같은 10진수 값도 가능합니다. 지정하지 않으면 기본 실험 시간 제한은 6일입니다. 시간 제한을 1시간 이하로 지정하려면 데이터 세트의 크기가 10,000,000(행 X 열)보다 크지 않거나 오류가 발생하는지 확인하세요.

experiment_exit_score: float

필수

실험의 대상 점수입니다. 이 점수에 도달하면 실험이 종료됩니다. 지정되지 않으면(기준 없음) 실험은 기본 메트릭에서 더 이상 진행되지 않을 때까지 실행됩니다. 종료 조건에 대한 자세한 내용은 이 문서를 참조하세요.

enable_early_stopping: bool

필수

점수가 단기간에 개선되지 않는 경우 조기 종료를 사용할지 여부입니다. 기본값은 true입니다.

조기 중지 논리:

처음 20회 반복(랜드마크)에는 조기 중지가 없습니다.
조기 중지 기간은 21번째 반복에서 시작하고 early_stopping_n_iters 반복을 찾습니다.

(현재 10으로 설정). 즉, 중지가 발생할 수 있는 첫 번째 반복은 31번째입니다.
AutoML은 여전히 조기 중지 후 2개의 앙상블 반복을 예약하므로

더 높은 점수를 얻을 수 있습니다.
계산된 최고점의 절대값이 과거의

early_stopping_n_iters 반복에 대해 동일한 경우, 즉 early_stopping_n_iters 반복에 대한 점수가 개선되지 않은 경우 조기 중지가 트리거됩니다.

blocked_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

실험을 위해 무시할 알고리즘 목록입니다. enable_tf가 False이면 TensorFlow 모델이 blocked_models에 포함됩니다.

blacklist_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

더 이상 사용되지 않는 매개 변수입니다. 대신 blocked_models를 사용합니다.

exclude_nan_labels: bool

필수

레이블에 NaN 값이 있는 행을 제외할지 여부입니다. 기본값은 true입니다.

verbosity: int

필수

로그 파일에 쓰기 위한 세부 정보 표시 수준입니다. 기본값은 INFO 또는 20입니다. 허용되는 값은 Python 로깅 라이브러리에 정의됩니다.

enable_tf: bool

필수

Tensorflow 알고리즘을 사용하거나 사용하지 않는 데 더 이상 사용되지 않는 매개 변수입니다. 기본값은 False입니다.

model_explainability: bool

필수

모든 AutoML 학습 반복이 끝날 때 최상의 AutoML 모델을 설명할 수 있는지 여부입니다. 기본값은 true입니다. 자세한 내용은 해석력: 자동화된 Machine Learning의 모델 설명을 참조하세요.

allowed_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델에서 blocked_models 또는 더 이상 사용되지 않는 TensorFlow 모델에 지정된 모델을 제외하고 사용됩니다. 각 작업 유형에 지원되는 모델은 SupportedModels 클래스에 설명되어 있습니다.

whitelist_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

더 이상 사용되지 않는 매개 변수입니다. 대신 allowed_models를 사용합니다.

enable_onnx_compatible_models: bool

필수

ONNX 호환 모델 적용을 사용하거나 사용하지 않을지 여부입니다. 기본값은 False입니다. ONNX(Open Neural Network Exchange) 및 Azure Machine Learning에 대한 자세한 내용은 이 문서를 참조하세요.

forecasting_parameters: ForecastingParameters

필수

모든 예측 특정 매개 변수를 보유하는 ForecastingParameters 개체입니다.

time_column_name: str

필수

시간 열의 이름입니다. 이 매개 변수는 시계열을 빌드하고 빈도를 유추하는 데 사용되는 입력 데이터에서 날짜/시간 열을 지정하기 위해 예측할 때 필요합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

max_horizon: int

필수

시계열 빈도 단위로 표시되는 원하는 최대 예측 기간입니다. 기본값은 1입니다.

단위는 학습 데이터의 시간 간격(예: 예측자가 예측해야 하는 월별, 매주)을 기반으로 합니다. 작업 형식이 예측되면 이 매개 변수가 필요합니다. 예측 매개 변수 설정에 대한 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

grain_column_names: str 또는 list(str)

필수

시계열을 그룹화하는 데 사용되는 열의 이름입니다. 여러 계열을 만드는 데 사용할 수 있습니다. 조직을 정의하지 않으면 데이터 세트는 하나의 시계열로 간주됩니다. 이 매개 변수는 작업 유형 예측에 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

target_lags: int 또는 list(int)

필수

대상 열에서 지연되는 지난 기간의 수입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

예측할 때 이 매개 변수는 데이터 빈도에 따라 대상 값을 지연시킬 행 수를 나타냅니다. 이는 목록 또는 단일 정수로 표시됩니다. 지연은 독립 변수와 종속 변수 간 관계가 일치하지 않거나 기본적으로 상관 관계가 없는 경우에 사용해야 합니다. 예를 들어 제품에 대한 수요를 예측하려고 할 때 특정 월의 수요는 3개월 전 특정 상품 가격에 따라 달라질 수 있습니다. 이 예에서는 모델이 올바른 관계를 학습하도록 대상(수요)을 -3개월 지연시킬 수 있습니다. 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요.

feature_lags: str

필수

숫자 기능에 대한 지연을 생성하기 위한 플래그입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

target_rolling_window_size: int

필수

대상 열의 롤링 창 평균을 만드는 데 사용된 과거 기간의 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

예측할 때 이 매개 변수는 예측 값을 생성하는 데 사용할 n 과거 기간을 나타냅니다. <= 학습 집합 크기입니다. 생략하면 n은 전체 학습 세트 크기입니다. 모델을 학습시킬 때 특정한 양의 기록만 고려하려는 경우 이 매개 변수를 지정합니다.

country_or_region: str

필수

휴일 기능을 생성하는 데 사용되는 국가/지역입니다. ISO 3166 2자리 국가/지역 코드(예: 'US' 또는 'GB')여야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

use_stl: str

필수

시계열 대상 열의 STL 분해를 구성합니다. use_stl은 세 가지 값, 즉 None(기본값) - stl 분해 없음, ‘season’ - 시즌 구성 요소만 생성, season_trend - 시즌 및 추세 구성 요소 모두 생성을 사용할 수 있습니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

seasonality: int 또는 str

필수

시계열 계절성을 설정합니다. 계절성을 ‘자동’으로 설정하면 계절성이 유추됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

short_series_handling_configuration: str

필수

AutoML에서 짧은 시계열을 처리하는 방법을 정의하는 매개 변수입니다.

가능한 값: 'auto'(기본값), 'pad', 'drop' 및 None.

auto 긴 시리즈가 없으면 짧은 시리즈가 채워지고, 그렇지 않으면 짧은 시리즈가 삭제됩니다.
pad 모든 짧은 시리즈가 채워집니다.
drop 모든 짧은 계열이 삭제됩니다."
None 짧은 시리즈가 수정되지 않습니다. 'pad'로 설정하면 테이블은 회귀 변수에 대한 0과 빈 값으로 채워지고 대상의 임의 값은 지정된 시계열 ID의 대상 값 중앙값과 같은 평균으로 채워집니다. 중앙값이 0보다 크거나 같으면 최소 패딩 값이 0으로 잘립니다. 입력:

날짜

numeric_value

string

대상

2020-01-01

23

green

55

최소 값 수가 4라고 가정한 출력:

날짜

numeric_value

string

대상

2019-12-29

0

해당 없음

55.1

2019-12-30

0

해당 없음

55.6

2019-12-31

0

해당 없음

54.5

2020-01-01

23

green

55

참고: short_series_handling_configuration 매개 변수와 레거시 short_series_handling 매개 변수가 두 개 있습니다. 두 매개 변수가 모두 설정되면 아래 표와 같이 동기화됩니다(간결함을 위해 short_series_handling_configuration 및 short_series_handling은 각각 handling_configuration 및 handling으로 표시됨).

처리

handling_configuration

결과 처리

결과 handling_configuration

True

auto

True

auto

True

패드

True

auto

True

drop

True

auto

True

없음

거짓

없음

False

auto

거짓

없음

False

패드

거짓

없음

False

drop

거짓

없음

거짓

없음

거짓

없음

freq: str 또는 None

필수

예측 빈도입니다.

예측할 때 이 매개 변수는 예측이 필요한 기간을 나타냅니다(예: 매일, 매주, 매년 등). 예측 빈도는 기본적으로 데이터 세트 빈도입니다. 선택적으로 데이터 세트 빈도보다 크게(그러나 작지는 않음) 설정할 수 있습니다. 데이터를 집계하고 예측 빈도로 결과를 생성합니다. 예를 들어, 일별 데이터의 경우 빈도를 매일, 매주 또는 매월로 설정할 수 있지만 매시간은 설정할 수 없습니다. 빈도는 pandas 오프셋 별칭이어야 합니다. 자세한 내용은 pandas 설명서를 참조하세요. https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str 또는 None

필수

사용자가 지정한 빈도를 준수하기 위해 시계열 대상 열을 집계하는 데 사용되는 함수입니다. target_aggregation_function이 설정되었지만 freq 매개 변수가 설정되지 않은 경우 오류가 발생합니다. 가능한 대상 집계 함수는 "sum", "max", "min" 및 "mean"입니다.

주파수

target_aggregation_function

데이터 규칙 수정 메커니즘

없음(기본값)

집계가 적용되지 않습니다. 유효한 빈도를 잠정할 수 없는 경우 오류가 발생합니다.

일부 값

없음(기본값)

집계가 적용되지 않습니다. 지정된 빈도 그리드에 규격된 데이터 포인트 수가 90% 미만이면 이러한 점이 제거되고, 그렇지 않으면 오류가 발생합니다.

없음(기본값)

집계 함수

누락된 빈도 매개 변수에 대한 오류가 발생했습니다.

일부 값

집계 함수

providedaggregation 함수를 사용하여 빈도로 집계합니다.

enable_voting_ensemble: bool

필수

VotingEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. 기본값은 true입니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요.

enable_stack_ensemble: bool

필수

StackEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. 기본값은 None입니다. enable_onnx_compatible_models 플래그가 설정되면 StackEnsemble 반복을 사용할 수 없습니다. 마찬가지로, Timeseries 작업의 경우 StackEnsemble 반복을 기본적으로 사용할 수 없으므로 메타 학습자를 맞춤하는 데 사용되는 작은 학습 세트로 인한 과잉 맞춤의 위험을 방지합니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요.

debug_log: str

필수

디버그 정보를 기록할 로그 파일입니다. 지정하지 않으면 ‘automl.log’가 사용됩니다.

training_data: DataFrame 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 내에서 사용할 학습 데이터입니다. 여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다. training_data가 지정되면 label_column_name 매개 변수도 지정해야 합니다.

training_data는 버전 1.0.81에서 도입되었습니다.

validation_data: DataFrame 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 내에서 사용할 유효성 검사 데이터입니다. 여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다. validation_data가 지정된 경우 training_data 및 label_column_name 매개 변수를 지정해야 합니다.

validation_data는 버전 1.0.81에서 도입되었습니다. 자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

test_data: Dataset 또는 TabularDataset

필수

테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 사용할 테스트 데이터입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측이 제공된 메트릭을 컴퓨팅합니다.

이 매개 변수 또는 test_size 매개 변수를 지정하지 않으면 모델 학습이 완료된 후 테스트 실행이 자동으로 실행되지 않습니다. 테스트 데이터에는 기능과 레이블 열이 모두 포함되어야 합니다. test_data가 지정되면 label_column_name 매개 변수도 지정해야 합니다.

test_size: float

필수

테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 대한 테스트 데이터에 대해 보류할 학습 데이터의 비율입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측이 제공된 메트릭을 컴퓨팅합니다.

이 값은 0.0에서 1.0 사이여야 합니다. test_size가 validation_size와 동시에 지정된 경우 유효성 검사 데이터가 분할되기 전에 테스트 데이터가 training_data에서 분할됩니다. 예를 들어 validation_size=0.1이고 test_size=0.1이며 원래 학습 데이터에 1,000개의 행이 있는 경우 테스트 데이터에는 100개의 행이 있고 유효성 검사 데이터에는 90개의 행이 포함되며 학습 데이터에는 810개의 행이 포함됩니다.

회귀 기반 작업의 경우 무작위 샘플링이 사용됩니다. 분류 작업의 경우 계층화된 샘플링이 사용됩니다. 예측은 현재 학습/테스트 분할을 사용하여 테스트 데이터 세트를 지정하는 것을 지원하지 않습니다.

이 매개 변수 또는 test_data 매개 변수를 지정하지 않으면 모델 학습이 완료된 후 테스트 실행이 자동으로 실행되지 않습니다.

label_column_name: Union[str, int]

필수

레이블 열의 이름입니다. 입력 데이터를 열 이름이 없는 pandas.DataFrame에서 가져온 경우 정수로 표시되는 열 인덱스를 대신 사용할 수 있습니다.

이 매개 변수는 training_data, validation_data, test_data 매개 변수에 적용할 수 있습니다. label_column_name는 버전 1.0.81에서 도입되었습니다.

weight_column_name: Union[str, int]

필수

샘플 가중치 열의 이름입니다. 자동화된 ML은 가중치 열을 입력으로 지원하여 데이터 행의 가중치를 높이거나 낮춥니다. 입력 데이터를 열 이름이 없는 pandas.DataFrame에서 가져온 경우 정수로 표시되는 열 인덱스를 대신 사용할 수 있습니다.

이 매개 변수는 training_data 및 validation_data 매개 변수에 적용할 수 있습니다. weight_column_names는 버전 1.0.81에서 도입되었습니다.

cv_split_column_names: list(str)

필수

사용자 지정 교차 유효성 검사 분할이 포함된 열의 이름 목록입니다. 각 CV 분할 열은 각 행이 학습용인 경우 1로 표시되고 유효성 검사용인 경우 0으로 표시된 하나의 CV 분할을 나타냅니다.

이 매개 변수는 사용자 지정 교차 유효성 검사를 위해 training_data 매개 변수에 적용할 수 있습니다. cv_split_column_names는 버전 1.6.0에서 도입되었습니다.

cv_split_column_names 또는 cv_splits_indices 중 하나를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

enable_local_managed: bool

필수

사용할 수 없는 매개 변수입니다. 현재는 로컬 관리 실행을 사용할 수 없습니다.

enable_dnn: bool

필수

모델을 선택하는 동안 DNN 기반 모델을 포함할지 여부입니다. init의 기본값은 None입니다. 그러나 DNN NLP 태스크의 경우 기본값은 True이고 다른 모든 AutoML 작업에는 False입니다.

task: str 또는 Tasks

필수

실행할 작업의 유형입니다. 값은 해결할 자동화된 ML 문제 유형에 따라 ‘분류’, ‘회귀’ 또는 ‘예측’일 수 있습니다.

path: str

필수

Azure Machine Learning 프로젝트 폴더의 전체 경로입니다. 지정하지 않으면 기본값은 현재 디렉터리 또는 “.”를 사용하는 것입니다.

iterations: int

필수

자동화된 ML 실험 중에 테스트할 다양한 알고리즘 및 매개 변수 조합의 총 개수입니다. 지정하지 않으면 기본값은 1,000회 반복입니다.

primary_metric: str 또는 Metric

필수

자동화된 Machine Learning이 모델 선택에 최적화되는 메트릭입니다. 자동화된 Machine Learning은 최적화할 수 있는 것보다 더 많은 메트릭을 수집합니다. get_primary_metrics를 사용하여 지정된 작업에 대한 유효한 메트릭 목록을 가져올 수 있습니다. 메트릭을 계산하는 방법에 대한 자세한 내용은 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric을 참조하세요.

지정하지 않으면 정확도가 분류 작업에 사용되고, 정규화된 제곱 평균은 예측 및 회귀 작업에 사용되며, 정확도는 이미지 분류 및 이미지 다중 레이블 분류에 사용되고, 평균 정밀도는 이미지 개체 검색에 사용됩니다.

positive_label: Any

필수

자동화된 Machine Learning이 이진 메트릭을 계산하는 데 사용할 양수 클래스 레이블입니다. 이진 메트릭은 분류 작업에 대한 두 가지 조건으로 계산됩니다.

레이블 열은 이진 분류 태스크 AutoML이 positive_label에 전달될 때 지정된 양의 클래스를 사용함을 나타내는 두 개의 클래스로 구성됩니다. 그렇지 않으면 AutoML은 레이블로 인코딩된 값에 따라 양수 클래스를 선택합니다.
positive_label이 지정된 다중 클래스 분류 작업

분류에 대한 자세한 내용은 분류 시나리오에 대한 메트릭을 참조하세요.

compute_target: AbstractComputeTarget

필수

자동화된 Machine Learning 실험을 실행할 Azure Machine Learning 컴퓨팅 대상입니다. 컴퓨팅 대상에 관한 자세한 내용은 https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote를 참조하세요.

spark_context: <xref:SparkContext>

필수

Spark 컨텍스트입니다. Azure Databricks/Spark 환경 내에서 사용하는 경우에만 적용됩니다.

X: DataFrame 또는 ndarray 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 중에 파이프라인을 맞추는 데 사용할 학습 기능입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 label_column_name을 사용하세요.

y: DataFrame 또는 ndarray 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 중에 파이프라인을 맞추는 데 사용할 학습 레이블입니다. 모델이 예측하는 값입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 label_column_name을 사용하세요.

sample_weight: DataFrame 또는 ndarray 또는 TabularDataset

필수

맞춤 파이프라인을 실행할 때 각 학습 샘플에 부여할 가중치로, 각 행이 X 및 y 데이터의 행에 해당해야 합니다.

X를 지정할 때 이 매개 변수를 지정합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 및 weight_column_name을 사용하세요.

X_valid: DataFrame 또는 ndarray 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 중에 파이프라인을 맞출 때 사용할 유효성 검사 기능입니다.

지정된 경우에는 y_valid 또는 sample_weight_valid도 지정해야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 label_column_name을 사용하세요.

y_valid: DataFrame 또는 ndarray 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 중에 파이프라인을 맞출 때 사용할 유효성 검사 레이블입니다.

X_valid 및 y_valid 둘 다 함께 지정해야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 label_column_name을 사용하세요.

sample_weight_valid: DataFrame 또는 ndarray 또는 TabularDataset

필수

채점 파이프라인을 실행할 때 각 유효성 검사 샘플에 부여할 가중치로, 각 행이 X 및 y 데이터의 행에 해당해야 합니다.

X_valid를 지정할 때 이 매개 변수를 지정합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 validation_data 및 weight_column_name을 사용하세요.

cv_splits_indices: List[List[ndarray]]

필수

교차 유효성 검사를 위해 학습 데이터를 분할해야 하는 인덱스입니다. 각 행은 별도의 크로스 폴드이며 각 크로스 폴드 내에서 2개의 numpy 배열을 제공합니다. 첫 번째 배열에는 학습 데이터에 사용할 샘플 인덱스가, 두 번째 배열에는 유효성 검사 데이터에 사용할 인덱스가 있습니다. 즉, [[t1, v1], [t2, v2], ...]에서 t1은 첫 번째 크로스 폴드의 학습 인덱스이고 v1은 첫 번째 크로스 폴드의 유효성 검사 인덱스입니다. 이 옵션은 데이터가 별도의 기능 데이터 세트 및 레이블 열로 전달될 때 지원됩니다.

기존 데이터를 유효성 검사 데이터로 지정하려면 validation_data를 사용합니다. AutoML이 대신 학습 데이터에서 유효성 검사 데이터를 추출하도록 하려면 n_cross_validations 또는 validation_size 중 하나를 지정합니다. training_data에 교차 유효성 검사 열이 있는 경우 cv_split_column_names를 사용합니다.

validation_size: float

필수

사용자 유효성 검사 데이터가 지정되지 않은 경우 유효성 검사를 위해 유지할 데이터의 소수입니다. 이 값은 0.0에서 1.0 사이여야 합니다.

유효성 검사 데이터를 제공하려면 validation_data를 지정하고, 지정된 학습 데이터에서 유효성 검사 데이터를 추출하려면 n_cross_validations 또는 validation_size를 설정합니다. 사용자 지정 교차 유효성 검사 폴드의 경우 cv_split_column_names를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

n_cross_validations: int 또는 str

필수

사용자 유효성 검사 데이터를 지정하지 않은 경우 수행할 교차 유효성 검사의 수입니다.

유효성 검사 데이터를 제공하려면 validation_data를 지정하고, 지정된 학습 데이터에서 유효성 검사 데이터를 추출하려면 n_cross_validations 또는 validation_size를 설정합니다. 사용자 지정 교차 유효성 검사 폴드의 경우 cv_split_column_names를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

y_min: float

필수

회귀 실험에 대한 y의 최솟값입니다. y_min 및 y_max 조합은 입력 데이터 범위를 기반으로 테스트 세트 메트릭을 정규화하는 데 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

y_max: float

필수

회귀 실험에 대한 y의 최댓값입니다. y_min 및 y_max 조합은 입력 데이터 범위를 기반으로 테스트 세트 메트릭을 정규화하는 데 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

num_classes: int

필수

분류 실험에 대한 레이블 데이터의 클래스 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 컴퓨팅됩니다.

featurization: str 또는 FeaturizationConfig

필수

기능화 단계를 자동으로 수행해야 하는지 여부 또는 사용자 지정된 기능화를 사용해야 하는지 여부에 대한 ‘auto’ / ‘off’ / FeaturizationConfig 표시기입니다. 참고: 입력 데이터가 희소한 경우 기능화 설정을 켤 수 없습니다.

열 유형이 자동으로 검색됩니다. 검색된 열 유형 전처리/기능화에 따라 다음과 같이 수행됩니다.

범주: 대상 인코딩, 하나의 핫 인코딩, 높은 카디널리티 범주 삭제, 누락 값 귀속.
숫자: 누락 값, 클러스터 거리, 증거의 가중치 귀속.
날짜/시간: 일, 초, 분, 시간 등과 같은 몇 가지 기능.
텍스트: 단어 모음, 미리 학습된 Word 임베딩, 텍스트 대상 인코딩.

자세한 내용은 Python에서 자동화된 ML 실험 구성 문서를 참조하세요.

기능화 단계를 사용자 지정하려면 FeaturizationConfig 개체를 제공합니다. 사용자 지정 기능화는 현재 변환기 세트 차단, 열 용도 업데이트, 변환기 매개 변수 편집, 열 삭제를 지원합니다. 자세한 내용은 기능 엔지니어링 사용자 지정을 참조하세요.

참고: 시계열 기능은 작업 유형이 이 매개 변수와 독립적으로 예측으로 설정된 경우 별도로 처리됩니다.

max_cores_per_iteration: int

필수

지정된 학습 반복에 사용할 최대 스레드 수입니다. 허용되는 값은 다음과 같습니다.

1보다 크고 컴퓨팅 대상의 최대 코어 수보다 작거나 같습니다.
-1과 같으며, 이는 자식 실행당 반복당 가능한 모든 코어를 사용함을 의미합니다.
기본값인 1과 같습니다.

max_concurrent_iterations: int

필수

동시에 실행되는 최대 반복 횟수를 나타냅니다. 기본값은 1입니다.

AmlCompute 클러스터는 노드당 실행되는 하나의 상호 작용을 지원합니다. 단일 AmlCompute 클러스터에서 병렬로 실행되는 여러 실험의 경우 모든 실험에 대한 값의 max_concurrent_iterations 합계가 최대 노드 수보다 작거나 같아야 합니다.
DSVM은 노드당 여러 반복을 지원합니다. max_concurrent_iterations는 DSVM의 코어 수보다 작거나 같아야 합니다. 단일 DSVM에서 병렬로 실행되는 여러 실험의 경우 모든 실험에 대한 max_concurrent_iterations 값의 합은 최대 노드 수보다 작거나 같아야 합니다.
Databricks - max_concurrent_iterations는 Databricks의 작업자 노드 수보다 작거나 같아야 합니다.

max_concurrent_iterations는 로컬 실행에 적용되지 않습니다. 이전에는 이 매개 변수의 이름이 concurrent_iterations로 지정되었습니다.

iteration_timeout_minutes: int

필수

각 반복이 종료되기 전에 실행할 수 있는 최대 시간(분)입니다. 지정하지 않으면 1개월 또는 43,200분 값이 사용됩니다.

mem_in_mb: int

필수

각 반복이 종료되기 전에 실행할 수 있는 최대 메모리 사용량입니다. 지정하지 않으면 1PB 또는 1,073,741,824MB 값이 사용됩니다.

enforce_time_on_windows: bool

필수

Windows의 각 반복에서 모델 학습에 시간 제한을 적용할지 여부입니다. 기본값은 true입니다. Python 스크립트 파일(.py)에서 실행하는 경우 Windows에서 리소스 제한 허용에 대한 설명서를 참조하세요.

experiment_timeout_hours: float

필수

실험을 종료하기까지 모든 반복 조합에 소요되는 최대 시간(시간)입니다. 15분을 나타내는 0.25와 같은 10진수 값도 가능합니다. 지정하지 않으면 기본 실험 시간 제한은 6일입니다. 시간 제한을 1시간 이하로 지정하려면 데이터 세트의 크기가 10,000,000(행 X 열)보다 크지 않거나 오류가 발생하는지 확인하세요.

experiment_exit_score: float

필수

실험의 대상 점수입니다. 이 점수에 도달하면 실험이 종료됩니다. 지정되지 않으면(기준 없음) 실험은 기본 메트릭에서 더 이상 진행되지 않을 때까지 실행됩니다. 종료 조건에 대한 자세한 내용은 이 >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_<<를 참조하세요.

enable_early_stopping: bool

필수

점수가 단기간에 개선되지 않는 경우 조기 종료를 사용할지 여부입니다. 기본값은 true입니다.

조기 중지 논리:

처음 20회 반복(랜드마크)에는 조기 중지가 없습니다.
초기 중지 창은 21번째 반복에서 시작하여 early_stopping_n_iters 반복(현재 10으로 설정됨)을 찾습니다. 즉, 중지가 발생할 수 있는 첫 번째 반복은 31번째입니다.
AutoML은 조기 중지 후에도 2개의 앙상블 반복을 예약하므로 점수가 높을 수 있습니다.
계산된 최고 점수의 절대값이 과거 early_stopping_n_iters 반복에 대해 동일한 경우, 즉 early_stopping_n_iters 반복에 대한 점수가 개선되지 않으면 조기 중지가 트리거됩니다.

blocked_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

실험을 위해 무시할 알고리즘 목록입니다. enable_tf가 False이면 TensorFlow 모델이 blocked_models에 포함됩니다.

blacklist_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

더 이상 사용되지 않는 매개 변수입니다. 대신 blocked_models를 사용합니다.

exclude_nan_labels: bool

필수

레이블에 NaN 값이 있는 행을 제외할지 여부입니다. 기본값은 true입니다.

verbosity: int

필수

로그 파일에 쓰기 위한 세부 정보 표시 수준입니다. 기본값은 INFO 또는 20입니다. 허용되는 값은 Python 로깅 라이브러리에 정의됩니다.

enable_tf: bool

필수

TensorFlow 알고리즘을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 False입니다.

model_explainability: bool

필수

모든 AutoML 학습 반복이 끝날 때 최상의 AutoML 모델을 설명할 수 있는지 여부입니다. 기본값은 true입니다. 자세한 내용은 해석력: 자동화된 Machine Learning의 모델 설명을 참조하세요.

allowed_models: list(str) 또는 list(Classification) <xref:for classification task> 또는 list(Regression) <xref:for regression task> 또는 list(Forecasting) <xref:for forecasting task>

필수

실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델에서 blocked_models 또는 더 이상 사용되지 않는 TensorFlow 모델에 지정된 모델을 제외하고 사용됩니다. 각 작업 유형에 지원되는 모델은 SupportedModels 클래스에 설명되어 있습니다.

allowed_models

필수

실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델에서 blocked_models 또는 더 이상 사용되지 않는 TensorFlow 모델에 지정된 모델을 제외하고 사용됩니다. 각 작업 유형에 지원되는 모델은 SupportedModels 클래스에 설명되어 있습니다.

whitelist_models

필수

더 이상 사용되지 않는 매개 변수입니다. 대신 allowed_models를 사용합니다.

enable_onnx_compatible_models: bool

필수

ONNX 호환 모델 적용을 사용하거나 사용하지 않을지 여부입니다. 기본값은 False입니다. ONNX(Open Neural Network Exchange) 및 Azure Machine Learning에 대한 자세한 내용은 이 문서를 참조하세요.

forecasting_parameters: ForecastingParameters

필수

모든 예측 특정 매개 변수를 보유할 개체입니다.

time_column_name: str

필수

시간 열의 이름입니다. 이 매개 변수는 시계열을 빌드하고 빈도를 유추하는 데 사용되는 입력 데이터에서 날짜/시간 열을 지정하기 위해 예측할 때 필요합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

max_horizon: int

필수

시계열 빈도 단위로 표시되는 원하는 최대 예측 기간입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

단위는 학습 데이터의 시간 간격(예: 예측자가 예측해야 하는 월별, 매주)을 기반으로 합니다. 작업 형식이 예측되면 이 매개 변수가 필요합니다. 예측 매개 변수 설정에 대한 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요.

grain_column_names: str 또는 list(str)

필수

시계열을 그룹화하는 데 사용되는 열의 이름입니다. 여러 계열을 만드는 데 사용할 수 있습니다. 조직을 정의하지 않으면 데이터 세트는 하나의 시계열로 간주됩니다. 이 매개 변수는 작업 유형 예측에 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

target_lags: int 또는 list(int)

필수

대상 열에서 지연되는 지난 기간의 수입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

예측할 때 이 매개 변수는 데이터 빈도에 따라 대상 값을 지연시킬 행 수를 나타냅니다. 이는 목록 또는 단일 정수로 표시됩니다. 지연은 독립 변수와 종속 변수 간 관계가 일치하지 않거나 기본적으로 상관 관계가 없는 경우에 사용해야 합니다. 예를 들어 제품에 대한 수요를 예측하려고 할 때 특정 월의 수요는 3개월 전 특정 상품 가격에 따라 달라질 수 있습니다. 이 예에서는 모델이 올바른 관계를 학습하도록 대상(수요)을 -3개월 지연시킬 수 있습니다. 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요.

feature_lags: str

필수

숫자 기능에 대한 지연을 생성하기 위한 플래그입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

target_rolling_window_size: int

필수

대상 열의 롤링 창 평균을 만드는 데 사용된 과거 기간의 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

예측할 때 이 매개 변수는 예측 값을 생성하는 데 사용할 n 과거 기간을 나타냅니다. <= 학습 집합 크기입니다. 생략하면 n은 전체 학습 세트 크기입니다. 모델을 학습시킬 때 특정한 양의 기록만 고려하려는 경우 이 매개 변수를 지정합니다.

country_or_region: str

필수

휴일 기능을 생성하는 데 사용되는 국가/지역입니다. ISO 3166 2자리 국가/지역 코드여야 합니다(예: 'US' 또는 'GB'). 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

use_stl: str

필수

시계열 대상 열의 STL 분해를 구성합니다. use_stl은 세 가지 값, 즉 None(기본값) - stl 분해 없음, ‘season’ - 시즌 구성 요소만 생성, season_trend - 시즌 및 추세 구성 요소 모두 생성을 사용할 수 있습니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

seasonality: int

필수

시계열 계절성을 설정합니다. 계절성을 -1로 설정하면 유추됩니다. use_stl이 설정되지 않은 경우 이 매개 변수는 사용되지 않습니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters를 사용하세요.

short_series_handling_configuration: str

필수

AutoML에서 짧은 시계열을 처리하는 방법을 정의하는 매개 변수입니다.

가능한 값: 'auto'(기본값), 'pad', 'drop' 및 None.

auto 긴 시리즈가 없으면 짧은 시리즈가 채워지고, 그렇지 않으면 짧은 시리즈가 삭제됩니다.
pad 모든 짧은 시리즈가 채워집니다.
drop 모든 짧은 계열이 삭제됩니다."
None 짧은 시리즈가 수정되지 않습니다. 'pad'로 설정하면 테이블은 회귀 변수에 대한 0과 빈 값으로 채워지고 대상의 임의 값은 지정된 시계열 ID의 대상 값 중앙값과 같은 평균으로 채워집니다. 중앙값이 0보다 크거나 같으면 최소 패딩 값이 0으로 잘립니다. 입력:

날짜

numeric_value

string

대상

2020-01-01

23

green

55

최소 개수의 값이 4개라고 가정하는 출력: +————+—————+———-+—–+ | 날짜 | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | 녹색 | 55 | +————+—————+———-+——–+

참고: short_series_handling_configuration 매개 변수와 레거시 short_series_handling 매개 변수가 두 개 있습니다. 두 매개 변수가 모두 설정되면 아래 표와 같이 동기화됩니다(간결함을 위해 short_series_handling_configuration 및 short_series_handling은 각각 handling_configuration 및 handling으로 표시됨).

처리

handling_configuration

결과 처리

결과 handling_configuration

True

auto

True

auto

True

패드

True

auto

True

drop

True

auto

True

없음

거짓

없음

False

auto

거짓

없음

False

패드

거짓

없음

False

drop

거짓

없음

거짓

없음

거짓

없음

freq: str 또는 None

필수

예측 빈도입니다.

예측할 때 이 매개 변수는 예측이 필요한 기간을 나타냅니다(예: 매일, 매주, 매년 등). 예측 빈도는 기본적으로 데이터 세트 빈도입니다. 선택적으로 데이터 세트 빈도보다 크게(그러나 작지는 않음) 설정할 수 있습니다. 데이터를 집계하고 예측 빈도로 결과를 생성합니다. 예를 들어, 일별 데이터의 경우 빈도를 매일, 매주 또는 매월로 설정할 수 있지만 매시간은 설정할 수 없습니다. 빈도는 pandas 오프셋 별칭이어야 합니다. 자세한 내용은 pandas 설명서를 참조하세요. https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str 또는 None

필수

사용자가 지정한 빈도를 준수하기 위해 시계열 대상 열을 집계하는 데 사용되는 함수입니다. target_aggregation_function이 설정되었지만 freq 매개 변수가 설정되지 않은 경우 오류가 발생합니다. 가능한 대상 집계 함수는 "sum", "max", "min" 및 "mean"입니다.

주파수

target_aggregation_function

데이터 규칙 수정 메커니즘

없음(기본값)

집계가 적용되지 않습니다. 유효한 빈도를 잠정할 수 없는 경우 오류가 발생합니다.

일부 값

없음(기본값)

집계가 적용되지 않습니다. 지정된 빈도 그리드에 규격된 데이터 포인트 수가 90% 미만이면 이러한 점이 제거되고, 그렇지 않으면 오류가 발생합니다.

없음(기본값)

집계 함수

누락된 빈도 매개 변수에 대한 오류가 발생했습니다.

일부 값

집계 함수

제공된 집계 함수를 사용하여 빈도로 집계합니다.

enable_voting_ensemble: bool

필수

VotingEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. 기본값은 true입니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요.

enable_stack_ensemble: bool

필수

StackEnsemble 반복을 사용하거나 사용하지 않을지 여부입니다. 기본값은 None입니다. enable_onnx_compatible_models 플래그가 설정되면 StackEnsemble 반복을 사용할 수 없습니다. 마찬가지로, Timeseries 작업의 경우 StackEnsemble 반복을 기본적으로 사용할 수 없으므로 메타 학습자를 맞춤하는 데 사용되는 작은 학습 세트로 인한 과잉 맞춤의 위험을 방지합니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요.

debug_log: str

필수

디버그 정보를 기록할 로그 파일입니다. 지정하지 않으면 ‘automl.log’가 사용됩니다.

training_data: DataFrame 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 내에서 사용할 학습 데이터입니다. 여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다. training_data가 지정되면 label_column_name 매개 변수도 지정해야 합니다.

training_data는 버전 1.0.81에서 도입되었습니다.

validation_data: DataFrame 또는 Dataset 또는 DatasetDefinition 또는 TabularDataset

필수

실험 내에서 사용할 유효성 검사 데이터입니다. 여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다. validation_data가 지정된 경우 training_data 및 label_column_name 매개 변수를 지정해야 합니다.

validation_data는 버전 1.0.81에서 도입되었습니다. 자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

test_data: Dataset 또는 TabularDataset

필수

테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 사용할 테스트 데이터입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측이 제공된 메트릭을 컴퓨팅합니다.

이 매개 변수 또는 test_size 매개 변수를 지정하지 않으면 모델 학습이 완료된 후 테스트 실행이 자동으로 실행되지 않습니다. 테스트 데이터에는 기능과 레이블 열이 모두 포함되어야 합니다. test_data가 지정되면 label_column_name 매개 변수도 지정해야 합니다.

test_size: float

필수

테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 대한 테스트 데이터에 대해 보류할 학습 데이터의 비율입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측이 제공된 메트릭을 컴퓨팅합니다.

이 값은 0.0에서 1.0 사이여야 합니다. test_size가 validation_size와 동시에 지정된 경우 유효성 검사 데이터가 분할되기 전에 테스트 데이터가 training_data에서 분할됩니다. 예를 들어 validation_size=0.1이고 test_size=0.1이며 원래 학습 데이터에 1,000개의 행이 있는 경우 테스트 데이터에는 100개의 행이 있고 유효성 검사 데이터에는 90개의 행이 포함되며 학습 데이터에는 810개의 행이 포함됩니다.

회귀 기반 작업의 경우 무작위 샘플링이 사용됩니다. 분류 작업의 경우 계층화된 샘플링이 사용됩니다. 예측은 현재 학습/테스트 분할을 사용하여 테스트 데이터 세트를 지정하는 것을 지원하지 않습니다.

이 매개 변수 또는 test_data 매개 변수를 지정하지 않으면 모델 학습이 완료된 후 테스트 실행이 자동으로 실행되지 않습니다.

label_column_name: Union[str, int]

필수

레이블 열의 이름입니다. 입력 데이터를 열 이름이 없는 pandas.DataFrame에서 가져온 경우 정수로 표시되는 열 인덱스를 대신 사용할 수 있습니다.

이 매개 변수는 training_data, validation_data, test_data 매개 변수에 적용할 수 있습니다. label_column_name는 버전 1.0.81에서 도입되었습니다.

weight_column_name: Union[str, int]

필수

샘플 가중치 열의 이름입니다. 자동화된 ML은 가중치 열을 입력으로 지원하여 데이터 행의 가중치를 높이거나 낮춥니다. 입력 데이터를 열 이름이 없는 pandas.DataFrame에서 가져온 경우 정수로 표시되는 열 인덱스를 대신 사용할 수 있습니다.

이 매개 변수는 training_data 및 validation_data 매개 변수에 적용할 수 있습니다. weight_column_names는 버전 1.0.81에서 도입되었습니다.

cv_split_column_names: list(str)

필수

사용자 지정 교차 유효성 검사 분할이 포함된 열의 이름 목록입니다. 각 CV 분할 열은 각 행이 학습용인 경우 1로 표시되고 유효성 검사용인 경우 0으로 표시된 하나의 CV 분할을 나타냅니다.

이 매개 변수는 사용자 지정 교차 유효성 검사를 위해 training_data 매개 변수에 적용할 수 있습니다. cv_split_column_names는 버전 1.6.0에서 도입되었습니다.

cv_split_column_names 또는 cv_splits_indices 중 하나를 사용합니다.

자세한 내용은 자동화된 Machine Learning에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.

enable_local_managed: bool

필수

사용할 수 없는 매개 변수입니다. 현재는 로컬 관리 실행을 사용할 수 없습니다.

enable_dnn: bool

필수

모델을 선택하는 동안 DNN 기반 모델을 포함할지 여부입니다. init의 기본값은 None입니다. 그러나 DNN NLP 태스크의 경우 기본값은 True이고 다른 모든 AutoML 작업에는 False입니다.

as_serializable_dict	개체를 사전으로 변환합니다.
get_supported_dataset_languages	ISO 639-3에서 지원되는 언어 및 해당 언어 코드를 가져옵니다.

AutoMLConfig 클래스

생성자

매개 변수

설명

메서드

as_serializable_dict

get_supported_dataset_languages

매개 변수

반환

피드백

피드백

추가 리소스