azureml.train.automl.automlconfig.AutoMLConfig class - Azure Machine Learning Python

task: str nebo Tasks

Vyžadováno

Typ úlohy, která se má spustit. Hodnoty můžou být "klasifikace", "regrese" nebo "prognózování" v závislosti na typu automatizovaného problému strojového učení, který se má vyřešit.

path: str

Vyžadováno

Úplná cesta ke složce projektu Azure Machine Learning. Pokud není zadán, použije se výchozí adresář nebo ".".

iterations: int

Vyžadováno

Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během automatizovaného experimentu strojového učení. Pokud není zadáno, výchozí hodnota je 1000 iterací.

primary_metric: str nebo Metric

Vyžadováno

Metrika, kterou automatizované strojové učení optimalizuje pro výběr modelu. Automatizované strojové učení shromažďuje více metrik, než dokáže optimalizovat. Můžete použít get_primary_metrics k získání seznamu platných metrik pro daný úkol. Další informace o způsobu výpočtu metrik najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Pokud není zadáno, používá se pro úlohy klasifikace přesnost, normalizované střední kvadratický odmocniny se používá pro úlohy prognózování a regrese, přesnost se používá pro klasifikaci obrázků a klasifikaci obrázků s více popisky a střední průměrná přesnost se používá pro detekci objektů obrázku.

positive_label: Any

Vyžadováno

Pozitivní popisek třídy, který automatizované strojové učení použije k výpočtu binárních metrik. Binární metriky se pro úlohy klasifikace počítají za dvou podmínek:

sloupec label se skládá ze dvou tříd označujících, že úloha binární klasifikace AutoML použije při předání positive_label zadanou kladnou třídu, jinak AutoML vybere kladnou třídu založenou na hodnotě zakódované popiskem.
úloha klasifikace více tříd se zadanými positive_label

Další informace o klasifikaci najdete v tématu Metriky pro scénáře klasifikace.

compute_target: AbstractComputeTarget

Vyžadováno

Cílový výpočetní objekt služby Azure Machine Learning pro spuštění experimentu automatizovaného strojového učení Další informace o cílových výpočetních prostředcích najdete v tématu https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .

spark_context: <xref:SparkContext>

Vyžadováno

Kontext Sparku. Platí jenom při použití v prostředí Azure Databricks/Spark.

X: DataFrame nebo ndarray nebo Dataset nebo TabularDataset

Vyžadováno

Trénovací funkce, které se mají použít při nastavování kanálů během experimentu. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name.

y: DataFrame nebo ndarray nebo Dataset nebo TabularDataset

Vyžadováno

Popisky trénování, které se mají použít při nastavování kanálů během experimentu. Jedná se o hodnotu, kterou váš model předpovídá. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name.

sample_weight: DataFrame nebo ndarray nebo TabularDataset

Vyžadováno

Váha, která se má přidělovat každému trénovacímu vzorku při spouštění kanálů fitingu, by měl každý řádek odpovídat řádku v datech X a y.

Tento parametr zadejte při zadávání X. Toto nastavení je zastaralé. Místo toho použijte training_data a weight_column_name.

X_valid: DataFrame nebo ndarray nebo Dataset nebo TabularDataset

Vyžadováno

Funkce ověřování, které se mají použít při nastavování kanálů během experimentu.

Pokud je zadáno, pak y_valid nebo sample_weight_valid musí být také zadán. Toto nastavení je zastaralé. Místo toho použijte validation_data a label_column_name.

y_valid: DataFrame nebo ndarray nebo Dataset nebo TabularDataset

Vyžadováno

Ověřovací popisky, které se mají použít při nastavování kanálů během experimentu.

Obě X_valid a y_valid musí být zadány společně. Toto nastavení je zastaralé. Místo toho použijte validation_data a label_column_name.

sample_weight_valid: DataFrame nebo ndarray nebo TabularDataset

Vyžadováno

Váha, která se má přidělovat každému ověřovacímu vzorku při spouštění kanálů bodování, by každý řádek měl odpovídat řádku v datech X a y.

Tento parametr zadejte při zadávání X_valid. Toto nastavení je zastaralé. Místo toho použijte validation_data a weight_column_name.

cv_splits_indices: List[List[ndarray]]

Vyžadováno

Indexy, kde se mají rozdělit trénovací data pro křížové ověření. Každý řádek je samostatný křížek a v rámci každého křížku poskytuje 2 matice numpy, první s indexy pro vzorky, které se mají použít pro trénovací data, a druhý s indexy, které se mají použít pro ověřovací data. tj. [[t1, v1], [t2, v2], ...] kde t1 jsou trénovací indexy pro první kříž a v1 jsou ověřovací indexy pro první kříž.

Pokud chcete jako ověřovací data zadat existující data, použijte validation_data. Pokud chcete, aby autoML místo toho extrahovali ověřovací data z trénovacích dat, zadejte buď n_cross_validations nebo validation_size. Použijte cv_split_column_names , pokud máte sloupce křížového ověření v training_datanástroji .

validation_size: float

Vyžadováno

Jaký zlomek dat se má uchovávat pro ověření, když nejsou zadána data ověření uživatele. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění.

Zadejte validation_data , jestli chcete zadat ověřovací data, jinak nastavit n_cross_validations nebo validation_size extrahovat ověřovací data ze zadaných trénovacích dat. Pokud chcete použít vlastní křížové ověření, použijte cv_split_column_names.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

n_cross_validations: int

Vyžadováno

Kolik křížových ověření se má provést, když nejsou zadána data ověření uživatele.

Zadejte validation_data , jestli chcete zadat ověřovací data, jinak nastavit n_cross_validations nebo validation_size extrahovat ověřovací data ze zadaných trénovacích dat. Pokud chcete použít vlastní křížové ověření, použijte cv_split_column_names.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

y_min: float

Vyžadováno

Minimální hodnota y pro regresní experiment. Kombinace y_min a y_max slouží k normalizaci metrik testovací sady na základě oblasti vstupních dat. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

y_max: float

Vyžadováno

Maximální hodnota y pro regresní experiment. Kombinace y_min a y_max slouží k normalizaci metrik testovací sady na základě oblasti vstupních dat. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

num_classes: int

Vyžadováno

Počet tříd v datech popisku pro experiment klasifikace. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

featurization: str nebo FeaturizationConfig

Vyžadováno

'auto' / "vypnuto" / FeaturizationConfig Indikátor pro to, zda má být krok featurizace proveden automaticky nebo ne, nebo zda se má použít přizpůsobená featurizace. Poznámka: Pokud jsou vstupní data zhuštěná, nelze funkciaturaci zapnout.

Typ sloupce se zjistí automaticky. Na základě zjištěného typu sloupce se předzpracování/featurizace provádí následujícím způsobem:

Kategorické: Cílové kódování, jedno horké kódování, vyřaďte kategorie s vysokou kardinalitou, přičítáte chybějící hodnoty.
Numerické: Přičítá chybějící hodnoty, vzdálenost shluků, váhu důkazů.
DateTime: Několik funkcí, jako jsou den, sekundy, minuty, hodiny atd.
Text: Taška slov, předem natrénované Word vkládání, kódování cíle textu.

Další podrobnosti najdete v článku Konfigurace experimentů automatizovaného strojového učení v Pythonu.

Pokud chcete přizpůsobit krok featurizace, zadejte objekt FeaturizationConfig. Přizpůsobená funkce funkce v současné době podporuje blokování sady transformátorů, aktualizaci účelu sloupce, úpravu parametrů transformátoru a odstraňování sloupců. Další informace najdete v tématu Přizpůsobení přípravy funkcí.

Poznámka: Funkce Timeseries se zpracovávají samostatně, pokud je typ úlohy nastavený na prognózování nezávisle na tomto parametru.

max_cores_per_iteration: int

Vyžadováno

Maximální počet vláken, která se mají použít pro danou iteraci trénování. Přijatelné hodnoty:

Větší než 1 a menší nebo roven maximálnímu počtu jader na cílovém výpočetním objektu.
Rovná se hodnotě -1, což znamená použít všechna možná jádra na iteraci na podřízené spuštění.
Výchozí hodnota je rovna 1.

max_concurrent_iterations: int

Vyžadováno

Představuje maximální počet iterací, které by byly provedeny paralelně. Výchozí hodnota je 1.

Clustery AmlCompute podporují jednu interaci spuštěnou na jeden uzel. V případě několika nadřazených spuštění experimentů AutoML spuštěných paralelně v jednom clusteru AmlCompute by součet max_concurrent_iterations hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů. V opačném případě budou spuštění zařazena do fronty, dokud nebudou k dispozici uzly.
DSVM podporuje více iterací na uzel. max_concurrent_iterations by měl být menší nebo roven počtu jader na DSVM. V případě několika experimentů spuštěných paralelně na jednom DSVM by součet max_concurrent_iterations hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů.
Databricks – max_concurrent_iterations počet pracovních uzlů v Databricks by měl být menší nebo roven.

max_concurrent_iterations se nevztahuje na místní spuštění. Dříve se tento parametr jmenoval concurrent_iterations.

iteration_timeout_minutes: int

Vyžadováno

Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut.

mem_in_mb: int

Vyžadováno

Maximální využití paměti, pro které může každá iterace běžet před jejím ukončením. Pokud není zadán, použije se hodnota 1 PB nebo 1073741824 MB.

enforce_time_on_windows: bool

Vyžadováno

Jestli se má vynucovat časový limit pro trénování modelu při každé iteraci ve Windows. Výchozí hodnota je Pravda. Pokud se spouští ze souboru skriptu Pythonu (.py), projděte si dokumentaci k povolení limitů prostředků ve Windows.

experiment_timeout_hours: float

Vyžadováno

Maximální doba v hodinách, kterou můžou všechny kombinované iterace trvat, než se experiment ukončí. Může to být desetinná hodnota, například 0,25 představující 15 minut. Pokud není zadaný, výchozí časový limit experimentu je 6 dní. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby nedošlo k chybě.

experiment_exit_score: float

Vyžadováno

Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadáno (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další pokrok. Další informace o kritériích ukončení najdete v tomto článku.

enable_early_stopping: bool

Vyžadováno

Zda povolit předčasné ukončení, pokud se skóre v krátkodobém horizontu nezlepšuje. Výchozí hodnota je Pravda.

Logika předčasného zastavení:

Prvních 20 iterací (orientačních bodů) se nezastavuje.
Při 21. iteraci se spustí okno předčasného zastavení a hledá early_stopping_n_iters iterací.

(aktuálně nastaveno na hodnotu 10). To znamená, že první iterace, kde může dojít k zastavení, je 31.
AutoML stále plánuje 2 iterace souborů po brzkém zastavení, což může mít za následek

vyšší skóre.
Předčasné zastavení se aktivuje, pokud je absolutní hodnota vypočítaného nejlepšího skóre stejná jako v minulosti.

early_stopping_n_iters iterací, tj. pokud nedojde ke zlepšení skóre pro early_stopping_n_iters iterací.

blocked_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Seznam algoritmů, které se při experimentu mají ignorovat. Pokud enable_tf je false, jsou modely TensorFlow součástí blocked_models.

blacklist_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Zastaralý parametr, použijte místo toho blocked_models.

exclude_nan_labels: bool

Vyžadováno

Zda se mají vyloučit řádky s hodnotami NaN v popisku. Výchozí hodnota je Pravda.

verbosity: int

Vyžadováno

Úroveň podrobností pro zápis do souboru protokolu. Výchozí hodnota je INFO nebo 20. Přijatelné hodnoty jsou definované v knihovně protokolování Pythonu.

enable_tf: bool

Vyžadováno

Zastaralý parametr pro povolení nebo zakázání algoritmů Tensorflow. Výchozí hodnota je Nepravda.

model_explainability: bool

Vyžadováno

Jestli chcete povolit vysvětlení nejlepšího modelu AutoML na konci všech iterací trénování autoML. Výchozí hodnota je Pravda. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení.

allowed_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v blocked_models modelech TensorFlow nebo zastaralé modely TensorFlow. Podporované modely pro každý typ úlohy jsou popsány SupportedModels ve třídě .

whitelist_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Zastaralý parametr, místo toho použijte allowed_models.

enable_onnx_compatible_models: bool

Vyžadováno

Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a Azure Machine Learning najdete v tomto článku.

forecasting_parameters: ForecastingParameters

Vyžadováno

ForecastingParameters Objekt pro uložení všech parametrů specifických pro prognózu.

time_column_name: str

Vyžadováno

Název sloupce času. Tento parametr se vyžaduje při prognózování, aby bylo možné zadat sloupec datetime ve vstupních datech použitých pro sestavení časové řady a odvození její frekvence. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

max_horizon: int

Vyžadováno

Požadovaný maximální horizont prognózy v jednotkách frekvence časových řad. Výchozí hodnota je 1.

Jednotky jsou založené na časovém intervalu trénovacích dat, například měsíčních nebo týdenních, které by měl prognózovat. Při prognózování typu úkolu je tento parametr povinný. Další informace o nastavení parametrů prognózy najdete v tématu Automatické trénování modelu prognózy časových řad. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

grain_column_names: str nebo list(str)

Vyžadováno

Názvy sloupců sloužících k seskupení časových intervalů Dá se použít k vytvoření více řad. Pokud není definováno zrnění, předpokládá se, že datová sada je jednou časovou řadou. Tento parametr se používá s prognózováním typu úlohy. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

target_lags: int nebo list(int)

Vyžadováno

Počet minulých období, která mají být zpožděna od cílového sloupce. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

Při prognózování tento parametr představuje počet řádků, které mají zaostávat v cílových hodnotách na základě frekvence dat. Toto je reprezentováno jako seznam nebo jedno celé číslo. Prodleva by se měla použít, pokud se vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení neshoduje nebo nekoreluje. Například při pokusu o odhad poptávky po produktu může poptávka v libovolném měsíci záviset na ceně konkrétních komodit před 3 měsíci. V tomto příkladu můžete chtít záporně zaostávat cíl (poptávka) o 3 měsíce, aby model trénoval na správné relaci. Další informace najdete v tématu Automatické trénování modelu prognózy časových řad.

feature_lags: str

Vyžadováno

Příznak pro generování prodlev pro číselné funkce Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

target_rolling_window_size: int

Vyžadováno

Počet minulých období použitých k vytvoření průměru klouzavého okna cílového sloupce. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

Při prognózování tento parametr představuje n historických období, která se mají použít ke generování předpokládaných hodnot, <= velikost trénovací sady. Pokud ho vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu jenom určitou část historie.

country_or_region: str

Vyžadováno

Země nebo oblast, která se používá k vygenerování funkcí svátků. Mělo by to být dvoumísmenný kód země/oblasti ISO 3166, například "US" nebo "GB". Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

use_stl: str

Vyžadováno

Nakonfigurujte rozklad STL cílového sloupce časové řady. use_stl můžou mít tři hodnoty: Žádné (výchozí) – bez rozkladu stl, 'season' - pouze generovat komponentu sezóny a season_trend - generovat komponenty sezóny i trendu. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

seasonality: int nebo str

Vyžadováno

Nastavte sezónnost časových řad. Pokud je sezónnost nastavená na "auto", bude odvozena. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

short_series_handling_configuration: str

Vyžadováno

Parametr definující, jak má AutoML zpracovávat krátké časové řady.

Možné hodnoty: "auto" (výchozí), 'pad', 'drop' a None.

Automatické krátké řady budou polstrovány, pokud neexistují dlouhé řady, jinak budou krátké řady vyřazeny.
všechny krátké řady budou polstrovány.
všechny krátké řady budou vyřazeny".
Žádná krátká řada nebude změněna. Pokud je nastavená hodnota pad, tabulka bude vyplněna nulami a prázdnými hodnotami regresorů a náhodnými hodnotami pro cíl s průměrem, který se rovná mediánu cílové hodnoty pro dané ID časové řady. Pokud je medián větší nebo roven nule, minimální polstrovaná hodnota bude oříznuta nulou: Vstup:

Date (Datum)

numeric_value

řetězec

Cíl

01. 01. 2020

23

green

55

Výstup za předpokladu, že minimální počet hodnot jsou čtyři:

Date (Datum)

numeric_value

řetězec

Cíl

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

01. 01. 2020

23

green

55

Poznámka: Máme dva parametry short_series_handling_configuration a starší short_series_handling. Když jsou oba parametry nastavené, synchronizujeme je, jak je znázorněno v následující tabulce (short_series_handling_configuration a short_series_handling pro zkrácení jsou označeny jako handling_configuration a zpracování).

Zpracování

handling_configuration

výsledná manipulace

výsledné handling_configuration

Ano

auto

Ano

auto

Ano

Pad

Ano

auto

Ano

drop

Ano

auto

Ano

Žádné

Ne

Žádné

Ne

auto

Ne

Žádné

Ne

Pad

Ne

Žádné

Ne

drop

Ne

Žádné

Ne

Žádné

Ne

Žádné

freq: str nebo None

Vyžadováno

Četnost prognóz.

Při prognózování tento parametr představuje období, se kterým je prognóza požadovaná, například denně, týdně, ročně atd. Frekvence prognózy je ve výchozím nastavení frekvence datové sady. Volitelně můžete nastavit větší (ale ne menší) frekvenci datové sady. Data agregujeme a vygenerujeme výsledky s frekvencí prognózy. Například u denních dat můžete nastavit denní, týdenní nebo měsíční frekvenci, ale ne hodinovou. Četností musí být alias posunu pandas. Další informace najdete v dokumentaci k knihovně pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str nebo None

Vyžadováno

Funkce, která se má použít k agregaci cílového sloupce časové řady tak, aby odpovídala frekvenci zadané uživatelem. Pokud je target_aggregation_function nastaven, ale není nastavený parametr freq, dojde k chybě. Možné cílové agregační funkce jsou: "sum", "max", "min" a "mean".

Frekvence

target_aggregation_function

Mechanismus opravy správnosti údajů

Žádné (výchozí)

Agregace se nepoužije. Pokud nelze určit platnou frekvenci, bude vyvolána chyba.

Nějaká hodnota

Žádné (výchozí)

Agregace se nepoužije. Pokud je počet datových bodů vyhovujících dané mřížce četnosti menší, budou tyto body odebrány, jinak dojde k chybě.

Žádné (výchozí)

Agregační funkce

Došlo k chybě týkající se chybějícího parametru frekvence.

Nějaká hodnota

Agregační funkce

Agregace na frekvenci pomocí funkce providedaggregation

enable_voting_ensemble: bool

Vyžadováno

Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Výchozí hodnota je Pravda. Další informace o souborech najdete v tématu Konfigurace souboru.

enable_stack_ensemble: bool

Vyžadováno

Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Výchozí hodnota je Žádný. Pokud se nastavuje příznak enable_onnx_compatible_models , bude iterace StackEnsemble zakázaná. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě použité k přizpůsobení meta learneru. Další informace o souborech najdete v tématu Konfigurace souboru.

debug_log: str

Vyžadováno

Soubor protokolu, do který chcete zapisovat informace o ladění. Pokud není zadaný, použije se automl.log.

training_data: DataFrame nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Trénovací data, která se mají použít v rámci experimentu. Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku). Pokud training_data je zadaný, label_column_name musí být zadán také parametr.

training_data byl zaveden ve verzi 1.0.81.

validation_data: DataFrame nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Ověřovací data, která se mají použít v rámci experimentu. Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku). Pokud validation_data je zadán, pak training_data a label_column_name parametry musí být zadány.

validation_data byl zaveden ve verzi 1.0.81. Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

test_data: Dataset nebo TabularDataset

Vyžadováno

Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Testovací data, která se mají použít pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi.

Pokud tento parametr nebo test_size parametr nejsou zadány, po dokončení trénování modelu se automaticky neprovede žádné testovací spuštění. Testovací data by měla obsahovat funkce i sloupec popisků. Pokud test_data je zadaný label_column_name parametr, musí být zadán parametr.

test_size: float

Vyžadováno

Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Jaký zlomek trénovacích dat se má uchovávat pro testovací data pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi.

Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění. Pokud test_size je zadána ve stejnou dobu jako validation_size, pak se testovací data před rozdělením ověřovacích dat rozdělí training_data . Pokud validation_size=0.1například a test_size=0.1 původní trénovací data mají 1000 řádků, testovací data budou mít 100 řádků, ověřovací data budou obsahovat 90 řádků a trénovací data budou mít 810 řádků.

Pro úlohy založené na regresi se používá náhodný vzorkování. Pro úlohy klasifikace se používá stratifikované vzorkování. Prognózování v současné době nepodporuje zadání testovací datové sady pomocí rozdělení trénování a testu.

Pokud tento parametr nebo test_data parametr nejsou zadány, po dokončení trénování modelu se automaticky neprovede žádné testovací spuštění.

label_column_name: Union[str, int]

Vyžadováno

Název sloupce popisku Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla.

Tento parametr se vztahuje na training_dataparametry a test_datavalidation_data . label_column_name byl zaveden ve verzi 1.0.81.

weight_column_name: Union[str, int]

Vyžadováno

Název sloupce hmotnosti vzorku. Automatizované strojové učení podporuje jako vstup vážený sloupec, což způsobuje, že se řádky v datech váží nahoru nebo dolů. Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla.

Tento parametr platí pro training_data parametry a validation_data . weight_column_names byl zaveden ve verzi 1.0.81.

cv_split_column_names: list(str)

Vyžadováno

Seznam názvů sloupců, které obsahují vlastní rozdělení křížového ověření Každý ze sloupců s rozdělením životopisu představuje jedno rozdělení CV, kde každý řádek je označený buď 1 pro trénování, nebo 0 pro ověření.

Tento parametr se vztahuje na training_data parametr pro účely vlastního křížového ověření. cv_split_column_names byla zavedena ve verzi 1.6.0

Použijte nebo cv_split_column_namescv_splits_indices.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

enable_local_managed: bool

Vyžadováno

Zakázaný parametr. Místní spravovaná spuštění nelze v tuto chvíli povolit.

enable_dnn: bool

Vyžadováno

Zda se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota v inicializaci je Žádná. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatického strojového učení je nepravda.

task: str nebo Tasks

Vyžadováno

Typ úlohy, která se má spustit. Hodnoty můžou být "klasifikace", "regrese" nebo "prognózování" v závislosti na typu automatizovaného problému strojového učení, který se má vyřešit.

path: str

Vyžadováno

Úplná cesta ke složce projektu Azure Machine Learning. Pokud není zadán, použije se výchozí adresář nebo ".".

iterations: int

Vyžadováno

Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během automatizovaného experimentu strojového učení. Pokud není zadáno, výchozí hodnota je 1000 iterací.

primary_metric: str nebo Metric

Vyžadováno

Metrika, kterou automatizované strojové učení optimalizuje pro výběr modelu. Automatizované strojové učení shromažďuje více metrik, než dokáže optimalizovat. Můžete použít get_primary_metrics k získání seznamu platných metrik pro daný úkol. Další informace o způsobu výpočtu metrik najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Pokud není zadáno, používá se pro úlohy klasifikace přesnost, normalizované střední kvadratický odmocniny se používá pro úlohy prognózování a regrese, přesnost se používá pro klasifikaci obrázků a klasifikaci obrázků s více popisky a střední průměrná přesnost se používá pro detekci objektů obrázku.

positive_label: Any

Vyžadováno

Pozitivní popisek třídy, který automatizované strojové učení použije k výpočtu binárních metrik. Binární metriky se pro úlohy klasifikace počítají za dvou podmínek:

sloupec label se skládá ze dvou tříd označujících, že úloha binární klasifikace AutoML použije při předání positive_label zadanou kladnou třídu, jinak AutoML vybere kladnou třídu založenou na hodnotě zakódované popiskem.
úloha klasifikace více tříd se zadanými positive_label

Další informace o klasifikaci najdete v tématu Metriky pro scénáře klasifikace.

compute_target: AbstractComputeTarget

Vyžadováno

Cílový výpočetní objekt služby Azure Machine Learning pro spuštění experimentu automatizovaného strojového učení Další informace o cílových výpočetních prostředcích najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote .

spark_context: <xref:SparkContext>

Vyžadováno

Kontext Sparku. Platí jenom při použití v prostředí Azure Databricks/Spark.

X: DataFrame nebo ndarray nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Trénovací funkce, které se mají použít při nastavování kanálů během experimentu. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name.

y: DataFrame nebo ndarray nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Popisky trénování, které se mají použít při nastavování kanálů během experimentu. Jedná se o hodnotu, kterou váš model předpovídá. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name.

sample_weight: DataFrame nebo ndarray nebo TabularDataset

Vyžadováno

Váha, která se má přidělovat každému trénovacímu vzorku při spouštění kanálů fitingu, by měl každý řádek odpovídat řádku v datech X a y.

Tento parametr zadejte při zadávání X. Toto nastavení je zastaralé. Místo toho použijte training_data a weight_column_name.

X_valid: DataFrame nebo ndarray nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Funkce ověřování, které se mají použít při nastavování kanálů během experimentu.

Pokud je zadáno, pak y_valid nebo sample_weight_valid musí být také zadán. Toto nastavení je zastaralé. Místo toho použijte validation_data a label_column_name.

y_valid: DataFrame nebo ndarray nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Ověřovací popisky, které se mají použít při nastavování kanálů během experimentu.

Obě X_valid a y_valid musí být zadány společně. Toto nastavení je zastaralé. Místo toho použijte validation_data a label_column_name.

sample_weight_valid: DataFrame nebo ndarray nebo TabularDataset

Vyžadováno

Váha, která se má přidělovat každému ověřovacímu vzorku při spouštění kanálů bodování, by každý řádek měl odpovídat řádku v datech X a y.

Tento parametr zadejte při zadávání X_valid. Toto nastavení je zastaralé. Místo toho použijte validation_data a weight_column_name.

cv_splits_indices: List[List[ndarray]]

Vyžadováno

Indexy, kde se mají rozdělit trénovací data pro křížové ověření. Každý řádek je samostatný křížek a v rámci každého křížku poskytuje 2 matice numpy, první s indexy pro vzorky, které se mají použít pro trénovací data, a druhý s indexy, které se mají použít pro ověřovací data. tj. [[t1, v1], [t2, v2], ...] kde t1 jsou trénovací indexy pro první kříž a v1 jsou ověřovací indexy pro první kříž. Tato možnost se podporuje, když se data předávají jako samostatná datová sada funkcí a sloupec Popisek.

Pokud chcete jako ověřovací data zadat existující data, použijte validation_data. Pokud chcete, aby autoML místo toho extrahovali ověřovací data z trénovacích dat, zadejte buď n_cross_validations nebo validation_size. Použijte cv_split_column_names , pokud máte sloupce křížového ověření v training_datanástroji .

validation_size: float

Vyžadováno

Jaký zlomek dat se má uchovávat pro ověření, když nejsou zadána data ověření uživatele. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění.

Zadejte validation_data , jestli chcete zadat ověřovací data, jinak nastavit n_cross_validations nebo validation_size extrahovat ověřovací data ze zadaných trénovacích dat. Pokud chcete použít vlastní křížové ověření, použijte cv_split_column_names.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

n_cross_validations: int nebo str

Vyžadováno

Kolik křížových ověření se má provést, když nejsou zadána data ověření uživatele.

Zadejte validation_data , jestli chcete zadat ověřovací data, jinak nastavit n_cross_validations nebo validation_size extrahovat ověřovací data ze zadaných trénovacích dat. Pokud chcete použít vlastní křížové ověření, použijte cv_split_column_names.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

y_min: float

Vyžadováno

Minimální hodnota y pro regresní experiment. Kombinace y_min a y_max slouží k normalizaci metrik testovací sady na základě oblasti vstupních dat. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

y_max: float

Vyžadováno

Maximální hodnota y pro regresní experiment. Kombinace y_min a y_max slouží k normalizaci metrik testovací sady na základě oblasti vstupních dat. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

num_classes: int

Vyžadováno

Počet tříd v datech popisku pro experiment klasifikace. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat.

featurization: str nebo FeaturizationConfig

Vyžadováno

'auto' / "vypnuto" / FeaturizationConfig Indikátor pro to, zda má být krok featurizace proveden automaticky nebo ne, nebo zda se má použít přizpůsobená featurizace. Poznámka: Pokud jsou vstupní data zhuštěná, nelze funkciaturaci zapnout.

Typ sloupce se zjistí automaticky. Na základě zjištěného typu sloupce se předzpracování/featurizace provádí následujícím způsobem:

Kategorické: Cílové kódování, jedno horké kódování, vyřaďte kategorie s vysokou kardinalitou, přičítáte chybějící hodnoty.
Numerické: Přičítá chybějící hodnoty, vzdálenost shluků, váhu důkazů.
DateTime: Několik funkcí, jako jsou den, sekundy, minuty, hodiny atd.
Text: Taška slov, předem natrénované Word vkládání, kódování cíle textu.

Další podrobnosti najdete v článku Konfigurace experimentů automatizovaného strojového učení v Pythonu.

Pokud chcete přizpůsobit krok featurizace, zadejte objekt FeaturizationConfig. Přizpůsobená funkce funkce v současné době podporuje blokování sady transformátorů, aktualizaci účelu sloupce, úpravu parametrů transformátoru a odstraňování sloupců. Další informace najdete v tématu Přizpůsobení přípravy funkcí.

Poznámka: Funkce Timeseries se zpracovávají samostatně, pokud je typ úlohy nastavený na prognózování nezávisle na tomto parametru.

max_cores_per_iteration: int

Vyžadováno

Maximální počet vláken, která se mají použít pro danou iteraci trénování. Přijatelné hodnoty:

Větší než 1 a menší nebo roven maximálnímu počtu jader na cílovém výpočetním objektu.
Rovná se hodnotě -1, což znamená použít všechna možná jádra na iteraci na podřízené spuštění.
Výchozí hodnota je rovna 1.

max_concurrent_iterations: int

Vyžadováno

Představuje maximální počet iterací, které by byly provedeny paralelně. Výchozí hodnota je 1.

Clustery AmlCompute podporují jednu interaci spuštěnou na jeden uzel. V případě několika experimentů spuštěných paralelně v jednom clusteru AmlCompute by součet max_concurrent_iterations hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů.
DSVM podporuje více iterací na uzel. max_concurrent_iterations by měl být menší nebo roven počtu jader na DSVM. V případě několika experimentů spuštěných paralelně na jednom DSVM by součet max_concurrent_iterations hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů.
Databricks – max_concurrent_iterations počet pracovních uzlů v Databricks by měl být menší nebo roven.

max_concurrent_iterations se nevztahuje na místní spuštění. Dříve se tento parametr jmenoval concurrent_iterations.

iteration_timeout_minutes: int

Vyžadováno

Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut.

mem_in_mb: int

Vyžadováno

Maximální využití paměti, pro které může každá iterace běžet před jejím ukončením. Pokud není zadán, použije se hodnota 1 PB nebo 1073741824 MB.

enforce_time_on_windows: bool

Vyžadováno

Jestli se má vynucovat časový limit pro trénování modelu při každé iteraci ve Windows. Výchozí hodnota je Pravda. Pokud se spouští ze souboru skriptu Pythonu (.py), projděte si dokumentaci k povolení limitů prostředků ve Windows.

experiment_timeout_hours: float

Vyžadováno

Maximální doba v hodinách, kterou můžou všechny kombinované iterace trvat, než se experiment ukončí. Může to být desetinná hodnota, například 0,25 představující 15 minut. Pokud není zadaný, výchozí časový limit experimentu je 6 dní. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby nedošlo k chybě.

experiment_exit_score: float

Vyžadováno

Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadáno (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další pokrok. Další informace o kritériích ukončení najdete v tématu >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria_.<<

enable_early_stopping: bool

Vyžadováno

Zda povolit předčasné ukončení, pokud se skóre v krátkodobém horizontu nezlepšuje. Výchozí hodnota je Pravda.

Logika předčasného zastavení:

Prvních 20 iterací (orientačních bodů) se nezastavuje.
Při 21. iteraci se spustí okno předčasného zastavení a vyhledá early_stopping_n_iters iterace (aktuálně nastavené na hodnotu 10). To znamená, že první iterace, kde může dojít k zastavení, je 31.
AutoML stále plánuje 2 iterace souborů po předčasném zastavení, což může mít za následek vyšší skóre.
Předčasné zastavení se aktivuje, pokud je absolutní hodnota vypočítaného nejlepšího skóre stejná pro iterace v minulých early_stopping_n_iters, tj. pokud nedojde ke zlepšení skóre pro early_stopping_n_iters iterace.

blocked_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Seznam algoritmů, které se při experimentu mají ignorovat. Pokud enable_tf je false, jsou modely TensorFlow součástí blocked_models.

blacklist_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Zastaralý parametr, použijte místo toho blocked_models.

exclude_nan_labels: bool

Vyžadováno

Zda se mají vyloučit řádky s hodnotami NaN v popisku. Výchozí hodnota je Pravda.

verbosity: int

Vyžadováno

Úroveň podrobností pro zápis do souboru protokolu. Výchozí hodnota je INFO nebo 20. Přijatelné hodnoty jsou definované v knihovně protokolování Pythonu.

enable_tf: bool

Vyžadováno

Jestli se mají povolit nebo zakázat algoritmy TensorFlow. Výchozí hodnota je Nepravda.

model_explainability: bool

Vyžadováno

Jestli chcete povolit vysvětlení nejlepšího modelu AutoML na konci všech iterací trénování autoML. Výchozí hodnota je Pravda. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení.

allowed_models: list(str) nebo list(Classification) <xref:for classification task> nebo list(Regression) <xref:for regression task> nebo list(Forecasting) <xref:for forecasting task>

Vyžadováno

Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v blocked_models modelech TensorFlow nebo zastaralé modely TensorFlow. Podporované modely pro každý typ úlohy jsou popsány SupportedModels ve třídě .

allowed_models

Vyžadováno

Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v blocked_models modelech TensorFlow nebo zastaralé modely TensorFlow. Podporované modely pro každý typ úlohy jsou popsány SupportedModels ve třídě .

whitelist_models

Vyžadováno

Zastaralý parametr, místo toho použijte allowed_models.

enable_onnx_compatible_models: bool

Vyžadováno

Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a Azure Machine Learning najdete v tomto článku.

forecasting_parameters: ForecastingParameters

Vyžadováno

Objekt, který bude obsahovat všechny parametry specifické pro prognózu.

time_column_name: str

Vyžadováno

Název sloupce času. Tento parametr se vyžaduje při prognózování, aby bylo možné zadat sloupec datetime ve vstupních datech použitých pro sestavení časové řady a odvození její frekvence. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

max_horizon: int

Vyžadováno

Požadovaný maximální horizont prognózy v jednotkách frekvence časových řad. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

Jednotky jsou založené na časovém intervalu trénovacích dat, například měsíčních nebo týdenních, které by měl prognózovat. Při prognózování typu úkolu je tento parametr povinný. Další informace o nastavení parametrů prognózy najdete v tématu Automatické trénování modelu prognózy časových řad.

grain_column_names: str nebo list(str)

Vyžadováno

Názvy sloupců sloužících k seskupení časových intervalů Dá se použít k vytvoření více řad. Pokud není definováno zrnění, předpokládá se, že datová sada je jednou časovou řadou. Tento parametr se používá s prognózováním typu úlohy. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

target_lags: int nebo list(int)

Vyžadováno

Počet minulých období, která mají být zpožděna od cílového sloupce. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

Při prognózování tento parametr představuje počet řádků, které mají zaostávat v cílových hodnotách na základě frekvence dat. Toto je reprezentováno jako seznam nebo jedno celé číslo. Prodleva by se měla použít, pokud se vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení neshoduje nebo nekoreluje. Například při pokusu o odhad poptávky po produktu může poptávka v libovolném měsíci záviset na ceně konkrétních komodit před 3 měsíci. V tomto příkladu můžete chtít záporně zaostávat cíl (poptávka) o 3 měsíce, aby model trénoval na správné relaci. Další informace najdete v tématu Automatické trénování modelu prognózy časových řad.

feature_lags: str

Vyžadováno

Příznak pro generování prodlev pro číselné funkce Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

target_rolling_window_size: int

Vyžadováno

Počet minulých období použitých k vytvoření průměru klouzavého okna cílového sloupce. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

Při prognózování tento parametr představuje n historických období, která se mají použít ke generování předpokládaných hodnot, <= velikost trénovací sady. Pokud ho vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu jenom určitou část historie.

country_or_region: str

Vyžadováno

Země nebo oblast, která se používá k vygenerování funkcí svátků. Mělo by to být dvoumísmenné kódy země/oblasti ISO 3166, například "US" nebo "GB". Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

use_stl: str

Vyžadováno

Nakonfigurujte rozklad STL cílového sloupce časové řady. use_stl můžou mít tři hodnoty: Žádné (výchozí) – bez rozkladu stl, 'season' - pouze generovat komponentu sezóny a season_trend - generovat komponenty sezóny i trendu. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

seasonality: int

Vyžadováno

Nastavte sezónnost časových řad. Pokud je sezónnost nastavená na hodnotu -1, bude odvozena. Pokud use_stl není nastaven, nebude tento parametr použit. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters.

short_series_handling_configuration: str

Vyžadováno

Parametr definující, jak má AutoML zpracovávat krátké časové řady.

Možné hodnoty: "auto" (výchozí), "pad", "drop" a None.

automatické krátké řady budou vycpány, pokud neexistují žádné dlouhé řady, jinak budou krátké řady vyřazeny.
pad všechny krátké řady budou vycpané.
všechny krátké řady budou vyhozeny".
Žádná krátká řada nebude změněna. Pokud je tato hodnota nastavená na "pad", bude tabulka vycpaná nulami a prázdnými hodnotami pro regresory a náhodnými hodnotami pro cíl se střední hodnotou rovnající se mediánu cílové hodnoty pro dané ID časové řady. Pokud je medián větší nebo roven nule, bude minimální vycpaná hodnota oříznuta nulou: Vstup:

Date (Datum)

numeric_value

řetězec

Cíl

01. 01. 2020

23

green

55

Výstup za předpokladu, že minimální počet hodnot je čtyři: +————+—————+———-+—–+ | Datum | numeric_value | string | target | +============+===============+==========+========+ | 29. 12. 2019 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 30. 12. 2019 | 0 | NA | 55,6 | +————+—————+———-+——–+ | 31. 12. 2019 | 0 | NA | 54,5 | +————+—————+———-+——–+ | 1. 1. 2020 | 23 | zelená | 55 | +————+—————+———-+——–+

Poznámka: Máme dva parametry short_series_handling_configuration a starší short_series_handling. Když jsou oba parametry nastavené, synchronizujeme je, jak je znázorněno v následující tabulce (short_series_handling_configuration a short_series_handling pro stručnost jsou označeny jako handling_configuration a zpracování).

Zpracování

handling_configuration

výsledná manipulace

výsledné handling_configuration

Ano

auto

Ano

auto

Ano

Pad

Ano

auto

Ano

drop

Ano

auto

Ano

Žádné

Ne

Žádné

Ne

auto

Ne

Žádné

Ne

Pad

Ne

Žádné

Ne

drop

Ne

Žádné

Ne

Žádné

Ne

Žádné

freq: str nebo None

Vyžadováno

Četnost prognóz.

Při prognózování tento parametr představuje období, ve kterém je prognóza požadovaná, například denně, týdně, ročně atd. Frekvence prognózy je ve výchozím nastavení frekvence datové sady. Volitelně ho můžete nastavit na větší (ale ne menší) než četnost datové sady. Agregujeme data a vygenerujeme výsledky s frekvencí prognózy. U denních dat můžete například nastavit denní, týdenní nebo měsíční frekvenci, ale ne každou hodinu. Frekvence musí být alias posunu pandas. Další informace najdete v dokumentaci k knihovně pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str nebo None

Vyžadováno

Funkce, která se má použít k agregaci cílového sloupce časové řady tak, aby odpovídala frekvenci zadané uživatelem. Pokud je target_aggregation_function nastaven, ale není nastavený parametr freq, vyvolá se chyba. Možné cílové agregační funkce jsou: "sum", "max", "min" a "střední".

Frekvence

target_aggregation_function

Mechanismus opravy pravidelnosti údajů

Žádné (výchozí)

Agregace se nepoužije. Pokud platnou frekvenci nelze určit, bude vyvolána chyba.

Nějaká hodnota

Žádné (výchozí)

Agregace se nepoužije. Pokud je počet datových bodů vyhovujících dané mřížce četnosti menší, odeberou se tyto body o 90 %, jinak dojde k chybě.

Žádné (výchozí)

Agregační funkce

Došlo k chybě týkající se chybějícího parametru frekvence.

Nějaká hodnota

Agregační funkce

Agregace na frekvenci pomocí funkce providedaggregation

enable_voting_ensemble: bool

Vyžadováno

Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Výchozí hodnota je Pravda. Další informace o souborech najdete v tématu Konfigurace souboru.

enable_stack_ensemble: bool

Vyžadováno

Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Výchozí hodnota je Žádný. Pokud se nastavuje příznak enable_onnx_compatible_models , bude iterace StackEnsemble zakázaná. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě použité k přizpůsobení meta learneru. Další informace o souborech najdete v tématu Konfigurace souboru.

debug_log: str

Vyžadováno

Soubor protokolu, do který chcete zapisovat informace o ladění. Pokud není zadaný, použije se automl.log.

training_data: DataFrame nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Trénovací data, která se mají použít v rámci experimentu. Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku). Pokud training_data je zadaný, label_column_name musí být zadán také parametr.

training_data byl zaveden ve verzi 1.0.81.

validation_data: DataFrame nebo Dataset nebo DatasetDefinition nebo TabularDataset

Vyžadováno

Ověřovací data, která se mají použít v rámci experimentu. Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku). Pokud validation_data je zadán, pak training_data a label_column_name parametry musí být zadány.

validation_data byl zaveden ve verzi 1.0.81. Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

test_data: Dataset nebo TabularDataset

Vyžadováno

Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Testovací data, která se mají použít pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi.

Pokud tento parametr nebo test_size parametr nejsou zadány, po dokončení trénování modelu se automaticky neprovede žádné testovací spuštění. Testovací data by měla obsahovat funkce i sloupec popisků. Pokud test_data je zadaný label_column_name parametr, musí být zadán parametr.

test_size: float

Vyžadováno

Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Jaký zlomek trénovacích dat se má uchovávat pro testovací data pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi.

Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění. Pokud test_size je zadána ve stejnou dobu jako validation_size, pak se testovací data před rozdělením ověřovacích dat rozdělí training_data . Pokud validation_size=0.1například a test_size=0.1 původní trénovací data mají 1000 řádků, testovací data budou mít 100 řádků, ověřovací data budou obsahovat 90 řádků a trénovací data budou mít 810 řádků.

Pro úlohy založené na regresi se používá náhodný vzorkování. Pro úlohy klasifikace se používá stratifikované vzorkování. Prognózování v současné době nepodporuje zadání testovací datové sady pomocí rozdělení trénování a testu.

Pokud tento parametr nebo test_data parametr nejsou zadány, po dokončení trénování modelu se automaticky neprovede žádné testovací spuštění.

label_column_name: Union[str, int]

Vyžadováno

Název sloupce popisku Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla.

Tento parametr se vztahuje na training_dataparametry a test_datavalidation_data . label_column_name byl zaveden ve verzi 1.0.81.

weight_column_name: Union[str, int]

Vyžadováno

Název sloupce hmotnosti vzorku. Automatizované strojové učení podporuje jako vstup vážený sloupec, což způsobuje, že se řádky v datech váží nahoru nebo dolů. Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla.

Tento parametr platí pro training_data parametry a validation_data . weight_column_names byl zaveden ve verzi 1.0.81.

cv_split_column_names: list(str)

Vyžadováno

Seznam názvů sloupců, které obsahují vlastní rozdělení křížového ověření Každý ze sloupců s rozdělením životopisu představuje jedno rozdělení CV, kde každý řádek je označený buď 1 pro trénování, nebo 0 pro ověření.

Tento parametr se vztahuje na training_data parametr pro účely vlastního křížového ověření. cv_split_column_names byla zavedena ve verzi 1.6.0

Použijte nebo cv_split_column_namescv_splits_indices.

Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.

enable_local_managed: bool

Vyžadováno

Zakázaný parametr. Místní spravovaná spuštění nelze v tuto chvíli povolit.

enable_dnn: bool

Vyžadováno

Zda se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota v inicializaci je Žádná. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatického strojového učení je nepravda.

as_serializable_dict	Převeďte objekt do slovníku.
get_supported_dataset_languages	Získejte podporované jazyky a jejich odpovídající kódy jazyků v ISO 639-3.

AutoMLConfig Třída

Konstruktor

Parametry

Poznámky

Metody

as_serializable_dict

get_supported_dataset_languages

Parametry

Návraty

Váš názor

Váš názor

Další materiály