AutoMLConfig Osztály

Egy automatizált gépi tanulási kísérlet Azure Machine Learningben való elküldéséhez szükséges konfigurációt jelöli.

Ez a konfigurációs objektum tartalmazza és megőrzi a kísérletfuttatás konfigurálásához szükséges paramétereket, valamint a futtatáskor használandó betanítási adatokat. A beállítások kiválasztásával kapcsolatos útmutatásért lásd: https://aka.ms/AutoMLConfig.

AutoMLConfig létrehozása.

Öröklődés
builtins.object
AutoMLConfig

Konstruktor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Paraméterek

task
str vagy Tasks
Kötelező

A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.

path
str
Kötelező

Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.

iterations
int
Kötelező

Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.

primary_metric
str vagy Metric
Kötelező

Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.

positive_label
Any
Kötelező

A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:

  1. A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
  2. többosztályos besorolási feladat positive_label megadva

A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.

compute_target
AbstractComputeTarget
Kötelező

Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote információ a számítási célokról.

spark_context
<xref:SparkContext>
Kötelező

A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.

X
DataFrame vagy ndarray vagy Dataset vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

y
DataFrame vagy ndarray vagy Dataset vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

sample_weight
DataFrame vagy ndarray vagy TabularDataset
Kötelező

Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.

A paraméter megadásakor adja meg ezt a paramétert X. Ez a beállítás elavult. Használja inkább training_data és weight_column_name.

X_valid
DataFrame vagy ndarray vagy Dataset vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.

Ha meg van adva, akkor y_valid vagy sample_weight_valid azt is meg kell adni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

y_valid
DataFrame vagy ndarray vagy Dataset vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.

Mindkettőt X_valid együtt y_valid kell megadni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

sample_weight_valid
DataFrame vagy ndarray vagy TabularDataset
Kötelező

A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.

A paraméter megadásakor adja meg ezt a paramétert X_valid. Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.

cv_splits_indices
List[List[ndarray]]
Kötelező

Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe.

A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations vagy validation_sizea értéket. Akkor használja cv_split_column_names , ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data.

validation_size
float
Kötelező

A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

n_cross_validations
int
Kötelező

Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

y_min
float
Kötelező

Regressziós kísérlet minimális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

y_max
float
Kötelező

Egy regressziós kísérlet maximális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

num_classes
int
Kötelező

A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

featurization
str vagy FeaturizationConfig
Kötelező

"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.

A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:

  • Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.

  • Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.

  • DateTime: Számos funkció, például nap, másodperc, perc, óra stb.

  • Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.

További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.

A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.

Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.

max_cores_per_iteration
int
Kötelező

Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:

  • 1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.

  • Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.

  • Értéke 1, az alapértelmezett érték.

max_concurrent_iterations
int
Kötelező

A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.

  • Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több AutoML-kísérlet szülőfuttatása fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege max_concurrent_iterations nem haladhatja meg a csomópontok maximális számát. Ellenkező esetben a futtatások várólistára kerülnek, amíg a csomópontok elérhetővé nem válnak.

  • A DSVM csomópontonként több iterációt is támogat. max_concurrent_iterations kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összege max_concurrent_iterations nem haladhatja meg a csomópontok maximális számát.

  • Databricks – max_concurrent_iterations a Databricks feldolgozó csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.

max_concurrent_iterations nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations.

iteration_timeout_minutes
int
Kötelező

Az egyes iterációk futásának maximális időtartama percekben, mielőtt befejeződik. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.

mem_in_mb
int
Kötelező

Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.

enforce_time_on_windows
bool
Kötelező

A modell betanítására vonatkozó időkorlát kényszerítése a Windows minden iterációjában. Az alapértelmezett érték az Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg az erőforráskorlátok Windows rendszeren történő engedélyezésének dokumentációját.

experiment_timeout_hours
float
Kötelező

A kísérlet befejeződése előtt az összes iteráció által együtt töltött órák maximális száma. Lehet egy 0,25-hez hasonló decimális érték, amely 15 percet jelöl. Ha nincs megadva, a kísérlet alapértelmezett időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem nagyobb 10 000 000-nél (sorok száma oszlopban) vagy hibaeredménynél.

experiment_exit_score
float
Kötelező

A kísérlet célpontszáma. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem halad tovább. A kilépési feltételekről ebben a cikkben talál további információt.

enable_early_stopping
bool
Kötelező

Lehetővé teszi-e a korai megszüntetést, ha a pontszám rövid távon nem javul. Az alapértelmezett érték az Igaz.

Korai leállítási logika:

  • Nincs korai leállítás az első 20 iterációhoz (nevezetességekhez).

  • A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres

    (jelenleg 10 értékre van állítva). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.

  • Az AutoML továbbra is 2 együttes iterációt ütemez a korai leállítás után, ami

    magasabb pontszámot.

  • A korai leállítás akkor aktiválódik, ha a kiszámított legjobb pontszám abszolút értéke megegyezik a múlttal

    early_stopping_n_iters iterációk, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.

blocked_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

A kísérletben figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf hamis, a TensorFlow-modellek a részét képezik.blocked_models

blacklist_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

Elavult paraméter helyett használja a blocked_models.

exclude_nan_labels
bool
Kötelező

Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték az Igaz.

verbosity
int
Kötelező

A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy 20. Az elfogadható értékek a Python naplózási kódtárában vannak meghatározva.

enable_tf
bool
Kötelező

Elavult paraméter a Tensorflow-algoritmusok engedélyezéséhez/letiltásához. Az alapértelmezett érték a Hamis.

model_explainability
bool
Kötelező

Engedélyezi-e a legjobb AutoML-modell magyarázatát az autoML betanítási iterációinak végén. Az alapértelmezett érték az Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.

allowed_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

Modellnevek listája egy kísérlet kereséséhez. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes tevékenységtípusok támogatott modelljeit az SupportedModels osztály ismerteti.

whitelist_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

Elavult paraméter helyett használja a allowed_models.

enable_onnx_compatible_models
bool
Kötelező

Engedélyezi vagy letiltja az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték a Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatásról ebben a cikkben talál további információt.

forecasting_parameters
ForecastingParameters
Kötelező

Egy ForecastingParameters objektum, amely az összes előrejelzési specifikus paramétert tárolja.

time_column_name
str
Kötelező

Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

max_horizon
int
Kötelező

A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1.

Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

grain_column_names
str vagy list(str)
Kötelező

Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_lags
int vagy list(int)
Kötelező

A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.

feature_lags
str
Kötelező

A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_rolling_window_size
int
Kötelező

A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.

country_or_region
str
Kötelező

Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódnak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.

use_stl
str
Kötelező

Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

seasonality
int vagy str
Kötelező

Idősor szezonalitásának beállítása. Ha a szezonalitás "auto" értékre van állítva, akkor a rendszer arra következtet. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

short_series_handling_configuration
str
Kötelező

A paraméter határozza meg, hogy az AutoML hogyan kezelje a rövid idősorokat.

Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.

  • az automatikus rövid sorozat ki lesz párnázott, ha nincsenek hosszú sorozatok, különben a rövid sorozatok el lesznek dobva.
  • pad az összes rövid sorozat lesz párnázott.
  • az összes rövid sorozat elvetése".
  • A rövid sorozat nem lesz módosítva. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, valamint a cél véletlenszerű értékeivel lesz kipárnázott, és az adott idősor-azonosító célértékének középértéke. Ha a medián nagyobb vagy egyenlő nullával, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:

Date

numeric_value

Karakterlánc

Cél

2020-01-01

23

zöld

55

A kimenet minimális értékeket feltételezve négy:

Date

numeric_value

Karakterlánc

Cél

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

2020-01-01

23

zöld

55

Megjegyzés: Két paraméterünk short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidséghez handling_configuration és kezelésként vannak megjelölve).

Kezelése

handling_configuration

eredményként kapott kezelés

eredményként kapott handling_configuration

Igaz

auto

Igaz

auto

Igaz

Pad

Igaz

auto

Igaz

drop

Igaz

auto

Igaz

None

Hamis

None

Hamis

auto

Hamis

None

Hamis

Pad

Hamis

None

Hamis

drop

Hamis

None

Hamis

None

Hamis

None

freq
str vagy None
Kötelező

Előrejelzés gyakorisága.

Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést kívánja, például napi, heti, éves stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja, hogy a gyakoriság napi, heti vagy havi legyen, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
str vagy None
Kötelező

Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba jelentkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".

Freq

target_aggregation_function

Adatszűrési mechanizmus

Nincs (alapértelmezett)

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.

Valamilyen érték

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor a rendszer eltávolítja ezeket a pontokat, ellenkező esetben a hiba jelentkezik.

Nincs (alapértelmezett)

Aggregációs függvény

A hiányzó gyakorisági paraméterekkel kapcsolatos hiba merült fel.

Valamilyen érték

Aggregációs függvény

Összesítés gyakoriságra a megadottaggregációs függvény használatával.

enable_voting_ensemble
bool
Kötelező

Engedélyezze vagy tiltsa le a VotingEnsemble iterációt. Az alapértelmezett érték Igaz. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.

enable_stack_ensemble
bool
Kötelező

A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Az időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.

debug_log
str
Kötelező

A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.

training_data
DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A kísérletben használandó betanítási adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha training_data meg van adva, akkor a paramétert label_column_name is meg kell adni.

training_data az 1.0.81-es verzióban jelent meg.

validation_data
DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A kísérletben használandó érvényesítési adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha validation_data meg van adva, akkor training_data és label_column_name paramétereket kell megadni.

validation_data az 1.0.81-es verzióban jelent meg. További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

test_data
Dataset vagy TabularDataset
Kötelező

A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.

Ha ez a paraméter vagy a test_size paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást. A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is. Ha test_data meg van adva, meg kell adni a label_column_name paramétert.

test_size
float
Kötelező

A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A betanítási adatok hány része legyen visszatartva egy tesztfuttatás tesztadataihoz, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.

Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat. Ha test_size a paramétert a () értékével egy időben validation_sizeadja meg, akkor a tesztadatok felosztása training_data az érvényesítési adatok felosztása előtt történik. Ha például a validation_size=0.1, test_size=0.1 és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.

Regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.

Ha ez a paraméter vagy a test_data paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.

label_column_name
Union[str, int]
Kötelező

A címkeoszlop neve. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_datatest_data a paraméterekre training_dataalkalmazható. label_column_name az 1.0.81-es verzióban jelent meg.

weight_column_name
Union[str, int]
Kötelező

A mintasúly oszlop neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, így az adatok sorai felfelé vagy lefelé lesznek súlyozottak. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_data a paraméterekre training_data vonatkozik. weight_column_names az 1.0.81-es verzióban jelent meg.

cv_split_column_names
list(str)
Kötelező

Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az önéletrajz felosztási oszlopai egy cv felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.

Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data . cv_split_column_names az 1.6.0-s verzióban jelent meg

Használja a cv_split_column_names vagy a parancsot cv_splits_indices.

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

enable_local_managed
bool
Kötelező

Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.

enable_dnn
bool
Kötelező

DNN-alapú modellek felvétele a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban A DNN NLP-tevékenységek esetében igaz, és az összes többi AutoML-tevékenység esetében hamis.

task
str vagy Tasks
Kötelező

A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.

path
str
Kötelező

Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.

iterations
int
Kötelező

Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.

primary_metric
str vagy Metric
Kötelező

Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.

positive_label
Any
Kötelező

A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:

  1. A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
  2. többosztályos besorolási feladat positive_label megadva

A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.

compute_target
AbstractComputeTarget
Kötelező

Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote információ a számítási célokról.

spark_context
<xref:SparkContext>
Kötelező

A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.

X
DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

y
DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

sample_weight
DataFrame vagy ndarray vagy TabularDataset
Kötelező

Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.

A paraméter megadásakor adja meg ezt a paramétert X. Ez a beállítás elavult. Használja inkább training_data és weight_column_name.

X_valid
DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.

Ha meg van adva, akkor y_valid vagy sample_weight_valid azt is meg kell adni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

y_valid
DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.

Mindkettőt X_valid együtt y_valid kell megadni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

sample_weight_valid
DataFrame vagy ndarray vagy TabularDataset
Kötelező

A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.

A paraméter megadásakor adja meg ezt a paramétert X_valid. Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.

cv_splits_indices
List[List[ndarray]]
Kötelező

Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe. Ez a beállítás akkor támogatott, ha az adatokat külön Szolgáltatások adatkészletként és Címke oszlopként adja át.

A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations vagy validation_sizea értéket. Akkor használja cv_split_column_names , ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data.

validation_size
float
Kötelező

A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

n_cross_validations
int vagy str
Kötelező

Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

y_min
float
Kötelező

Regressziós kísérlet minimális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

y_max
float
Kötelező

Egy regressziós kísérlet maximális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

num_classes
int
Kötelező

A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

featurization
str vagy FeaturizationConfig
Kötelező

"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.

A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:

  • Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.

  • Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.

  • DateTime: Számos funkció, például nap, másodperc, perc, óra stb.

  • Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.

További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.

A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.

Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.

max_cores_per_iteration
int
Kötelező

Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:

  • 1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.

  • Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.

  • Értéke 1, az alapértelmezett érték.

max_concurrent_iterations
int
Kötelező

A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.

  • Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több kísérlet fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege max_concurrent_iterations kisebb vagy egyenlő a csomópontok maximális számával.

  • A DSVM csomópontonként több iterációt is támogat. max_concurrent_iterations kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összege max_concurrent_iterations kisebb vagy egyenlő a csomópontok maximális számával.

  • Databricks – max_concurrent_iterations a Databricks munkavégző csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.

max_concurrent_iterations nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations.

iteration_timeout_minutes
int
Kötelező

Az egyes iterációk legfeljebb percek alatt futtathatók a leállása előtt. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.

mem_in_mb
int
Kötelező

Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.

enforce_time_on_windows
bool
Kötelező

A modell betanítására vonatkozó időkorlát kikényszerítése a Windows minden iterációjában. Az alapértelmezett érték Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg a Windows erőforráskorlátainak engedélyezéséről szóló dokumentációt.

experiment_timeout_hours
float
Kötelező

A kísérlet befejeződése előtt az összes iteráció összevonásának maximális időtartama órákon belül. Lehet egy 0,25-ös decimális érték, amely 15 percet jelöl. Ha nincs megadva, az alapértelmezett kísérlet időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem haladja meg a 10 000 000 000-et (soridő oszlop) vagy a hibaeredményeket.

experiment_exit_score
float
Kötelező

A kísérlet célértéke. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem végez további előrehaladást. A kilépési feltételekről további információt a >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria"_<<" című témakörben talál.

enable_early_stopping
bool
Kötelező

A korai megszüntetés engedélyezése, ha a pontszám rövid távon nem javul. Az alapértelmezett érték Igaz.

Korai leállítási logika:

  • Nincs korai megállás az első 20 iterációhoz (nevezetességek).

  • A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres (jelenleg 10-esre). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.

  • Az AutoML a korai leállítás után is 2 együttes iterációt ütemez, ami magasabb pontszámot eredményezhet.

  • A korai leállítás akkor aktiválódik, ha a számított legjobb pontszám abszolút értéke megegyezik a korábbi early_stopping_n_iters iterációk esetében, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.

blocked_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

A kísérlethez figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf hamis, akkor a TensorFlow-modelleket a rendszer tartalmazza.blocked_models

blacklist_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

Elavult paraméter, használja inkább a blocked_models.

exclude_nan_labels
bool
Kötelező

Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték Igaz.

verbosity
int
Kötelező

A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy a 20. Az elfogadható értékek a Python naplózási kódtárában vannak definiálva.

enable_tf
bool
Kötelező

A TensorFlow-algoritmusok engedélyezése/letiltása. Az alapértelmezett érték Hamis.

model_explainability
bool
Kötelező

A legjobb AutoML-modell magyarázatának engedélyezése az AutoML-betanítási iterációk végén. Az alapértelmezett érték Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.

allowed_models
list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Kötelező

A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.

allowed_models
Kötelező

A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.

whitelist_models
Kötelező

Elavult paraméter, használja inkább a allowed_models.

enable_onnx_compatible_models
bool
Kötelező

Engedélyezze vagy tiltsa le az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatással kapcsolatos további információkért lásd ezt a cikket.

forecasting_parameters
ForecastingParameters
Kötelező

Az összes előrejelzési paraméter tárolására szolgáló objektum.

time_column_name
str
Kötelező

Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

max_horizon
int
Kötelező

A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása.

grain_column_names
str vagy list(str)
Kötelező

Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_lags
int vagy list(int)
Kötelező

A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.

feature_lags
str
Kötelező

A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_rolling_window_size
int
Kötelező

A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.

country_or_region
str
Kötelező

Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódoknak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.

use_stl
str
Kötelező

Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

seasonality
int
Kötelező

Idősor szezonalitásának beállítása. Ha a szezonalitás -1 értékre van állítva, a rendszer a következőt fogja levonni. Ha use_stl nincs beállítva, a rendszer nem használja ezt a paramétert. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

short_series_handling_configuration
str
Kötelező

Az a paraméter, amely meghatározza, hogy az AutoML hogyan kezelje a rövid idősorokat.

Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.

  • automatikus rövid sorozat lesz padded, ha nincs hosszú sorozat, különben rövid sorozat lesz elvetve.
  • pad az összes rövid sorozat lesz párnázott.
  • az összes rövid sorozat elvetése".
  • Egyik sem módosítja a rövid sorozatot. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, a célhoz pedig véletlenszerű értékekkel lesz kipárnázott, és az adott idősor-azonosító célértékével egyenlő középértékkel lesz kipárnázott. Ha a medián nullával egyenlő vagy nagyobb, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:

Date

numeric_value

Karakterlánc

Cél

2020-01-01

23

zöld

55

Kimenet, ha az értékek minimális száma négy: +————+—————+———-+—–+ | Dátum | numeric_value | sztring | cél | +============+===============+==========+========+ | 2019.12.29. | 0 | NA | 55.1 . +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 . +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 . +————+—————+———-+——–+ | 2020.01.01. | 23 | zöld | 55 | +————+—————+———-+——–+

Megjegyzés: Két paraméterünk van short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidség kedvéért handling_configuration és kezelésként vannak megjelölve).

Kezelése

handling_configuration

eredményként kapott kezelés

eredményként kapott handling_configuration

Igaz

auto

Igaz

auto

Igaz

Pad

Igaz

auto

Igaz

drop

Igaz

auto

Igaz

None

Hamis

None

Hamis

auto

Hamis

None

Hamis

Pad

Hamis

None

Hamis

drop

Hamis

None

Hamis

None

Hamis

None

freq
str vagy None
Kötelező

Előrejelzés gyakorisága.

Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést szeretné elérni, például naponta, hetente, évente stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja a gyakoriságot napi, heti vagy havi értékre, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
str vagy None
Kötelező

Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba keletkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".

Freq

target_aggregation_function

Adatszűrési mechanizmus

Nincs (alapértelmezett)

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.

Néhány érték

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor ezek a pontok 90%-a törlődik, ellenkező esetben a hiba jelentkezik.

Nincs (alapértelmezett)

Aggregációs függvény

A hiányzó gyakorisági paraméterekkel kapcsolatos hiba lépett fel.

Néhány érték

Aggregációs függvény

Összesítés gyakoriságra a providedaggregation függvénnyel.

enable_voting_ensemble
bool
Kötelező

A VotingEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték az Igaz. További információ az együttesekről: Együttes konfigurációja.

enable_stack_ensemble
bool
Kötelező

A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Hasonlóképpen, az Időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. További információ az együttesekről: Együttes konfigurációja.

debug_log
str
Kötelező

A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.

training_data
DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A kísérletben használandó betanítási adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha training_data meg van adva, akkor a paramétert label_column_name is meg kell adni.

training_data az 1.0.81-es verzióban jelent meg.

validation_data
DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
Kötelező

A kísérletben használandó érvényesítési adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha validation_data meg van adva, akkor training_data és label_column_name paramétereket kell megadni.

validation_data az 1.0.81-es verzióban jelent meg. További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

test_data
Dataset vagy TabularDataset
Kötelező

A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.

Ha ez a paraméter vagy a test_size paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást. A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is. Ha test_data meg van adva, akkor meg kell adni a label_column_name paramétert.

test_size
float
Kötelező

A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A modell betanítása után automatikusan elinduló tesztfuttatáshoz szükséges betanítási adatok hány része lesz visszatartva a tesztadatokhoz. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.

Ennek 0,0 és 1,0 közöttinek kell lennie, nem inkluzívnak. Ha test_size a meg van adva a -sel validation_sizeegy időben, akkor a tesztadatok felosztása training_data az érvényesítési adatok felosztása előtt történik. Ha például a validation_size=0.1test_size=0.1 , és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.

A regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.

Ha ez a paraméter vagy a test_data paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.

label_column_name
Union[str, int]
Kötelező

A címkeoszlop neve. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_datatest_data a paraméterekre training_datavonatkozik. label_column_name az 1.0.81-es verzióban jelent meg.

weight_column_name
Union[str, int]
Kötelező

A minta súlyozási oszlopának neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, ami az adatok sorainak súlyozását okozza. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_data a paraméterre training_data vonatkozik. weight_column_names az 1.0.81-es verzióban jelent meg.

cv_split_column_names
list(str)
Kötelező

Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az egyes CV felosztási oszlopok egy CV-felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.

Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data . cv_split_column_names az 1.6.0-s verzióban jelent meg

Használja a cv_split_column_names vagy a parancsot cv_splits_indices.

További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

enable_local_managed
bool
Kötelező

Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.

enable_dnn
bool
Kötelező

DNN-alapú modellek belefoglalása a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban igaz a DNN NLP-feladatok esetében, és az összes többi AutoML-tevékenység esetén hamis.

Megjegyzések

Az alábbi kód egy egyszerű példát mutat be egy AutoMLConfig-objektum létrehozására és egy regressziós kísérlet elküldésére:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Teljes minta érhető el a regressziónál

Az AutoMLConfig előrejelzéshez való használatát az alábbi jegyzetfüzetek szemléltetik:

Az AutoMLConfig minden feladattípushoz való használatára példákat találhat ezekben az automatizált gépi tanulási jegyzetfüzetekben.

Az automatizált gépi tanulás hátteréről a következő cikkekben olvashat:

Az automatikus gépi tanulás, az AutoML és a kísérletek betanítási/érvényesítési adatok felosztásának és keresztérvényesítésének konfigurálásával kapcsolatos további információkért lásd: Adatfelosztások és keresztérvényesítés konfigurálása az automatizált gépi tanulásban.

Metódusok

as_serializable_dict

Konvertálja az objektumot szótárlá.

get_supported_dataset_languages

Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban.

as_serializable_dict

Konvertálja az objektumot szótárlá.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Paraméterek

cls
Kötelező

A osztályobjektuma AutoMLConfig.

use_gpu
Kötelező

logikai érték, amely azt jelzi, hogy gpu-számítás van-e használatban.

Válaszok

a(z) {: } formátumú szótár. A nyelvi kód megfelel az ISO 639-3 szabványnak. Lásd: https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes