azureml.train.automl.automlconfig.AutoMLConfig class - Azure Machine Learning Python

task: str vagy Tasks

Kötelező

A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.

path: str

Kötelező

Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.

iterations: int

Kötelező

Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.

primary_metric: str vagy Metric

Kötelező

Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.

positive_label: Any

Kötelező

A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:

A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
többosztályos besorolási feladat positive_label megadva

A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.

compute_target: AbstractComputeTarget

Kötelező

Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote információ a számítási célokról.

spark_context: <xref:SparkContext>

Kötelező

A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.

X: DataFrame vagy ndarray vagy Dataset vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

y: DataFrame vagy ndarray vagy Dataset vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

sample_weight: DataFrame vagy ndarray vagy TabularDataset

Kötelező

Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.

A paraméter megadásakor adja meg ezt a paramétert X. Ez a beállítás elavult. Használja inkább training_data és weight_column_name.

X_valid: DataFrame vagy ndarray vagy Dataset vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.

Ha meg van adva, akkor y_valid vagy sample_weight_valid azt is meg kell adni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

y_valid: DataFrame vagy ndarray vagy Dataset vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.

Mindkettőt X_valid együtt y_valid kell megadni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

sample_weight_valid: DataFrame vagy ndarray vagy TabularDataset

Kötelező

A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.

A paraméter megadásakor adja meg ezt a paramétert X_valid. Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.

cv_splits_indices: List[List[ndarray]]

Kötelező

Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe.

A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations vagy validation_sizea értéket. Akkor használja cv_split_column_names , ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data.

validation_size: float

Kötelező

A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

n_cross_validations: int

Kötelező

Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

y_min: float

Kötelező

Regressziós kísérlet minimális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

y_max: float

Kötelező

Egy regressziós kísérlet maximális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

num_classes: int

Kötelező

A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

featurization: str vagy FeaturizationConfig

Kötelező

"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.

A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:

Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.
Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.
DateTime: Számos funkció, például nap, másodperc, perc, óra stb.
Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.

További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.

A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.

Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.

max_cores_per_iteration: int

Kötelező

Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:

1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.
Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.
Értéke 1, az alapértelmezett érték.

max_concurrent_iterations: int

Kötelező

A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.

Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több AutoML-kísérlet szülőfuttatása fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege max_concurrent_iterations nem haladhatja meg a csomópontok maximális számát. Ellenkező esetben a futtatások várólistára kerülnek, amíg a csomópontok elérhetővé nem válnak.
A DSVM csomópontonként több iterációt is támogat. max_concurrent_iterations kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összege max_concurrent_iterations nem haladhatja meg a csomópontok maximális számát.
Databricks – max_concurrent_iterations a Databricks feldolgozó csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.

max_concurrent_iterations nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations.

iteration_timeout_minutes: int

Kötelező

Az egyes iterációk futásának maximális időtartama percekben, mielőtt befejeződik. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.

mem_in_mb: int

Kötelező

Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.

enforce_time_on_windows: bool

Kötelező

A modell betanítására vonatkozó időkorlát kényszerítése a Windows minden iterációjában. Az alapértelmezett érték az Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg az erőforráskorlátok Windows rendszeren történő engedélyezésének dokumentációját.

experiment_timeout_hours: float

Kötelező

A kísérlet befejeződése előtt az összes iteráció által együtt töltött órák maximális száma. Lehet egy 0,25-hez hasonló decimális érték, amely 15 percet jelöl. Ha nincs megadva, a kísérlet alapértelmezett időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem nagyobb 10 000 000-nél (sorok száma oszlopban) vagy hibaeredménynél.

experiment_exit_score: float

Kötelező

A kísérlet célpontszáma. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem halad tovább. A kilépési feltételekről ebben a cikkben talál további információt.

enable_early_stopping: bool

Kötelező

Lehetővé teszi-e a korai megszüntetést, ha a pontszám rövid távon nem javul. Az alapértelmezett érték az Igaz.

Korai leállítási logika:

Nincs korai leállítás az első 20 iterációhoz (nevezetességekhez).
A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres

(jelenleg 10 értékre van állítva). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.
Az AutoML továbbra is 2 együttes iterációt ütemez a korai leállítás után, ami

magasabb pontszámot.
A korai leállítás akkor aktiválódik, ha a kiszámított legjobb pontszám abszolút értéke megegyezik a múlttal

early_stopping_n_iters iterációk, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.

blocked_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

A kísérletben figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf hamis, a TensorFlow-modellek a részét képezik.blocked_models

blacklist_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

Elavult paraméter helyett használja a blocked_models.

exclude_nan_labels: bool

Kötelező

Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték az Igaz.

verbosity: int

Kötelező

A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy 20. Az elfogadható értékek a Python naplózási kódtárában vannak meghatározva.

enable_tf: bool

Kötelező

Elavult paraméter a Tensorflow-algoritmusok engedélyezéséhez/letiltásához. Az alapértelmezett érték a Hamis.

model_explainability: bool

Kötelező

Engedélyezi-e a legjobb AutoML-modell magyarázatát az autoML betanítási iterációinak végén. Az alapértelmezett érték az Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.

allowed_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

Modellnevek listája egy kísérlet kereséséhez. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes tevékenységtípusok támogatott modelljeit az SupportedModels osztály ismerteti.

whitelist_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

Elavult paraméter helyett használja a allowed_models.

enable_onnx_compatible_models: bool

Kötelező

Engedélyezi vagy letiltja az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték a Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatásról ebben a cikkben talál további információt.

forecasting_parameters: ForecastingParameters

Kötelező

Egy ForecastingParameters objektum, amely az összes előrejelzési specifikus paramétert tárolja.

time_column_name: str

Kötelező

Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

max_horizon: int

Kötelező

A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1.

Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

grain_column_names: str vagy list(str)

Kötelező

Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_lags: int vagy list(int)

Kötelező

A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.

feature_lags: str

Kötelező

A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_rolling_window_size: int

Kötelező

A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.

country_or_region: str

Kötelező

Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódnak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.

use_stl: str

Kötelező

Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

seasonality: int vagy str

Kötelező

Idősor szezonalitásának beállítása. Ha a szezonalitás "auto" értékre van állítva, akkor a rendszer arra következtet. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

short_series_handling_configuration: str

Kötelező

A paraméter határozza meg, hogy az AutoML hogyan kezelje a rövid idősorokat.

Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.

az automatikus rövid sorozat ki lesz párnázott, ha nincsenek hosszú sorozatok, különben a rövid sorozatok el lesznek dobva.
pad az összes rövid sorozat lesz párnázott.
az összes rövid sorozat elvetése".
A rövid sorozat nem lesz módosítva. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, valamint a cél véletlenszerű értékeivel lesz kipárnázott, és az adott idősor-azonosító célértékének középértéke. Ha a medián nagyobb vagy egyenlő nullával, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:

Date

numeric_value

Karakterlánc

Cél

2020-01-01

23

zöld

55

A kimenet minimális értékeket feltételezve négy:

Date

numeric_value

Karakterlánc

Cél

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

2020-01-01

23

zöld

55

Megjegyzés: Két paraméterünk short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidséghez handling_configuration és kezelésként vannak megjelölve).

Kezelése

handling_configuration

eredményként kapott kezelés

eredményként kapott handling_configuration

Igaz

auto

Igaz

auto

Igaz

Pad

Igaz

auto

Igaz

drop

Igaz

auto

Igaz

None

Hamis

None

Hamis

auto

Hamis

None

Hamis

Pad

Hamis

None

Hamis

drop

Hamis

None

Hamis

None

Hamis

None

freq: str vagy None

Kötelező

Előrejelzés gyakorisága.

Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést kívánja, például napi, heti, éves stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja, hogy a gyakoriság napi, heti vagy havi legyen, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str vagy None

Kötelező

Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba jelentkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".

Freq

target_aggregation_function

Adatszűrési mechanizmus

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.

Valamilyen érték

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor a rendszer eltávolítja ezeket a pontokat, ellenkező esetben a hiba jelentkezik.

Nincs (alapértelmezett)

Aggregációs függvény

A hiányzó gyakorisági paraméterekkel kapcsolatos hiba merült fel.

Valamilyen érték

Aggregációs függvény

Összesítés gyakoriságra a megadottaggregációs függvény használatával.

enable_voting_ensemble: bool

Kötelező

Engedélyezze vagy tiltsa le a VotingEnsemble iterációt. Az alapértelmezett érték Igaz. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.

enable_stack_ensemble: bool

Kötelező

A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Az időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.

debug_log: str

Kötelező

A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.

training_data: DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A kísérletben használandó betanítási adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha training_data meg van adva, akkor a paramétert label_column_name is meg kell adni.

training_data az 1.0.81-es verzióban jelent meg.

validation_data: DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A kísérletben használandó érvényesítési adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha validation_data meg van adva, akkor training_data és label_column_name paramétereket kell megadni.

validation_data az 1.0.81-es verzióban jelent meg. További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

test_data: Dataset vagy TabularDataset

Kötelező

A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.

Ha ez a paraméter vagy a test_size paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást. A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is. Ha test_data meg van adva, meg kell adni a label_column_name paramétert.

test_size: float

Kötelező

A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A betanítási adatok hány része legyen visszatartva egy tesztfuttatás tesztadataihoz, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.

Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat. Ha test_size a paramétert a () értékével egy időben validation_sizeadja meg, akkor a tesztadatok felosztása training_data az érvényesítési adatok felosztása előtt történik. Ha például a validation_size=0.1, test_size=0.1 és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.

Regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.

Ha ez a paraméter vagy a test_data paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.

label_column_name: Union[str, int]

Kötelező

A címkeoszlop neve. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_datatest_data a paraméterekre training_dataalkalmazható. label_column_name az 1.0.81-es verzióban jelent meg.

weight_column_name: Union[str, int]

Kötelező

A mintasúly oszlop neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, így az adatok sorai felfelé vagy lefelé lesznek súlyozottak. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_data a paraméterekre training_data vonatkozik. weight_column_names az 1.0.81-es verzióban jelent meg.

cv_split_column_names: list(str)

Kötelező

Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az önéletrajz felosztási oszlopai egy cv felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.

Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data . cv_split_column_names az 1.6.0-s verzióban jelent meg

Használja a cv_split_column_names vagy a parancsot cv_splits_indices.

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

enable_local_managed: bool

Kötelező

Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.

enable_dnn: bool

Kötelező

DNN-alapú modellek felvétele a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban A DNN NLP-tevékenységek esetében igaz, és az összes többi AutoML-tevékenység esetében hamis.

task: str vagy Tasks

Kötelező

A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.

path: str

Kötelező

Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.

iterations: int

Kötelező

Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.

primary_metric: str vagy Metric

Kötelező

Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.

positive_label: Any

Kötelező

A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:

A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
többosztályos besorolási feladat positive_label megadva

A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.

compute_target: AbstractComputeTarget

Kötelező

Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote információ a számítási célokról.

spark_context: <xref:SparkContext>

Kötelező

A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.

X: DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

y: DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.

sample_weight: DataFrame vagy ndarray vagy TabularDataset

Kötelező

Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.

A paraméter megadásakor adja meg ezt a paramétert X. Ez a beállítás elavult. Használja inkább training_data és weight_column_name.

X_valid: DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.

Ha meg van adva, akkor y_valid vagy sample_weight_valid azt is meg kell adni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

y_valid: DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.

Mindkettőt X_valid együtt y_valid kell megadni. Ez a beállítás elavult. Használja inkább validation_data és label_column_name.

sample_weight_valid: DataFrame vagy ndarray vagy TabularDataset

Kötelező

A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.

A paraméter megadásakor adja meg ezt a paramétert X_valid. Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.

cv_splits_indices: List[List[ndarray]]

Kötelező

Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe. Ez a beállítás akkor támogatott, ha az adatokat külön Szolgáltatások adatkészletként és Címke oszlopként adja át.

A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations vagy validation_sizea értéket. Akkor használja cv_split_column_names , ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data.

validation_size: float

Kötelező

A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

n_cross_validations: int vagy str

Kötelező

Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.

Itt adhatja meg validation_data az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations vagy validation_size az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból. Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names: .

További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

y_min: float

Kötelező

Regressziós kísérlet minimális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

y_max: float

Kötelező

Egy regressziós kísérlet maximális értéke y. A és y_max kombinációval y_min normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

num_classes: int

Kötelező

A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.

featurization: str vagy FeaturizationConfig

Kötelező

"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.

A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:

Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.
Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.
DateTime: Számos funkció, például nap, másodperc, perc, óra stb.
Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.

További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.

A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.

Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.

max_cores_per_iteration: int

Kötelező

Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:

1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.
Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.
Értéke 1, az alapértelmezett érték.

max_concurrent_iterations: int

Kötelező

A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.

Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több kísérlet fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege max_concurrent_iterations kisebb vagy egyenlő a csomópontok maximális számával.
A DSVM csomópontonként több iterációt is támogat. max_concurrent_iterations kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összege max_concurrent_iterations kisebb vagy egyenlő a csomópontok maximális számával.
Databricks – max_concurrent_iterations a Databricks munkavégző csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.

max_concurrent_iterations nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations.

iteration_timeout_minutes: int

Kötelező

Az egyes iterációk legfeljebb percek alatt futtathatók a leállása előtt. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.

mem_in_mb: int

Kötelező

Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.

enforce_time_on_windows: bool

Kötelező

A modell betanítására vonatkozó időkorlát kikényszerítése a Windows minden iterációjában. Az alapértelmezett érték Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg a Windows erőforráskorlátainak engedélyezéséről szóló dokumentációt.

experiment_timeout_hours: float

Kötelező

A kísérlet befejeződése előtt az összes iteráció összevonásának maximális időtartama órákon belül. Lehet egy 0,25-ös decimális érték, amely 15 percet jelöl. Ha nincs megadva, az alapértelmezett kísérlet időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem haladja meg a 10 000 000 000-et (soridő oszlop) vagy a hibaeredményeket.

experiment_exit_score: float

Kötelező

A kísérlet célértéke. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem végez további előrehaladást. A kilépési feltételekről további információt a >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria"_<<" című témakörben talál.

enable_early_stopping: bool

Kötelező

A korai megszüntetés engedélyezése, ha a pontszám rövid távon nem javul. Az alapértelmezett érték Igaz.

Korai leállítási logika:

Nincs korai megállás az első 20 iterációhoz (nevezetességek).
A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres (jelenleg 10-esre). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.
Az AutoML a korai leállítás után is 2 együttes iterációt ütemez, ami magasabb pontszámot eredményezhet.
A korai leállítás akkor aktiválódik, ha a számított legjobb pontszám abszolút értéke megegyezik a korábbi early_stopping_n_iters iterációk esetében, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.

blocked_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

A kísérlethez figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf hamis, akkor a TensorFlow-modelleket a rendszer tartalmazza.blocked_models

blacklist_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

Elavult paraméter, használja inkább a blocked_models.

exclude_nan_labels: bool

Kötelező

Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték Igaz.

verbosity: int

Kötelező

A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy a 20. Az elfogadható értékek a Python naplózási kódtárában vannak definiálva.

enable_tf: bool

Kötelező

A TensorFlow-algoritmusok engedélyezése/letiltása. Az alapértelmezett érték Hamis.

model_explainability: bool

Kötelező

A legjobb AutoML-modell magyarázatának engedélyezése az AutoML-betanítási iterációk végén. Az alapértelmezett érték Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.

allowed_models: list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>

Kötelező

A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.

allowed_models

Kötelező

A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models megadott vagy elavult modellek nélkül. Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.

whitelist_models

Kötelező

Elavult paraméter, használja inkább a allowed_models.

enable_onnx_compatible_models: bool

Kötelező

Engedélyezze vagy tiltsa le az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatással kapcsolatos további információkért lásd ezt a cikket.

forecasting_parameters: ForecastingParameters

Kötelező

Az összes előrejelzési paraméter tárolására szolgáló objektum.

time_column_name: str

Kötelező

Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

max_horizon: int

Kötelező

A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása.

grain_column_names: str vagy list(str)

Kötelező

Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_lags: int vagy list(int)

Kötelező

A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.

feature_lags: str

Kötelező

A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

target_rolling_window_size: int

Kötelező

A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.

country_or_region: str

Kötelező

Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódoknak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.

use_stl: str

Kötelező

Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

seasonality: int

Kötelező

Idősor szezonalitásának beállítása. Ha a szezonalitás -1 értékre van állítva, a rendszer a következőt fogja levonni. Ha use_stl nincs beállítva, a rendszer nem használja ezt a paramétert. Ez a beállítás elavult. Használja inkább a forecasting_parameters.

short_series_handling_configuration: str

Kötelező

Az a paraméter, amely meghatározza, hogy az AutoML hogyan kezelje a rövid idősorokat.

Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.

automatikus rövid sorozat lesz padded, ha nincs hosszú sorozat, különben rövid sorozat lesz elvetve.
pad az összes rövid sorozat lesz párnázott.
az összes rövid sorozat elvetése".
Egyik sem módosítja a rövid sorozatot. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, a célhoz pedig véletlenszerű értékekkel lesz kipárnázott, és az adott idősor-azonosító célértékével egyenlő középértékkel lesz kipárnázott. Ha a medián nullával egyenlő vagy nagyobb, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:

Date

numeric_value

Karakterlánc

Cél

2020-01-01

23

zöld

55

Kimenet, ha az értékek minimális száma négy: +————+—————+———-+—–+ | Dátum | numeric_value | sztring | cél | +============+===============+==========+========+ | 2019.12.29. | 0 | NA | 55.1 . +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 . +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 . +————+—————+———-+——–+ | 2020.01.01. | 23 | zöld | 55 | +————+—————+———-+——–+

Megjegyzés: Két paraméterünk van short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidség kedvéért handling_configuration és kezelésként vannak megjelölve).

Kezelése

handling_configuration

eredményként kapott kezelés

eredményként kapott handling_configuration

Igaz

auto

Igaz

auto

Igaz

Pad

Igaz

auto

Igaz

drop

Igaz

auto

Igaz

None

Hamis

None

Hamis

auto

Hamis

None

Hamis

Pad

Hamis

None

Hamis

drop

Hamis

None

Hamis

None

Hamis

None

freq: str vagy None

Kötelező

Előrejelzés gyakorisága.

Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést szeretné elérni, például naponta, hetente, évente stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja a gyakoriságot napi, heti vagy havi értékre, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str vagy None

Kötelező

Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba keletkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".

Freq

target_aggregation_function

Adatszűrési mechanizmus

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.

Néhány érték

Nincs (alapértelmezett)

Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor ezek a pontok 90%-a törlődik, ellenkező esetben a hiba jelentkezik.

Nincs (alapértelmezett)

Aggregációs függvény

A hiányzó gyakorisági paraméterekkel kapcsolatos hiba lépett fel.

Néhány érték

Aggregációs függvény

Összesítés gyakoriságra a providedaggregation függvénnyel.

enable_voting_ensemble: bool

Kötelező

A VotingEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték az Igaz. További információ az együttesekről: Együttes konfigurációja.

enable_stack_ensemble: bool

Kötelező

A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Hasonlóképpen, az Időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. További információ az együttesekről: Együttes konfigurációja.

debug_log: str

Kötelező

A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.

training_data: DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A kísérletben használandó betanítási adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha training_data meg van adva, akkor a paramétert label_column_name is meg kell adni.

training_data az 1.0.81-es verzióban jelent meg.

validation_data: DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset

Kötelező

A kísérletben használandó érvényesítési adatok. Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot). Ha validation_data meg van adva, akkor training_data és label_column_name paramétereket kell megadni.

validation_data az 1.0.81-es verzióban jelent meg. További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

test_data: Dataset vagy TabularDataset

Kötelező

A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.

Ha ez a paraméter vagy a test_size paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást. A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is. Ha test_data meg van adva, akkor meg kell adni a label_column_name paramétert.

test_size: float

Kötelező

A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A modell betanítása után automatikusan elinduló tesztfuttatáshoz szükséges betanítási adatok hány része lesz visszatartva a tesztadatokhoz. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.

Ennek 0,0 és 1,0 közöttinek kell lennie, nem inkluzívnak. Ha test_size a meg van adva a -sel validation_sizeegy időben, akkor a tesztadatok felosztása training_data az érvényesítési adatok felosztása előtt történik. Ha például a validation_size=0.1test_size=0.1 , és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.

A regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.

Ha ez a paraméter vagy a test_data paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.

label_column_name: Union[str, int]

Kötelező

A címkeoszlop neve. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_datatest_data a paraméterekre training_datavonatkozik. label_column_name az 1.0.81-es verzióban jelent meg.

weight_column_name: Union[str, int]

Kötelező

A minta súlyozási oszlopának neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, ami az adatok sorainak súlyozását okozza. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.

Ez a paraméter a és validation_data a paraméterre training_data vonatkozik. weight_column_names az 1.0.81-es verzióban jelent meg.

cv_split_column_names: list(str)

Kötelező

Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az egyes CV felosztási oszlopok egy CV-felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.

Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data . cv_split_column_names az 1.6.0-s verzióban jelent meg

Használja a cv_split_column_names vagy a parancsot cv_splits_indices.

További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.

enable_local_managed: bool

Kötelező

Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.

enable_dnn: bool

Kötelező

DNN-alapú modellek belefoglalása a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban igaz a DNN NLP-feladatok esetében, és az összes többi AutoML-tevékenység esetén hamis.

as_serializable_dict	Konvertálja az objektumot szótárlá.
get_supported_dataset_languages	Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban.

AutoMLConfig Osztály

Konstruktor

Paraméterek

Megjegyzések

Metódusok

as_serializable_dict

get_supported_dataset_languages

Paraméterek

Válaszok

Visszajelzés

Visszajelzés

További források