AutoMLConfig Osztály
Egy automatizált gépi tanulási kísérlet Azure Machine Learningben való elküldéséhez szükséges konfigurációt jelöli.
Ez a konfigurációs objektum tartalmazza és megőrzi a kísérletfuttatás konfigurálásához szükséges paramétereket, valamint a futtatáskor használandó betanítási adatokat. A beállítások kiválasztásával kapcsolatos útmutatásért lásd: https://aka.ms/AutoMLConfig.
AutoMLConfig létrehozása.
- Öröklődés
-
builtins.objectAutoMLConfig
Konstruktor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Paraméterek
A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.
- path
- str
Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.
- iterations
- int
Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.
Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.
- positive_label
- Any
A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:
- A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
- többosztályos besorolási feladat positive_label megadva
A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.
- compute_target
- AbstractComputeTarget
Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote információ a számítási célokról.
- spark_context
- <xref:SparkContext>
A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.
- X
- DataFrame vagy ndarray vagy Dataset vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.
- y
- DataFrame vagy ndarray vagy Dataset vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.
- sample_weight
- DataFrame vagy ndarray vagy TabularDataset
Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.
A paraméter megadásakor adja meg ezt a paramétert X
.
Ez a beállítás elavult. Használja inkább training_data és weight_column_name.
- X_valid
- DataFrame vagy ndarray vagy Dataset vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.
Ha meg van adva, akkor y_valid
vagy sample_weight_valid
azt is meg kell adni.
Ez a beállítás elavult. Használja inkább validation_data és label_column_name.
- y_valid
- DataFrame vagy ndarray vagy Dataset vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.
Mindkettőt X_valid
együtt y_valid
kell megadni.
Ez a beállítás elavult. Használja inkább validation_data és label_column_name.
- sample_weight_valid
- DataFrame vagy ndarray vagy TabularDataset
A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.
A paraméter megadásakor adja meg ezt a paramétert X_valid
.
Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.
Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe.
A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data
: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations
vagy validation_size
a értéket.
Akkor használja cv_split_column_names
, ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data
.
- validation_size
- float
A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.
Itt adhatja meg validation_data
az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations
vagy validation_size
az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból.
Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names
: .
További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- n_cross_validations
- int
Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.
Itt adhatja meg validation_data
az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations
vagy validation_size
az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból.
Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names
: .
További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- y_min
- float
Regressziós kísérlet minimális értéke y. A és y_max
kombinációval y_min
normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- y_max
- float
Egy regressziós kísérlet maximális értéke y. A és y_max
kombinációval y_min
normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- num_classes
- int
A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- featurization
- str vagy FeaturizationConfig
"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.
A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:
Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.
Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.
DateTime: Számos funkció, például nap, másodperc, perc, óra stb.
Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.
További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.
A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.
Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.
- max_cores_per_iteration
- int
Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:
1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.
Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.
Értéke 1, az alapértelmezett érték.
- max_concurrent_iterations
- int
A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.
Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több AutoML-kísérlet szülőfuttatása fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege
max_concurrent_iterations
nem haladhatja meg a csomópontok maximális számát. Ellenkező esetben a futtatások várólistára kerülnek, amíg a csomópontok elérhetővé nem válnak.A DSVM csomópontonként több iterációt is támogat.
max_concurrent_iterations
kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összegemax_concurrent_iterations
nem haladhatja meg a csomópontok maximális számát.Databricks –
max_concurrent_iterations
a Databricks feldolgozó csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.
max_concurrent_iterations
nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations
.
- iteration_timeout_minutes
- int
Az egyes iterációk futásának maximális időtartama percekben, mielőtt befejeződik. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.
- mem_in_mb
- int
Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.
- enforce_time_on_windows
- bool
A modell betanítására vonatkozó időkorlát kényszerítése a Windows minden iterációjában. Az alapértelmezett érték az Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg az erőforráskorlátok Windows rendszeren történő engedélyezésének dokumentációját.
- experiment_timeout_hours
- float
A kísérlet befejeződése előtt az összes iteráció által együtt töltött órák maximális száma. Lehet egy 0,25-hez hasonló decimális érték, amely 15 percet jelöl. Ha nincs megadva, a kísérlet alapértelmezett időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem nagyobb 10 000 000-nél (sorok száma oszlopban) vagy hibaeredménynél.
- experiment_exit_score
- float
A kísérlet célpontszáma. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem halad tovább. A kilépési feltételekről ebben a cikkben talál további információt.
- enable_early_stopping
- bool
Lehetővé teszi-e a korai megszüntetést, ha a pontszám rövid távon nem javul. Az alapértelmezett érték az Igaz.
Korai leállítási logika:
Nincs korai leállítás az első 20 iterációhoz (nevezetességekhez).
A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres
(jelenleg 10 értékre van állítva). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.
Az AutoML továbbra is 2 együttes iterációt ütemez a korai leállítás után, ami
magasabb pontszámot.
A korai leállítás akkor aktiválódik, ha a kiszámított legjobb pontszám abszolút értéke megegyezik a múlttal
early_stopping_n_iters iterációk, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.
- blocked_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
A kísérletben figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf
hamis, a TensorFlow-modellek a részét képezik.blocked_models
- blacklist_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Elavult paraméter helyett használja a blocked_models.
- exclude_nan_labels
- bool
Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték az Igaz.
- verbosity
- int
A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy 20. Az elfogadható értékek a Python naplózási kódtárában vannak meghatározva.
- enable_tf
- bool
Elavult paraméter a Tensorflow-algoritmusok engedélyezéséhez/letiltásához. Az alapértelmezett érték a Hamis.
- model_explainability
- bool
Engedélyezi-e a legjobb AutoML-modell magyarázatát az autoML betanítási iterációinak végén. Az alapértelmezett érték az Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.
- allowed_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Modellnevek listája egy kísérlet kereséséhez. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models
megadott vagy elavult modellek nélkül.
Az egyes tevékenységtípusok támogatott modelljeit az SupportedModels osztály ismerteti.
- whitelist_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Elavult paraméter helyett használja a allowed_models.
- enable_onnx_compatible_models
- bool
Engedélyezi vagy letiltja az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték a Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatásról ebben a cikkben talál további információt.
- forecasting_parameters
- ForecastingParameters
Egy ForecastingParameters objektum, amely az összes előrejelzési specifikus paramétert tárolja.
- time_column_name
- str
Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- max_horizon
- int
A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1.
Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.
- feature_lags
- str
A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- target_rolling_window_size
- int
A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.
- country_or_region
- str
Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódnak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- use_stl
- str
Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Idősor szezonalitásának beállítása. Ha a szezonalitás "auto" értékre van állítva, akkor a rendszer arra következtet. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- short_series_handling_configuration
- str
A paraméter határozza meg, hogy az AutoML hogyan kezelje a rövid idősorokat.
Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.
- az automatikus rövid sorozat ki lesz párnázott, ha nincsenek hosszú sorozatok, különben a rövid sorozatok el lesznek dobva.
- pad az összes rövid sorozat lesz párnázott.
- az összes rövid sorozat elvetése".
- A rövid sorozat nem lesz módosítva. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, valamint a cél véletlenszerű értékeivel lesz kipárnázott, és az adott idősor-azonosító célértékének középértéke. Ha a medián nagyobb vagy egyenlő nullával, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:
Date
numeric_value
Karakterlánc
Cél
2020-01-01
23
zöld
55
A kimenet minimális értékeket feltételezve négy:
Date
numeric_value
Karakterlánc
Cél
2019-12-29
0
NA
55.1
2019-12-30
0
NA
55.6
2019-12-31
0
NA
54.5
2020-01-01
23
zöld
55
Megjegyzés: Két paraméterünk short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidséghez handling_configuration és kezelésként vannak megjelölve).
Kezelése
handling_configuration
eredményként kapott kezelés
eredményként kapott handling_configuration
Igaz
auto
Igaz
auto
Igaz
Pad
Igaz
auto
Igaz
drop
Igaz
auto
Igaz
None
Hamis
None
Hamis
auto
Hamis
None
Hamis
Pad
Hamis
None
Hamis
drop
Hamis
None
Hamis
None
Hamis
None
Előrejelzés gyakorisága.
Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést kívánja, például napi, heti, éves stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja, hogy a gyakoriság napi, heti vagy havi legyen, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba jelentkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".
Freq
target_aggregation_function
Adatszűrési mechanizmus
Nincs (alapértelmezett)
Nincs (alapértelmezett)
Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.
Valamilyen érték
Nincs (alapértelmezett)
Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor a rendszer eltávolítja ezeket a pontokat, ellenkező esetben a hiba jelentkezik.
Nincs (alapértelmezett)
Aggregációs függvény
A hiányzó gyakorisági paraméterekkel kapcsolatos hiba merült fel.
Valamilyen érték
Aggregációs függvény
Összesítés gyakoriságra a megadottaggregációs függvény használatával.
- enable_voting_ensemble
- bool
Engedélyezze vagy tiltsa le a VotingEnsemble iterációt. Az alapértelmezett érték Igaz. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.
- enable_stack_ensemble
- bool
A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Az időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja.
- debug_log
- str
A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.
- training_data
- DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
A kísérletben használandó betanítási adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha training_data
meg van adva, akkor a paramétert label_column_name
is meg kell adni.
training_data
az 1.0.81-es verzióban jelent meg.
- validation_data
- DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
A kísérletben használandó érvényesítési adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha validation_data
meg van adva, akkor training_data
és label_column_name
paramétereket kell megadni.
validation_data
az 1.0.81-es verzióban jelent meg. További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- test_data
- Dataset vagy TabularDataset
A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.
Ha ez a paraméter vagy a test_size
paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.
A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is.
Ha test_data
meg van adva, meg kell adni a label_column_name
paramétert.
- test_size
- float
A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A betanítási adatok hány része legyen visszatartva egy tesztfuttatás tesztadataihoz, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat.
Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.
Ha test_size
a paramétert a () értékével egy időben validation_size
adja meg, akkor a tesztadatok felosztása training_data
az érvényesítési adatok felosztása előtt történik.
Ha például a validation_size=0.1
, test_size=0.1
és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.
Regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.
Ha ez a paraméter vagy a test_data
paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.
A címkeoszlop neve. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.
Ez a paraméter a és validation_data
test_data
a paraméterekre training_data
alkalmazható.
label_column_name
az 1.0.81-es verzióban jelent meg.
A mintasúly oszlop neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, így az adatok sorai felfelé vagy lefelé lesznek súlyozottak. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve.
Ez a paraméter a és validation_data
a paraméterekre training_data
vonatkozik.
weight_column_names
az 1.0.81-es verzióban jelent meg.
Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az önéletrajz felosztási oszlopai egy cv felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.
Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data
.
cv_split_column_names
az 1.6.0-s verzióban jelent meg
Használja a cv_split_column_names
vagy a parancsot cv_splits_indices
.
További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- enable_local_managed
- bool
Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.
- enable_dnn
- bool
DNN-alapú modellek felvétele a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban A DNN NLP-tevékenységek esetében igaz, és az összes többi AutoML-tevékenység esetében hamis.
A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően.
- path
- str
Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata.
- iterations
- int
Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció.
Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják.
- positive_label
- Any
A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:
- A label oszlop két osztályból áll, amelyek azt jelzik, hogy az AutoML a megadott pozitív osztályt fogja használni , amikor positive_label ad át, ellenkező esetben az AutoML egy pozitív osztályt választ a címkekódolt érték alapján.
- többosztályos besorolási feladat positive_label megadva
A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit.
- compute_target
- AbstractComputeTarget
Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote információ a számítási célokról.
- spark_context
- <xref:SparkContext>
A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható.
- X
- DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name.
- y
- DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name.
- sample_weight
- DataFrame vagy ndarray vagy TabularDataset
Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak.
A paraméter megadásakor adja meg ezt a paramétert X
.
Ez a beállítás elavult. Használja inkább training_data és weight_column_name.
- X_valid
- DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók.
Ha meg van adva, akkor y_valid
vagy sample_weight_valid
azt is meg kell adni.
Ez a beállítás elavult. Használja inkább validation_data és label_column_name.
- y_valid
- DataFrame vagy ndarray vagy Dataset vagy DatasetDefinition vagy TabularDataset
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék.
Mindkettőt X_valid
együtt y_valid
kell megadni.
Ez a beállítás elavult. Használja inkább validation_data és label_column_name.
- sample_weight_valid
- DataFrame vagy ndarray vagy TabularDataset
A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával.
A paraméter megadásakor adja meg ezt a paramétert X_valid
.
Ez a beállítás elavult. Használja inkább validation_data és weight_column_name.
Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe. Ez a beállítás akkor támogatott, ha az adatokat külön Szolgáltatások adatkészletként és Címke oszlopként adja át.
A meglévő adatok érvényesítési adatokként való megadásához használja a következőt validation_data
: . Ha azt szeretné, hogy az AutoML kinyerje az érvényesítési adatokat a betanítási adatokból, adja meg a n_cross_validations
vagy validation_size
a értéket.
Akkor használja cv_split_column_names
, ha keresztérvényesítési oszlop(ok) vannak a fájlban training_data
.
- validation_size
- float
A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.
Itt adhatja meg validation_data
az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations
vagy validation_size
az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból.
Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names
: .
További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva.
Itt adhatja meg validation_data
az érvényesítési adatok megadását, egyéb módon történő beállítását n_cross_validations
vagy validation_size
az érvényesítési adatok kinyerésének módját a megadott betanítási adatokból.
Az egyéni keresztérvényesítési hajtáshoz használja a következőt cv_split_column_names
: .
További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- y_min
- float
Regressziós kísérlet minimális értéke y. A és y_max
kombinációval y_min
normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- y_max
- float
Egy regressziós kísérlet maximális értéke y. A és y_max
kombinációval y_min
normalizálható a tesztkészlet metrikái a bemeneti adattartomány alapján. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- num_classes
- int
A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva.
- featurization
- str vagy FeaturizationConfig
"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be.
A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:
Kategorikus: Célkódolás, egy gyakori kódolás, a magas számosságkategóriák elvetése, a hiányzó értékek impute.
Numerikus: Hiányzó értékek impute, fürt távolsága, bizonyítékok súlya.
DateTime: Számos funkció, például nap, másodperc, perc, óra stb.
Szöveg: Zsáknyi szó, előre betanított Word beágyazás, szöveges célkódolás.
További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál.
A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása.
Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be.
- max_cores_per_iteration
- int
Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:
1-nél nagyobb és kisebb, mint a számítási célmagok maximális száma.
Egyenlő -1-sel, ami azt jelenti, hogy a gyermekfuttatásonkénti iterációnkénti összes lehetséges magot használja.
Értéke 1, az alapértelmezett érték.
- max_concurrent_iterations
- int
A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.
Az AmlCompute-fürtök csomópontonként egy interatációt támogatnak. Ha több kísérlet fut párhuzamosan egyetlen AmlCompute-fürtön, az összes kísérlet értékeinek összege
max_concurrent_iterations
kisebb vagy egyenlő a csomópontok maximális számával.A DSVM csomópontonként több iterációt is támogat.
max_concurrent_iterations
kisebbnek vagy egyenlőnek kell lennie a DSVM magjainak számával. Ha több kísérlet fut párhuzamosan egyetlen DSVM-en, az összes kísérlet értékeinek összegemax_concurrent_iterations
kisebb vagy egyenlő a csomópontok maximális számával.Databricks –
max_concurrent_iterations
a Databricks munkavégző csomópontjainak számánál kisebbnek vagy egyenlőnek kell lennie.
max_concurrent_iterations
nem vonatkozik a helyi futtatásokra. Korábban ezt a paramétert nevezték el concurrent_iterations
.
- iteration_timeout_minutes
- int
Az egyes iterációk legfeljebb percek alatt futtathatók a leállása előtt. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ.
- mem_in_mb
- int
Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ.
- enforce_time_on_windows
- bool
A modell betanítására vonatkozó időkorlát kikényszerítése a Windows minden iterációjában. Az alapértelmezett érték Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg a Windows erőforráskorlátainak engedélyezéséről szóló dokumentációt.
- experiment_timeout_hours
- float
A kísérlet befejeződése előtt az összes iteráció összevonásának maximális időtartama órákon belül. Lehet egy 0,25-ös decimális érték, amely 15 percet jelöl. Ha nincs megadva, az alapértelmezett kísérlet időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem haladja meg a 10 000 000 000-et (soridő oszlop) vagy a hibaeredményeket.
- experiment_exit_score
- float
A kísérlet célértéke. A kísérlet a pontszám elérése után leáll.
Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem végez további előrehaladást. A kilépési feltételekről további információt a >>article
https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria"_<<" című témakörben talál.
- enable_early_stopping
- bool
A korai megszüntetés engedélyezése, ha a pontszám rövid távon nem javul. Az alapértelmezett érték Igaz.
Korai leállítási logika:
Nincs korai megállás az első 20 iterációhoz (nevezetességek).
A korai leállítási ablak a 21. iterációban kezdődik, és early_stopping_n_iters iterációkat keres (jelenleg 10-esre). Ez azt jelenti, hogy az első iteráció, ahol leállítás történhet, a 31.
Az AutoML a korai leállítás után is 2 együttes iterációt ütemez, ami magasabb pontszámot eredményezhet.
A korai leállítás akkor aktiválódik, ha a számított legjobb pontszám abszolút értéke megegyezik a korábbi early_stopping_n_iters iterációk esetében, azaz ha nincs javulás az early_stopping_n_iters iterációk pontszámában.
- blocked_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
A kísérlethez figyelmen kívül hagyandó algoritmusok listája. Ha enable_tf
hamis, akkor a TensorFlow-modelleket a rendszer tartalmazza.blocked_models
- blacklist_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
Elavult paraméter, használja inkább a blocked_models.
- exclude_nan_labels
- bool
Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték Igaz.
- verbosity
- int
A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy a 20. Az elfogadható értékek a Python naplózási kódtárában vannak definiálva.
- enable_tf
- bool
A TensorFlow-algoritmusok engedélyezése/letiltása. Az alapértelmezett érték Hamis.
- model_explainability
- bool
A legjobb AutoML-modell magyarázatának engedélyezése az AutoML-betanítási iterációk végén. Az alapértelmezett érték Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban.
- allowed_models
- list(str) vagy list(Classification) <xref:for classification task> vagy list(Regression) <xref:for regression task> vagy list(Forecasting) <xref:for forecasting task>
A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models
megadott vagy elavult modellek nélkül.
Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.
- allowed_models
A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben blocked_models
megadott vagy elavult modellek nélkül.
Az egyes feladattípusok támogatott modelljeit az SupportedModels osztály ismerteti.
- whitelist_models
Elavult paraméter, használja inkább a allowed_models.
- enable_onnx_compatible_models
- bool
Engedélyezze vagy tiltsa le az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatással kapcsolatos további információkért lásd ezt a cikket.
- forecasting_parameters
- ForecastingParameters
Az összes előrejelzési paraméter tárolására szolgáló objektum.
- time_column_name
- str
Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- max_horizon
- int
A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása.
Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása.
- feature_lags
- str
A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- target_rolling_window_size
- int
A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor.
- country_or_region
- str
Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódoknak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- use_stl
- str
Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- seasonality
- int
Idősor szezonalitásának beállítása. Ha a szezonalitás -1 értékre van állítva, a rendszer a következőt fogja levonni. Ha use_stl nincs beállítva, a rendszer nem használja ezt a paramétert. Ez a beállítás elavult. Használja inkább a forecasting_parameters.
- short_series_handling_configuration
- str
Az a paraméter, amely meghatározza, hogy az AutoML hogyan kezelje a rövid idősorokat.
Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.
- automatikus rövid sorozat lesz padded, ha nincs hosszú sorozat, különben rövid sorozat lesz elvetve.
- pad az összes rövid sorozat lesz párnázott.
- az összes rövid sorozat elvetése".
- Egyik sem módosítja a rövid sorozatot. Ha a "pad" értékre van állítva, a tábla a regresszorok nulláival és üres értékeivel, a célhoz pedig véletlenszerű értékekkel lesz kipárnázott, és az adott idősor-azonosító célértékével egyenlő középértékkel lesz kipárnázott. Ha a medián nullával egyenlő vagy nagyobb, a minimális kipárnázott érték nullával lesz kivágva: Bemenet:
Date
numeric_value
Karakterlánc
Cél
2020-01-01
23
zöld
55
Kimenet, ha az értékek minimális száma négy: +————+—————+———-+—–+ | Dátum | numeric_value | sztring | cél | +============+===============+==========+========+ | 2019.12.29. | 0 | NA | 55.1 . +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 . +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 . +————+—————+———-+——–+ | 2020.01.01. | 23 | zöld | 55 | +————+—————+———-+——–+
Megjegyzés: Két paraméterünk van short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidség kedvéért handling_configuration és kezelésként vannak megjelölve).
Kezelése
handling_configuration
eredményként kapott kezelés
eredményként kapott handling_configuration
Igaz
auto
Igaz
auto
Igaz
Pad
Igaz
auto
Igaz
drop
Igaz
auto
Igaz
None
Hamis
None
Hamis
auto
Hamis
None
Hamis
Pad
Hamis
None
Hamis
drop
Hamis
None
Hamis
None
Hamis
None
Előrejelzés gyakorisága.
Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést szeretné elérni, például naponta, hetente, évente stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja a gyakoriságot napi, heti vagy havi értékre, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba keletkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean".
Freq
target_aggregation_function
Adatszűrési mechanizmus
Nincs (alapértelmezett)
Nincs (alapértelmezett)
Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik.
Néhány érték
Nincs (alapértelmezett)
Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor ezek a pontok 90%-a törlődik, ellenkező esetben a hiba jelentkezik.
Nincs (alapértelmezett)
Aggregációs függvény
A hiányzó gyakorisági paraméterekkel kapcsolatos hiba lépett fel.
Néhány érték
Aggregációs függvény
Összesítés gyakoriságra a providedaggregation függvénnyel.
- enable_voting_ensemble
- bool
A VotingEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték az Igaz. További információ az együttesekről: Együttes konfigurációja.
- enable_stack_ensemble
- bool
A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Hasonlóképpen, az Időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. További információ az együttesekről: Együttes konfigurációja.
- debug_log
- str
A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja.
- training_data
- DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
A kísérletben használandó betanítási adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha training_data
meg van adva, akkor a paramétert label_column_name
is meg kell adni.
training_data
az 1.0.81-es verzióban jelent meg.
- validation_data
- DataFrame vagy Dataset vagy DatasetDefinition vagy TabularDataset
A kísérletben használandó érvényesítési adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha validation_data
meg van adva, akkor training_data
és label_column_name
paramétereket kell megadni.
validation_data
az 1.0.81-es verzióban jelent meg. További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- test_data
- Dataset vagy TabularDataset
A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.
Ha ez a paraméter vagy a test_size
paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.
A tesztadatoknak tartalmazniuk kell a funkciókat és a címkeoszlopot is.
Ha test_data
meg van adva, akkor meg kell adni a label_column_name
paramétert.
- test_size
- float
A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A modell betanítása után automatikusan elinduló tesztfuttatáshoz szükséges betanítási adatok hány része lesz visszatartva a tesztadatokhoz. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat.
Ennek 0,0 és 1,0 közöttinek kell lennie, nem inkluzívnak.
Ha test_size
a meg van adva a -sel validation_size
egy időben, akkor a tesztadatok felosztása training_data
az érvényesítési adatok felosztása előtt történik.
Ha például a validation_size=0.1
test_size=0.1
, és az eredeti betanítási adatok 1000 sort tartalmaznak, akkor a tesztadatok 100 sorból állnak, az érvényesítési adatok 90 sort, a betanítási adatok pedig 810 sort tartalmaznak.
A regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását.
Ha ez a paraméter vagy a test_data
paraméter nincs megadva, akkor a modell betanítása után a rendszer nem hajtja végre automatikusan a tesztfuttatást.
A címkeoszlop neve. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.
Ez a paraméter a és validation_data
test_data
a paraméterekre training_data
vonatkozik.
label_column_name
az 1.0.81-es verzióban jelent meg.
A minta súlyozási oszlopának neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, ami az adatok sorainak súlyozását okozza. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve.
Ez a paraméter a és validation_data
a paraméterre training_data
vonatkozik.
weight_column_names
az 1.0.81-es verzióban jelent meg.
Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az egyes CV felosztási oszlopok egy CV-felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez.
Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható training_data
.
cv_split_column_names
az 1.6.0-s verzióban jelent meg
Használja a cv_split_column_names
vagy a parancsot cv_splits_indices
.
További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban.
- enable_local_managed
- bool
Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők.
- enable_dnn
- bool
DNN-alapú modellek belefoglalása a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban igaz a DNN NLP-feladatok esetében, és az összes többi AutoML-tevékenység esetén hamis.
Megjegyzések
Az alábbi kód egy egyszerű példát mutat be egy AutoMLConfig-objektum létrehozására és egy regressziós kísérlet elküldésére:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Teljes minta érhető el a regressziónál
Az AutoMLConfig előrejelzéshez való használatát az alábbi jegyzetfüzetek szemléltetik:
Az AutoMLConfig minden feladattípushoz való használatára példákat találhat ezekben az automatizált gépi tanulási jegyzetfüzetekben.
Az automatizált gépi tanulás hátteréről a következő cikkekben olvashat:
Automatizált gépi tanulási kísérletek konfigurálása Pythonban. Ebben a cikkben az egyes tevékenységtípusokhoz használt különböző algoritmusokról és elsődleges metrikákról olvashat.
Idősoros előrejelzési modell automatikus betanítása. Ebben a cikkben információkat talál arról, hogy mely konstruktorparamétereket használják
**kwargs
az előrejelzéshez.
Az automatikus gépi tanulás, az AutoML és a kísérletek betanítási/érvényesítési adatok felosztásának és keresztérvényesítésének konfigurálásával kapcsolatos további információkért lásd: Adatfelosztások és keresztérvényesítés konfigurálása az automatizált gépi tanulásban.
Metódusok
as_serializable_dict |
Konvertálja az objektumot szótárlá. |
get_supported_dataset_languages |
Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban. |
as_serializable_dict
Konvertálja az objektumot szótárlá.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Paraméterek
- use_gpu
logikai érték, amely azt jelzi, hogy gpu-számítás van-e használatban.
Válaszok
a(z) {: } formátumú szótár. A nyelvi kód megfelel az ISO 639-3 szabványnak. Lásd: https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: