Share via


Az AutoML-ben történő előrejelzésre vonatkozó gyakori kérdések

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azure-ai-ml v2 (aktuális)

Ez a cikk az automatikus gépi tanulás (AutoML) előrejelzésével kapcsolatos gyakori kérdésekre ad választ. Az AutoML előrejelzési módszertanával kapcsolatos általános információkért tekintse meg az Előrejelzési módszerek áttekintését az AutoML-cikkben .

Hogyan megkezdi az előrejelzési modellek készítését az AutoML-ben?

Első lépésként olvassa el az AutoML beállítása című cikket egy idősorozat-előrejelzési modellről szóló cikk betanításához. Gyakorlati példákat több Jupyter-jegyzetfüzetben is találhat:

Miért lassú az AutoML az adataimon?

Folyamatosan dolgozunk azon, hogy az AutoML gyorsabb és skálázhatóbb legyen. Általános előrejelzési platformként való működéshez az AutoML széles körű adatérvényesítést és összetett funkciófejlesztést végez, és nagy modellterületen keres. Ez az összetettség sok időt igényelhet az adatoktól és a konfigurációtól függően.

A lassú futtatókörnyezet egyik gyakori forrása az AutoML betanítása, amely számos idősort tartalmazó adatok alapértelmezett beállításait tartalmazza. Számos előrejelzési módszer költsége a sorozatok számával skálázható. Például az olyan metódusok, mint az exponenciális simítás és a Prophet betanít egy modellt a betanítási adatok minden egyes idősorához .

Az AutoML Több modell funkciója ezekre a forgatókönyvekre skálázható a betanítási feladatok számítási fürtök közötti elosztásával. Sikeresen alkalmazták több millió idősort tartalmazó adatokra. További információkért tekintse meg a több modellről szóló cikk szakaszát. A számos modell sikerességéről egy nagy profilú versenyadatkészleten is olvashat.

Hogyan gyorsíthatom fel az AutoML-t?

Tekintse meg a Miért lassú az AutoML az adataimon? választ, amelyből megtudhatja, hogy az AutoML miért lassú az Ön esetében.

Fontolja meg a következő konfigurációs módosításokat, amelyek felgyorsíthatják a feladatot:

  • Tiltsa le az idősorozat-modelleket , például az ARIMA-t és a Prophett.
  • Kapcsolja ki a visszatekintő funkciókat, például a késéseket és a gördülő ablakokat.
  • Csökkenti:
    • A kísérletek/iterációk száma.
    • Próbaverzió/iteráció időtúllépése.
    • Kísérlet időtúllépése.
    • A keresztérvényesítési hajtások száma.
  • Győződjön meg arról, hogy a korai megszüntetés engedélyezve van.

Milyen modellezési konfigurációt használjak?

Az AutoML-előrejelzés négy alapkonfigurációt támogat:

Konfiguráció Eset Előnyök Hátrányok
Alapértelmezett AutoML Akkor ajánlott, ha az adathalmaz kis számú, nagyjából hasonló előzményviselkedésű idősorsal rendelkezik. - Egyszerűen konfigurálható a code/SDK-ból vagy az Azure Machine Tanulás Studióból.

- Az AutoML különböző idősorokon tanulhat, mert a regressziós modellek az összes sorozatot összevonják a betanítás során. További információ: Modell csoportosítása.
- A regressziós modellek kevésbé pontosak lehetnek, ha a betanítási adatok idősorai eltérő viselkedéssel rendelkeznek.

– Az idősorozat-modellek betanítása hosszú időt vehet igénybe, ha a betanítási adatok nagy számú sorozattal rendelkeznek. További információ: Miért lassú az AutoML az adataimon?
AutoML mély tanulással Több mint 1000 megfigyeléssel és esetleg számos olyan idősorsal rendelkező adathalmazokhoz ajánlott, amelyek összetett mintákat mutatnak. Ha engedélyezve van, az AutoML átsöpri a konvolúciós neurális (TCN-) modelleket a betanítás során. További információ: Mély tanulás engedélyezése. - Egyszerűen konfigurálható a code/SDK-ból vagy az Azure Machine Tanulás Studióból.

- Kereszttanulási lehetőségek, mivel a TCN az összes adatsorhoz összes adatkészletet összeadja.

- A mély neurális hálózati (DNN-) modellek nagy kapacitása miatt nagyobb pontosságot is jelenthet. További információ: Előrejelzési modellek az AutoML-ben.
- A betanítás a DNN-modellek összetettsége miatt sokkal tovább tarthat.

- A kis mennyiségű előzményekkel rendelkező sorozatok valószínűleg nem élvezhetik ezeket a modelleket.
Számos modell Akkor ajánlott, ha nagy számú előrejelzési modellt kell skálázható módon betanítania és kezelnie. További információkért tekintse meg a több modellről szóló cikk szakaszát. -Méretezhető.

- Nagyobb pontosság, ha az idősorok eltérő viselkedést adnak egymástól.
- Nincs tanulás az idősorok között.

– Az Azure Machine Tanulás Studióból nem konfigurálhat és nem futtathat több modellfeladatot. Jelenleg csak a kód/SDK-felület érhető el.
Hierarchikus idősor (HTS) Ajánlott, ha az adatsorok beágyazott, hierarchikus struktúrával rendelkeznek, és be kell tanítania vagy előrejelzéseket kell készítenie a hierarchia összesített szintjein. További információt a hierarchikus idősor-előrejelzési cikk szakaszában talál. - Az összesített szinteken végzett betanítás csökkentheti a levélcsomópont idősorának zaját, és nagyobb pontosságú modellekhez vezethet.

– A hierarchia bármely szintjére vonatkozóan lekérheti az előrejelzéseket az előrejelzések betanítási szintről való összesítésével vagy összesítésével.
- Meg kell adnia a képzés összesítési szintjét. Az AutoML jelenleg nem rendelkezik algoritmust az optimális szint megtalálásához.

Feljegyzés

Javasoljuk, hogy számítási csomópontokat használjon GPU-kkal, ha a mély tanulás engedélyezve van a magas DNN-kapacitás előnyeinek legjobb kihasználásához. A betanítási idő sokkal gyorsabb lehet a csak PROCESSZORokkal rendelkező csomópontokhoz képest. További információkért tekintse meg a GPU-ra optimalizált virtuális gépek méretéről szóló cikket.

Feljegyzés

A HTS olyan feladatokhoz készült, ahol a hierarchia összesített szintjein betanításra vagy előrejelzésre van szükség. A csak levélcsomópont-betanítást és előrejelzést igénylő hierarchikus adatokhoz használjon inkább több modellt .

Hogyan akadályozhatom meg a túlillesztést és az adatszivárgást?

Az AutoML gépi tanulási ajánlott eljárásokat használ, például a keresztellenőrzésű modellek kiválasztását, amelyek számos túlillesztési problémát enyhítenek. A túlillesztésnek azonban más lehetséges forrásai is lehetnek:

  • A bemeneti adatok olyan funkcióoszlopokat tartalmaznak, amelyek a célból származnak egy egyszerű képlettel. Például egy olyan funkció, amely pontosan a cél többszöröse, szinte tökéletes betanítási pontszámot eredményezhet. A modell azonban valószínűleg nem általánosít a mintaadatokon kívülre. Javasoljuk, hogy a modell betanítása előtt vizsgálja meg az adatokat, és a célinformációkat "kiszivárogtató" oszlopokat dobja el.

  • A betanítási adatok olyan funkciókat használnak, amelyek a jövőben nem ismertek, egészen az előrejelzési horizontig. Az AutoML regressziós modelljei jelenleg feltételezik, hogy az előrejelzési horizonton minden funkció ismert. Javasoljuk, hogy a betanítás előtt vizsgálja meg az adatokat, és távolítsa el azokat a funkcióoszlopokat, amelyek csak előzményként ismertek.

  • Az adatok betanítási, ellenőrzési vagy tesztelési részei között jelentős strukturális különbségek (rendszerváltozások) vannak. Vegyük például a COVID-19 világjárvány keresletre gyakorolt hatását 2020 és 2021 során szinte bármilyen jóra. Ez egy klasszikus példa a rendszerváltásra. A rendszerváltás miatti túlillesztés a legnagyobb kihívást jelentő probléma, mivel nagymértékben függ a forgatókönyvtől, és mély ismereteket igényelhet az azonosításhoz.

    Első védelmi vonalként próbálja meg lefoglalni a teljes előzmény 10–20 százalékát érvényesítési adatokra vagy keresztérvényesítési adatokra. Ha a betanítási előzmények rövidek, nem mindig lehet lefoglalni ezt az adatmennyiséget, de ez ajánlott eljárás. További információ: Betanítási és érvényesítési adatok.

Mit jelent, ha a betanítási feladatom tökéletes ellenőrzési pontszámot ér el?

A betanítási feladatok ellenőrzési metrikáinak megtekintésekor tökéletes pontszámok tekinthetők meg. A tökéletes pontszám azt jelenti, hogy az előrejelzés és az érvényesítési készlet tényleges adatai azonosak vagy majdnem azonosak. Például van egy 0,0-nak megfelelő négyzetes középérték, vagy egy 1,0-s R2-pontszám.

A tökéletes érvényesítési pontszám általában azt jelzi, hogy a modell súlyosan túl alkalmas, valószínűleg az adatszivárgás miatt. A legjobb eljárás az adatok szivárgásának vizsgálata és a szivárgást okozó oszlopok elvetése.

Mi a teendő, ha az idősor adataim nem rendelkeznek rendszeresen elosztott megfigyelésekkel?

Az AutoML előrejelzési modelljei mind megkövetelik, hogy a betanítási adatok rendszeresen elterjesszenek megfigyeléseket a naptárhoz képest. Ez a követelmény olyan eseteket is tartalmaz, mint a havi vagy éves megfigyelések, ahol a megfigyelések közötti napok száma változhat. Előfordulhat, hogy az időfüggő adatok két esetben nem felelnek meg ennek a követelménynek:

  • Az adatok jól meghatározott gyakorisággal rendelkeznek, de a hiányzó megfigyelések hiányosságokat okoznak az adatsorokban. Ebben az esetben az AutoML megpróbálja észlelni a gyakoriságot, új megfigyeléseket kell kitöltenie a résekre vonatkozóan, és azonosítja a hiányzó cél- és funkcióértékeket. A felhasználó igény szerint az SDK-beállításokon vagy a webes felhasználói felületen keresztül konfigurálhatja a számítási módszereket. További információ: Egyéni featurizálás.

  • Az adatok nem rendelkeznek megfelelően meghatározott gyakorisággal. Vagyis a megfigyelések közötti időtartamnak nincs észlelhető mintázata. A tranzakciós adatok, mint például egy értékesítési pontrendszerből, egy példa. Ebben az esetben beállíthatja, hogy az AutoML egy kiválasztott gyakoriságra összesíti az adatokat. Kiválaszthatja az adatoknak és a modellezési céloknak leginkább megfelelő rendszeres gyakoriságot. További információ: Adatösszesítés.

Hogyan válassza ki az elsődleges metrikát?

Az elsődleges metrika azért fontos, mert az érvényesítési adatok értéke határozza meg a legjobb modellt a takarítás és a kiválasztás során. A normalizált fő középérték négyzetes hiba (NRM Standard kiadás) és a normalizált átlagos abszolút hiba (NMAE) általában a legjobb választás az előrejelzési feladatok elsődleges metrikáihoz.

Ha választani szeretne közöttük, vegye figyelembe, hogy az NRM Standard kiadás a betanítási adatokban szereplő kiugró értékeket jobban bünteti, mint az NMAE, mert a hiba négyzetét használja. Az NMAE jobb választás lehet, ha azt szeretné, hogy a modell kevésbé legyen érzékeny a kiugró értékekre. További információ: Regressziós és előrejelzési metrikák.

Feljegyzés

Nem javasoljuk, hogy az R2 pontszámot vagy az R2-t használja elsődleges metrikaként az előrejelzéshez.

Feljegyzés

Az AutoML nem támogatja az egyéni vagy felhasználó által biztosított függvényeket az elsődleges metrika esetében. Ki kell választania az AutoML által támogatott előre definiált elsődleges metrikák egyikét.

Hogyan javíthatom a modell pontosságát?

  • Győződjön meg arról, hogy az AutoML-t a legjobban konfigurálja az adatokhoz. További információ: Milyen modellezési konfigurációt használjak?
  • Tekintse meg az előrejelzési receptek jegyzetfüzetét , amely részletes útmutatókat tartalmaz az előrejelzési modellek összeállításáról és fejlesztéséről.
  • Értékelje ki a modellt több előrejelzési cikluson végzett tesztekkel. Ez az eljárás robusztusabb becslést ad az előrejelzési hibákról, és alapkonfigurációt biztosít a fejlesztések méréséhez. Például tekintse meg a háttértesztelési jegyzetfüzetet.
  • Ha az adatok zajosak, fontolja meg, hogy durvább gyakorisággal összesítve növelje a jel-zaj arányt. További információ: Gyakoriság és céladat-összesítés.
  • Új funkciók hozzáadása, amelyek segíthetnek a cél előrejelzésében. A tantárgyi szakértelem nagyban segíthet a betanítási adatok kiválasztásakor.
  • Hasonlítsa össze az érvényesítési és tesztelési metrikaértékeket, és állapítsa meg, hogy a kiválasztott modell nem megfelelő-e vagy túlilleszti-e az adatokat. Ez a tudás egy jobb betanítási konfigurációhoz vezethet. Előfordulhat például, hogy a túlillesztéshez több keresztérvényesítési redőt kell használnia.

Az AutoML mindig ugyanazt a legjobb modellt választja ki ugyanabból a betanítási adatból és konfigurációból?

Az AutoML modellkeresési folyamata nem determinisztikus, ezért nem mindig ugyanazt a modellt választja ki ugyanabból az adatból és konfigurációból.

Hogyan memóriahiba kijavítása?

A memóriahibáknak két típusa van:

  • Memóriakihasznált RAM
  • Lemez memóriakihasználtsága

Először győződjön meg arról, hogy az AutoML-t a legjobb módon konfigurálja az adatokhoz. További információ: Milyen modellezési konfigurációt használjak?

Az alapértelmezett AutoML-beállítások esetében a memóriakihasznált RAM-hibák kijavíthatók több RAM-mal rendelkező számítási csomópontok használatával. Általános szabály, hogy az ingyenes RAM-nak legalább tízszer nagyobbnak kell lennie a nyers adatméretnél az AutoML alapértelmezett beállításokkal való futtatásához.

A memóriakihasznált lemezhibákat a számítási fürt törlésével és egy új létrehozásával háríthatja el.

Milyen speciális előrejelzési forgatókönyveket támogat az AutoML?

Az AutoML a következő speciális előrejelzési forgatókönyveket támogatja:

  • Kvantilis előrejelzések
  • Robusztus modellértékelés gördülő előrejelzések használatával
  • Előrejelzés az előrejelzési horizonton túl
  • Előrejelzés, ha a betanítási és az előrejelzési időszakok között eltérés van

Példákért és részletekért tekintse meg a jegyzetfüzetben a speciális előrejelzési forgatókönyveket.

Hogyan a betanítási feladatok előrejelzéséből származó metrikákat?

A betanítási és érvényesítési metrikák értékeinek megkereséséhez tekintse meg a studióban lévő feladatokra vagy futtatásokra vonatkozó információkat. Az AutoML-ben betanított előrejelzési modellek metrikáit úgy tekintheti meg, hogy a studióban az AutoML-feladat felhasználói felületéről egy modellre lép, és kiválasztja a Metrikák lapot.

Az AutoML-előrejelzési modell metrikafelületét bemutató képernyőkép.

Hogyan hibakeresési hibákat az előrejelzési betanítási feladatok során?

Ha az AutoML-előrejelzési feladat meghiúsul, a studio felhasználói felületén megjelenő hibaüzenet segíthet a probléma diagnosztizálásában és megoldásában. A hibaüzeneten túli hibával kapcsolatos legjobb információforrás a feladat illesztőprogram-naplója. Az illesztőprogram-naplók keresésére vonatkozó utasításokért tekintse meg a feladatok/futtatások információinak megtekintése az MLflow használatával című témakört.

Feljegyzés

Több modell vagy HTS-feladat esetén a betanítás általában többcsomópontos számítási fürtökön történik. Ezekhez a feladatokhoz tartozó naplók minden csomópont IP-címéhez megtalálhatók. Ebben az esetben hibanaplókat kell keresnie az egyes csomópontokban. A hibanaplók és az illesztőprogram-naplók az egyes csomóponti IP-címek user_logs mappájában találhatók.

Hogyan üzembe helyezni egy modellt a betanítási feladatok előrejelzéséből?

A modelleket a betanítási feladatok előrejelzéséből az alábbi módokon helyezheti üzembe:

Felhasználói felületi üzemelő példányok esetén javasoljuk, hogy használja az alábbi lehetőségek egyikét:

  • Valós idejű végpont
  • Batch-végpont

Képernyőkép egy AutoML-előrejelzési modell üzembehelyezési beállításairól.

Ne használja az első lehetőséget, a valós idejű végpontot (gyors).

Feljegyzés

Egyelőre nem támogatjuk az MLflow-modell üzembe helyezését a betanítási feladatok SDK-val, parancssori felülettel vagy felhasználói felülettel történő előrejelzéséből. Ha kipróbálja, hibaüzenetet kap.

Mi az a munkaterület, környezet, kísérlet, számítási példány vagy számítási cél?

Ha nem ismeri az Azure Machine Tanulás fogalmait, kezdje az Azure Machine Tanulás? és mi az Az Azure Machine Tanulás munkaterület? című cikkekkel.

Következő lépések