A csapat Adattudomány folyamat életciklusának modellezési szakasza

Cikk
02/28/2024

Ez a cikk a Team Adattudomány Process (TDSP) modellezési szakaszához kapcsolódó célokat, feladatokat és termékeket ismerteti. Ez a folyamat egy ajánlott életciklust biztosít, amellyel csapata strukturálhatja adatelemzési projektjeit. Az életciklus a csapat által végrehajtott fő fázisokat vázolja fel, gyakran iteratív módon:

Üzleti ismeretek
Adatgyűjtés és -megértés
Modellezés
Üzembe helyezés
Ügyfélfogadás

Íme a TDSP életciklusának vizuális ábrázolása:

Célok

A modellezési szakasz célja:

Határozza meg a gépi tanulási modell optimális adatfunkcióit.
Hozzon létre egy informatív gépi tanulási modellt, amely a legpontosabban előrejelzi a célt.
Éles környezethez megfelelő gépi tanulási modell létrehozása.

A feladatok végrehajtása

A modellezési fázis három fő feladatból áll:

Szolgáltatásfejlesztés: A modell betanításának megkönnyítése érdekében hozzon létre adatszolgáltatásokat a nyers adatokból.
Modellbetanítás: A modellek sikerességi metrikáinak összehasonlításával keresse meg azt a modellt, amely a legpontosabban válaszol a kérdésre.
Modellértékelés: Határozza meg, hogy a modell alkalmas-e az éles környezetben való használatra.

Jellemzőkiemelés

A funkciófejlesztés magában foglalja a nyers változók felvételét, összesítését és átalakítását az elemzésben használt funkciók létrehozásához. Ha betekintést szeretne a modell felépítésébe, akkor meg kell vizsgálnia a modell mögöttes funkcióit.

Ehhez a lépéshez a tartományi szakértelem és az adatfeltárási lépésből származó megállapítások kreatív kombinációja szükséges. A funkciófejlesztés kiegyensúlyozza az informatív változók keresését és beépítését, ugyanakkor megpróbálja elkerülni a túl sok egymástól független változót. Az informatív változók javítják az eredményt. A nem kapcsolódó változók szükségtelen zajt vezetnek be a modellbe. Ezeket a funkciókat a pontozás során beszerzett új adatokhoz is létre kell hoznia. Ennek eredményeképpen ezeknek a funkcióknak a létrehozása csak a pontozáskor elérhető adatoktól függhet.

A modell betanítása

A megválaszolni kívánt kérdés típusától függően számos modellezési algoritmus használható. Az előre összeállított algoritmus kiválasztásával kapcsolatos útmutatásért tekintse meg az Azure Machine Tanulás-algoritmus csalilistát az Azure Machine Tanulás tervezője számára. Más algoritmusok nyílt forráskódú csomagokon keresztül érhetők el R-ben vagy Pythonban. Bár ez a cikk az Azure Machine Tanulás foglalkozik, az általa biztosított útmutató számos gépi tanulási projekthez hasznos.

A modell betanításának folyamata a következő lépéseket tartalmazza:

A bemeneti adatok véletlenszerű felosztása betanítási adatkészletre és tesztadatkészletre való modellezéshez.
A modellek létrehozása a betanítási adatkészlet használatával.
Értékelje ki a betanítást és a tesztadatkészletet. Konkurens gépi tanulási algoritmusok sorozatának használata. Használjon különböző kapcsolódó hangolási paramétereket (más néven paraméteres takarításokat), amelyek az aktuális adatokkal kapcsolatos érdeklődési kérdés megválaszolására irányulnak.
A sikeres metrikák alternatív módszerek közötti összehasonlításával határozza meg a legjobb megoldást a kérdés megválaszolásához.

További információ: Modellek betanítása gépi Tanulás.

Feljegyzés

A szivárgás elkerülése: Adatszivárgást okozhat, ha a betanítási adatkészleten kívülről származó adatokat is tartalmaz, amelyek lehetővé teszik, hogy egy modell vagy gépi tanulási algoritmus irreálisan jó előrejelzéseket készítsen. A szivárgás gyakori oka annak, hogy az adattudósok idegesek lesznek, ha olyan prediktív eredményeket kapnak, amelyek túl jónak tűnnek ahhoz, hogy igaznak tűnjenek. Ezek a függőségek nehezen észlelhetők. A szivárgás elkerülése gyakran megköveteli az elemzési adatkészletek létrehozása, a modell létrehozása és az eredmények pontosságának kiértékelése közötti iterálást.

A modell kiértékelése

A modell betanítása után a csapat egyik adatelemzője a modellértékelésre összpontosít.

Döntse el, hogy a modell megfelelően teljesít-e az éles környezethez. Néhány fontos kérdés, amit fel kell tenni:
- A modell megfelelő megbízhatósággal válaszol a kérdésre a tesztadatok alapján?
- Érdemes alternatív módszereket kipróbálnia?
- Több adatot kell gyűjtenie, több funkciófejlesztést kell végeznie, vagy kísérleteznie kell más algoritmusokkal?
A modell értelmezése: A Machine Tanulás Python SDK használatával hajtsa végre a következő feladatokat:
- Ismertesse a modell teljes viselkedését vagy egyéni előrejelzéseit helyileg a személyes gépen.
- Értelmezhetőségi technikák engedélyezése a megtervezett funkciókhoz.
- Az Azure-beli teljes modell és egyéni előrejelzések viselkedésének ismertetése.
- Magyarázatok feltöltése a gépre Tanulás futtatási előzményekbe.
- Vizualizációs irányítópult használatával kezelheti a modell magyarázatait a Jupyter-jegyzetfüzetben és a Gép Tanulás munkaterületen is.
- Helyezzen üzembe egy pontozó magyarázót a modell mellett, hogy megfigyelje a magyarázatokat a következtetés során.
Méltányosság felmérése: A fairlearn nyílt forráskódú Python-csomag és a Machine Tanulás használatával hajtsa végre a következő feladatokat:
- Értékelje a modell előrejelzéseinek méltányosságát. Ez a folyamat segít a csapatnak többet megtudni a gépi tanulás méltányosságáról.
- Méltányossági felmérési megállapítások feltöltése, listázása és letöltése a Machine Tanulás Studióba és onnan.
- A modelljei méltányossági megállapításaival kapcsolatos információkért tekintse meg a Machine Tanulás Studio méltányossági felmérési irányítópultját.

Integrálás az MLflow-jal

A gépi Tanulás integrálva van az MLflow-jal a modellezési életciklus támogatásához. Az MLflow nyomon követését használja kísérletekhez, projekttelepítéshez, modellkezeléshez és modellregisztrációs adatbázishoz. Ez az integráció zökkenőmentes és hatékony gépi tanulási munkafolyamatot biztosít. A Machine Tanulás alábbi funkciói támogatják ezt a modellezési életciklus-elemet:

Kísérletek nyomon követése: Az MLflow alapvető funkcióit széles körben használják a modellezési szakaszban a különböző kísérletek, paraméterek, metrikák és összetevők nyomon követésére.
Projektek üzembe helyezése: A kód MLflow-projektekkel való csomagolása egységes futtatásokat és egyszerű megosztást biztosít a csapattagok között, ami elengedhetetlen az iteratív modell fejlesztése során.
Modellek kezelése: A modellek kezelése és verziószámozása ebben a fázisban kritikus fontosságú, mivel a különböző modellek létrehozása, kiértékelése és finomítása folyamatban van.
Modellek regisztrálása: A modellregisztrációs adatbázis a modellek teljes életciklusa során történő verziószámozására és kezelésére szolgál.

Lektorált szakirodalom

A kutatók tanulmányokat tesznek közzé a TDSP-ről a lektorált szakirodalomban. Az idézetek lehetőséget nyújtanak a TDSP-hez hasonló alkalmazások vagy hasonló ötletek vizsgálatára, beleértve a modellezési életciklus fázisát is.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Mark Tabladillo | Vezető felhőmegoldás-tervező

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

Ezek a cikkek a TDSP életciklusának további szakaszait ismertetik:

A csapat Adattudomány folyamat életciklusának modellezési szakasza

Célok

A feladatok végrehajtása

Jellemzőkiemelés

A modell betanítása

A modell kiértékelése

Integrálás az MLflow-jal

Lektorált szakirodalom

Közreműködők

Visszajelzés

Visszajelzés

További források

A csapat Adattudomány folyamat életciklusának modellezési szakasza

Célok

A feladatok végrehajtása

Jellemzőkiemelés

A modell betanítása

A modell kiértékelése

Integrálás az MLflow-jal

Lektorált szakirodalom

Közreműködők

Kapcsolódó erőforrások

Visszajelzés

Visszajelzés

További források