Mi az a csoportos adatelemzési folyamat?

Machine Learning

A Team Data Science Process (TDSP) egy agilis, iteratív adatelemzési módszertan, amely hatékony prediktív elemzési megoldásokat és intelligens alkalmazásokat biztosít. A TDSP azáltal segíti a csapatmunkát és a tanulást, hogy javaslatot tesz a csapatszerepkörök együttműködésének legjobb működésére. A TDSP a Microsofttól és más iparági vezetőktől származó ajánlott eljárásokat és struktúrákat tartalmaz az adatelemzési kezdeményezések sikeres megvalósításának elősegítése érdekében. A cél a vállalatok segítése az elemzési programjuk előnyeinek teljes körű megvalósításában.

Ez a cikk áttekintést nyújt a TDSP-ről és annak fő összetevőiről. Itt általános leírást adunk a folyamatról, amely különböző eszközökkel valósítható meg. A folyamat életciklusában érintett projekttevékenységek és szerepkörök részletesebb leírását további csatolt témakörökben találja. A TDSP csapatainkban való implementálásához használt Microsoft-eszközök és -infrastruktúra adott készletével kapcsolatos útmutatást is tartalmaz.

A TDSP fő összetevői

A TDSP a következő fő összetevőkkel rendelkezik:

  • Az adatelemzési életciklus definíciója
  • Szabványosított projektstruktúra
  • Adatelemzési projektekhez ajánlott infrastruktúra és erőforrások
  • A projekt végrehajtásához ajánlott eszközök és segédprogramok

Adatelemzési életciklus

A Team Data Science Process (TDSP) életciklust biztosít az adatelemzési projektek fejlesztésének strukturálásához. Az életciklus a sikeres projektek által követendő teljes lépéseket ismerteti.

Ha egy másik adatelemzési életciklust , például a CRISP-DM-et, a KDD-t vagy a szervezet saját egyéni folyamatát használja, akkor is használhatja a feladatalapú TDSP-t a fejlesztési életciklusok kontextusában. Magas szinten ezek a különböző módszertanok sok közös.

Ezt az életciklust intelligens alkalmazások részeként szállított adatelemzési projektekhez tervezték. Ezek az alkalmazások gépi tanulási vagy mesterségesintelligencia-modelleket helyeznek üzembe prediktív elemzéshez. A feltáró jellegű adatelemzési projektek és az improvizált elemzési projektek szintén kihasználhatják ezt a folyamatot. Ilyen esetekben azonban előfordulhat, hogy a leírt lépések némelyikére nincs szükség.

Az életciklus a projektek jellemzően, gyakran iteratív módon végrehajtott fő fázisait vázolja fel:

  • Üzleti ismeretek
  • Adatgyűjtés és -megértés
  • Modellezés
  • Üzembe helyezés

Itt látható a Team Data Science Process életciklusának vizuális ábrázolása.

Diagram shows the data science lifecycle, including business understanding, data acquisition / understanding, modeling and deployment.

A TDSP életciklusának egyes szakaszaihoz tartozó célokat, feladatokat és dokumentációs összetevőket a Team Data Science Process életciklus-témaköre ismerteti. Ezek a tevékenységek és összetevők a projektszerepkörökhöz vannak társítva:

  • Megoldástervező
  • Projektvezető
  • Adatszakértő
  • Adattudós
  • Alkalmazásfejlesztő
  • Projektvezető

Az alábbi diagram az életciklus egyes szakaszaihoz (a vízszintes tengelyen) tartozó tevékenységek (kék színnel) és összetevők (zöld színnel) rácsos nézetét mutatja be ezen szerepkörökhöz (a függőleges tengelyen).

TDSP-roles-and-tasks

Szabványosított projektstruktúra

Ha minden projekt megosztott egy könyvtárszerkezetet, és sablonokat használ a projektdokumentumokhoz, a csapattagok könnyen megtalálhatják a projektjeikkel kapcsolatos információkat. A csapatmunka lehetővé tétele érdekében minden kód és dokumentum egy verziókövetési rendszerben (VCS) van tárolva, például a Gitben, a TFS-ben vagy a Subversion-ban. Az agilis projektkövető rendszerekben (például Jira, Rally és Azure DevOps) lévő tevékenységek és funkciók nyomon követése lehetővé teszi a kód részletesebb nyomon követését az egyes funkciókhoz. Az ilyen nyomon követés lehetővé teszi a csapatok számára, hogy jobb költségbecsléseket kapjanak. A TDSP azt javasolja, hogy hozzon létre egy külön adattárat a VCS minden projektjéhez a verziószámozás, az információbiztonság és az együttműködés érdekében. Az összes projekt szabványosított struktúrája segít a szervezeten belüli intézményi ismeretek kiépítésében.

Sablonokat biztosítunk a mappastruktúrához és a szükséges dokumentumokhoz szabványos helyeken. Ez a mappastruktúra az adatfeltáráshoz és a funkciók kinyeréséhez szükséges kódot tartalmazó fájlokat, valamint a modell iterációit rögzíti. Ezek a sablonok megkönnyítik a csapattagok számára, hogy megértsék a mások által végzett munkát, és új tagokat vegyenek fel a csapatokba. A dokumentumsablonok egyszerűen megtekinthetők és frissíthetők Markdown formátumban. Sablonok használatával ellenőrzőlistákat biztosíthat az egyes projektekhez kapcsolódó legfontosabb kérdésekhez, így biztosítva, hogy a probléma jól meghatározott legyen, és hogy a termékek megfeleljenek a várt minőségnek. Példák:

  • a projekt üzleti problémájának és hatókörének dokumentálására vonatkozó projekt chartája
  • adatjelentések a nyers adatok szerkezetének és statisztikáinak dokumentálásához
  • modelljelentések a származtatott jellemzők dokumentálásához
  • modellteljesítmény-metrikák, például ROC-görbék vagy MSE

TDSP-directories

A címtárstruktúra klónozása GitHub.

Infrastruktúra és erőforrások adatelemzési projektekhez

A TDSP javaslatokat nyújt a megosztott elemzések és tárolási infrastruktúra kezeléséhez, például:

  • felhőbeli fájlrendszerek adathalmazok tárolására
  • adatbázisokban
  • big data -fürtök (SQL vagy Spark-fürtök)
  • machine learning szolgáltatás

A nyers és feldolgozott adathalmazokat tároló elemzési és tárolási infrastruktúra a felhőben vagy a helyszínen is lehet. Ez az infrastruktúra lehetővé teszi a reprodukálható elemzést. Emellett elkerüli a duplikációt, ami inkonzisztenciához és szükségtelen infrastrukturális költségekhez vezethet. Eszközöket biztosítunk a megosztott erőforrások kiépítéséhez, nyomon követéséhez és az egyes csapattagok számára az erőforrásokhoz való biztonságos csatlakozáshoz. Ajánlott azt is beállítani, hogy a projekttagok konzisztens számítási környezetet hozzanak létre. A különböző csapattagok ezután replikálhatják és ellenőrizhetik a kísérleteket.

Íme egy példa egy csapatra, amely több projekten dolgozik, és különböző felhőelemzési infrastruktúra-összetevőket oszt meg.

TDSP-infrastructure

Eszközök és segédprogramok a projekt végrehajtásához

A legtöbb szervezetben kihívást jelent a folyamatok bevezetése. Az adatelemzési folyamat és az életciklus megvalósításához biztosított eszközök segítenek csökkenteni a bevezetésük előtt álló akadályokat, és fokozni a konzisztenciát. A TDSP kezdeti eszközöket és szkripteket biztosít a TDSP csapaton belüli bevezetésének megkezdéséhez. Emellett segít automatizálni az adatelemzési életciklus néhány gyakori feladatát, például az adatfeltárást és az alapkonfiguráció modellezését. Van egy jól meghatározott struktúra, amely biztosítja az egyének számára, hogy megosztott eszközöket és segédprogramokat adjanak a csapat megosztott kódtárába. Ezeket az erőforrásokat aztán a csapaton vagy a szervezeten belül más projektek is felhasználhatják. A Microsoft széles körű eszközöket biztosít Azure Machine Learning a nyílt forráskódú (Python, R, ONNX és gyakori mélytanulási keretrendszerek) és a Microsoft saját eszközeinek (AutoML) támogatásához.

Következő lépések

Csoportos adatelemzési folyamat: Szerepkörök és feladatok Felvázolja a fő személyzeti szerepköröket és a hozzájuk tartozó feladatokat egy adatelemzési csapat számára, amely szabványosítja ezt a folyamatot.