Mi az a csoportos adatelemzési folyamat?

Azure Machine Learning

A Team Adattudomány Process (TDSP) egy agilis, iteratív adatelemzési módszertan, amellyel hatékony prediktív elemzési megoldásokat és AI-alkalmazásokat biztosíthat. A TDSP segít a csapatmunkában és a tanulásban azáltal, hogy javaslatot tesz a csapatszerepkörök együttműködésének legjobb működésére. A TDSP a Microsofttól és más iparági vezetőktől származó ajánlott eljárásokat és struktúrákat tartalmaz, amelyek segítenek a csapatnak az adatelemzési kezdeményezések sikeres megvalósításában és az elemzési program előnyeinek teljes körű kihasználásában.

Ez a cikk áttekintést nyújt a TDSP-ről és fő összetevőiről. Útmutatást nyújt a TDSP Microsoft-eszközök és -infrastruktúra használatával történő implementálásához. A cikkben részletesebb forrásanyagokat talál.

A TDSP fő összetevői

A TDSP a következő fő összetevőkkel rendelkezik:

  • Adatelemzési életciklus-definíció
  • Szabványosított projektstruktúra
  • Adatelemzési projektekhez ajánlott infrastruktúra és erőforrások
  • Projektvégrehajtáshoz ajánlott eszközök és segédprogramok

Adatelemzési életciklus

A TDSP egy életciklust biztosít, amellyel strukturálhatja az adatelemzési projektek fejlesztését. Az életciklus a sikeres projektek által követett teljes lépéseket ismerteti.

A feladatalapú TDSP-t kombinálhatja más adatelemzési életciklusokkal, például az adatbányászat iparágközi szabványos folyamatával (CRISP-DM), az adatbázisokban való tudásfelderítéssel (KDD) vagy egy másik egyéni folyamattal. Magas szinten ezek a különböző módszerek sok közös.

Ezt az életciklust akkor érdemes használnia, ha egy intelligens alkalmazás részét képező adatelemzési projektje van. Az intelligens alkalmazások gépi tanulási vagy AI-modelleket helyeznek üzembe a prediktív elemzéshez. Ezt a folyamatot feltáró adatelemzési projektekhez és improvizált elemzési projektekhez is használhatja.

A TDSP életciklusa öt fő szakaszból áll, amelyeket a csapat iteratív módon hajt végre. Ezek a szakaszok a következők:

Íme a TDSP életciklusának vizuális ábrázolása:

Diagram that shows the stages of the TDSP lifecycle.

Az egyes szakaszok céljairól, feladatairól és dokumentációs összetevőiről a Csapat Adattudomány Folyamat életciklusa című témakörben talál további információt.

Ezek a tevékenységek és összetevők projektszerepkörökhöz vannak társítva, például:

  • Megoldástervező.
  • Projektmenedzser.
  • Adatmérnök.
  • Adatelemző.
  • Alkalmazásfejlesztő.
  • Projekt érdeklődője.

Az alábbi diagram az életciklus egyes szakaszaihoz (a vízszintes tengelyen) tartozó tevékenységeket (kék színnel) és összetevőket (zöld színnel) mutatja be ezen szerepkörökhöz (a függőleges tengelyen).

Diagram that shows the tasks and artifacts for each stage.

Szabványosított projektstruktúra

Csapata az Azure-infrastruktúrával rendszerezheti adatelemzési eszközeit.

Az Azure Machine Tanulás támogatja a nyílt forráskódú MLflow-t. Az MLflow használatát javasoljuk az adatelemzéshez és az AI-projektek kezeléséhez. Az MLflow a teljes gépi tanulási életciklus kezelésére lett tervezve. Különböző platformokon képez és szolgál ki modelleket, így konzisztens eszközkészletet használhat, függetlenül attól, hogy hol futnak a kísérletek. Az MLflow helyileg használható a számítógépen, távoli számítási célon, virtuális gépen vagy Tanulás számítási példányon.

Az MLflow számos fő funkcióból áll:

  • Kísérletek nyomon követése: Az MLflow segítségével nyomon követheti a kísérleteket, beleértve a paramétereket, a kódverziókat, a metrikákat és a kimeneti fájlokat. Ez a funkció segít összehasonlítani a különböző futtatásokat, és hatékonyan kezelni a kísérletezési folyamatot.

  • Csomagkód: Szabványos formátumot kínál a gépi tanulási kód csomagolásához, amely függőségeket és konfigurációkat is tartalmaz. Ezzel a csomagolással egyszerűbbé válik a futtatások reprodukálása és a kód megosztása másokkal.

  • Modellek kezelése: Az MLflow funkciókkal kezeli és verziószámozza a modelleket. Különböző gépi tanulási keretrendszereket támogat, így modelleket tárolhat, futtathat és kiszolgálhat.

  • Modellek kiszolgálása és üzembe helyezése: Az MLflow integrálja a modellek kiszolgálási és üzembehelyezési képességeit, így könnyen üzembe helyezhet modelleket különböző környezetekben.

  • Modellek regisztrálása: Kezelheti a modellek életciklusát, beleértve a verziószámozást, a fázisáttűnéseket és a széljegyzeteket. Az MLflow egy központosított modelltároló együttműködésen alapuló környezetben való fenntartásához hasznos.

  • API és felhasználói felület használata: Az Azure-ban az MLflow a Machine Tanulás API 2-es verzióján belül van csomagolva, így programozott módon kezelheti a rendszert. Az Azure Portal használatával kezelheti a felhasználói felületeket.

Az MLflow célja a gépi tanulás fejlesztésének egyszerűsítése és szabványosítása a kísérletezéstől az üzembe helyezésig.

A gépi Tanulás integrálhatók a Git-adattárakkal, így Git-kompatibilis szolgáltatásokat használhat: GitHub, GitLab, Bitbucket, Azure DevOps vagy más Git-kompatibilis szolgáltatás. A Machine Tanulás-ban már nyomon követett eszközök mellett a csapata saját osztályozást is fejleszthet a Git-kompatibilis szolgáltatáson belül más projektinformációk tárolására, például:

  • Dokumentáció
    • Projekt, például a végső projektjelentés
    • Adatjelentés, például az adatszótár vagy az adatminőségi jelentések
    • Modell, például modelljelentések
  • Kód
    • Adatok előkészítése
    • Modellfejlesztés
    • Üzemeltetés, beleértve a biztonságot és a megfelelőséget

Infrastruktúra és erőforrások

A TDSP javaslatokat nyújt a megosztott elemzési és tárolási infrastruktúra kezelésére, például:

  • Felhőbeli fájlrendszerek adathalmazok tárolására
  • Adatbázisok
  • Big data-fürtök, például SQL vagy Spark
  • Gépi tanulási szolgáltatások

Elhelyezheti az elemzési és tárolási infrastruktúrát, ahol a nyers és a feldolgozott adathalmazok tárolódnak, a felhőben vagy a helyszínen. Ez az infrastruktúra lehetővé teszi a reprodukálható elemzést. Emellett megakadályozza a duplikációt, ami inkonzisztenciához és szükségtelen infrastrukturális költségekhez vezethet. Az infrastruktúra olyan eszközökkel rendelkezik, amelyekkel kiépülnek a megosztott erőforrások, nyomon követhetik őket, és lehetővé teszik, hogy minden csapattag biztonságosan csatlakozzon ezekhez az erőforrásokhoz. Az is jó gyakorlat, ha a projekttagok konzisztens számítási környezetet hoznak létre. A különböző csapattagok ezután replikálhatják és ellenőrizhetik a kísérleteket.

Íme egy példa egy csapatra, amely több projekten dolgozik, és különböző felhőelemzési infrastruktúra-összetevőket oszt meg:

Diagram that shows the infrastructure of a team.

Eszközök és segédprogramok

A legtöbb szervezetben kihívást jelent a folyamatok bevezetése. Az infrastruktúra eszközöket biztosít a TDSP és az életciklus megvalósításához, amelyek segítenek csökkenteni a bevezetésük akadályait és növelni a konzisztenciáját.

A Gépi Tanulás az adattudósok nyílt forráskódú eszközöket alkalmazhatnak az adatelemzési folyamat vagy munkafolyamat részeként. A Machine Tanulás-ben a Microsoft előlépteti a felelős AI-eszközöket, amelyek segítenek elérni a Microsoft felelősségteljes AI-szabványát.

Lektorált idézetek

A TDSP egy jól bevált módszertan, amelyet a Microsoft-együttműködések során használnak, ezért a társkonfigurált szakirodalomban dokumentálták és tanulmányozták. Ezek az idézetek lehetőséget nyújtanak a TDSP-funkciók és -alkalmazások vizsgálatára. Az idézetek listáját az életciklus áttekintési oldalán találja.

Szerepkörök és feladatok a csapat Adattudomány folyamatában