A csapat Adattudomány folyamat életciklusának adatgyűjtési és -megértési szakasza

Ez a cikk a Csapat Adattudomány Folyamat (TDSP) adatgyűjtési és -megértési szakaszához kapcsolódó célokat, feladatokat és termékeket ismerteti. Ez a folyamat egy ajánlott életciklust biztosít, amellyel csapata strukturálhatja adatelemzési projektjeit. Az életciklus a csapat által végrehajtott fő fázisokat vázolja fel, gyakran iteratív módon:

  • Üzleti ismeretek
  • Adatgyűjtés és -megértés
  • Modellezés
  • Üzembe helyezés
  • Ügyfélfogadás

Íme a TDSP életciklusának vizuális ábrázolása:

Diagram that shows the stages of the TDSP lifecycle.

Célok

Az adatgyűjtési és -megértési szakasz célja a következők:

  • Tiszta, kiváló minőségű adatkészlet létrehozása, amely egyértelműen kapcsolódik a célváltozókhoz. Keresse meg az adathalmazt a megfelelő elemzési környezetben, hogy a csapat készen álljon a modellezési fázisra.

  • Az adatfolyam megoldásarchitektúrájának fejlesztése, amely rendszeresen frissíti és pontozza az adatokat.

A feladatok végrehajtása

Az adatgyűjtési és -megértési fázis három fő feladatból áll:

  • Adatok betöltése a célelemzési környezetbe.

  • Az adatok feltárása annak megállapításához, hogy az adatok képesek-e válaszolni a kérdésre.

  • Állítson be egy adatfolyamot az új vagy rendszeresen frissített adatok pontozásához.

Adatok betöltése

Állítson be egy folyamatot az adatok forráshelyről a célhelyekre való áthelyezéséhez, ahol elemzési műveleteket futtat, például betanításokat és előrejelzéseket.

Adatok megismerése

A modellek betanítása előtt ki kell dolgoznia az adatok megfelelő megértését. A valós adathalmazok gyakran zajosak, hiányoznak értékek, vagy számos más eltéréssel rendelkeznek. Az adatok összegzésével és vizualizációjával naplózhatja az adatok minőségét, és adatokat gyűjthet az adatok feldolgozásához, mielőtt azok készen állnak a modellezésre. Ez a folyamat gyakran iteratív. Az adatok tisztításával kapcsolatos útmutatásért tekintse meg az adatok továbbfejlesztett gépi tanuláshoz való előkészítéséhez szükséges feladatokat.

Miután elégedett a megtisztított adatok minőségével, a következő lépés az adatok mintázatainak jobb megértése. Ez az adatelemzés segít kiválasztani és fejleszteni a célnak megfelelő prediktív modellt. Határozza meg, hogy az adatok mennyiben felelnek meg a célnak. Ezután döntse el, hogy a csapata rendelkezik-e elegendő adattal a következő modellezési lépések végrehajtásához. Ez a folyamat gyakran iteratív. Előfordulhat, hogy az előző szakaszban eredetileg azonosított adathalmaz módosításához pontosabb vagy relevánsabb adatokat tartalmazó új adatforrásokat kell keresnie.

Adatfolyam beállítása

Az adatok betöltése és tisztítása mellett általában be kell állítania egy folyamatot az új adatok pontozásához vagy az adatok rendszeres frissítéséhez egy folyamatban lévő tanulási folyamat részeként. Az adatok pontozásához adatfolyamot vagy munkafolyamatot használhat. Az Azure Data Factoryt használó folyamatot javasoljuk.

Ebben a szakaszban az adatfolyam megoldásarchitektúráját fejleszti ki. A folyamatot az adatelemzési projekt következő szakaszával párhuzamosan hozza létre. Az üzleti igényektől és a meglévő rendszerek korlátaitól függően, amelyekbe a megoldást integrálják, a folyamat a következő lehet:

  • Batch-alapú
  • Streamelés vagy valós idejű
  • Hibrid

Integrálás az MLflow-jal

Az adatelemzési fázisban az MLflow kísérletkövetésével nyomon követheti és dokumentálhatja a különböző adatelőfeldolgozási stratégiákat és feltáró adatelemzést.

Artifacts

Ebben a szakaszban a csapata a következőket biztosítja:

  • Adatminőségi jelentés , amely tartalmazza az adatösszesítéseket, az egyes attribútumok és cél közötti kapcsolatokat, a változók rangsorolását stb.

  • Megoldásarchitektúra, például egy diagram vagy az adatfolyam leírása, amelyet a csapat az előrejelzések új adatokon való futtatásához használ. Ez a diagram azt a folyamatot is tartalmazza, amely a modell új adatok alapján történő újratanítását teszi lehetővé. A TDSP címtárstruktúrasablon használatakor tárolja a dokumentumot a projektkönyvtárban.

  • Ellenőrzőpont-döntés. Mielőtt elkezdené a teljes körű tervezést és a modellépítést, újraértékelheti a projektet annak megállapításához, hogy a várt érték elegendő-e a folytatáshoz. Előfordulhat például, hogy készen áll a folytatásra, több adatot kell gyűjtenie, vagy fel kell hagynia a projektből, ha nem talál olyan adatokat, amelyek megválaszolják a kérdéseket.

Lektorált szakirodalom

A kutatók tanulmányokat tesznek közzé a TDSP-ről a lektorált szakirodalomban. Az idézetek lehetőséget nyújtanak más alkalmazások vagy a TDSP-hez hasonló ötletek vizsgálatára, beleértve az adatgyűjtést és az életciklus szakaszának megértését.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

Ezek a cikkek a TDSP életciklusának további szakaszait ismertetik: