A csapat Adattudomány folyamat életciklusának üzleti megértési szakasza

Ez a cikk a Csapat Adattudomány Folyamat (TDSP) üzleti megértési szakaszához kapcsolódó célokat, feladatokat és termékeket ismerteti. Ez a folyamat egy ajánlott életciklust biztosít, amellyel csapata strukturálhatja adatelemzési projektjeit. Az életciklus a csapat által végrehajtott fő fázisokat vázolja fel, gyakran iteratív módon:

  • Üzleti ismeretek
  • Adatgyűjtés és -megértés
  • Modellezés
  • Üzembe helyezés
  • Ügyfélfogadás

Íme a TDSP életciklusának vizuális ábrázolása:

Diagram that shows the stages of the TDSP lifecycle.

Célok

Az üzleti ismeretek szakaszának céljai a következők:

  • Adja meg a modell céljaiként szolgáló kulcsváltozókat. Adja meg a célok metrikáit, amelyek meghatározzák a projekt sikerességét.

  • Azonosítsa azokat a releváns adatforrásokat, amelyekhez a vállalat hozzáfér, vagy amelyekhez hozzá kell férnie.

A feladatok végrehajtása

Az üzleti ismeretek szakaszának két fő feladata van:

  • Célkitűzések meghatározása: Az ügyféllel és más érdekelt felekkel együttműködve megismerheti és azonosíthatja az üzleti problémákat. Olyan kérdéseket fogalmazhat meg, amelyek meghatározzák az adatelemzési technikák által megcélzott üzleti célokat.

  • Adatforrások azonosítása: Keresse meg azokat a releváns adatokat, amelyek segítenek megválaszolni a projekt célkitűzéseit meghatározó kérdéseket.

Célkitűzések meghatározása

  1. Ennek a fázisnak a központi célja az elemzés által előrejelzett főbb üzleti változók azonosítása. Ezeket a változókat modellcéloknak nevezzük, a hozzájuk tartozó metrikákat pedig a projekt sikerességének meghatározására használják. A cél lehet például egy értékesítési előrejelzés, vagy annak a valószínűsége, hogy egy megrendelés csalárd.

  2. A projekt céljainak meghatározásához tegye fel és pontosítsa a releváns, konkrét és egyértelmű kérdéseket. Az adatelemzés egy olyan folyamat, amely neveket és számokat használ az ilyen kérdések megválaszolásához. Általában adatelemzést vagy gépi tanulást használ öt kérdéstípus megválaszolásához:

    • Mennyit vagy hányat? (regresszió)
    • Melyik kategória? (besorolás)
    • Melyik csoport? (fürtözés)
    • Ez szokatlan? (anomáliadetektálás)
    • Melyik lehetőséget kell megadni? (javaslat)

    Határozza meg, hogy ezek közül a kérdések közül melyiket kell feltennie, és hogy a megválaszolás hogyan segítheti az üzleti célok elérését.

  3. A projektcsapat meghatározásához adja meg a tagok szerepköreit és feladatait. Dolgozzon ki egy magas szintű mérföldkő-tervet, amelyről a további információk felfedezése során iterál.

  4. Meg kell határoznia a sikerességi metrikákat. Előfordulhat például, hogy egy három hónapos projekt végére x százalékos pontosságú ügyfélváltozás-előrejelzést szeretne teljesíteni. Ezekkel az adatokkal ügyfeleknek szóló promóciókat kínálhat a forgalom csökkentésére. A metrikáknak SMART-nak kell lenniük:

    • Specific
    • Measurable
    • Achievable
    • Reevant
    • Time-bound

Adatforrások azonosítása

Azonosítsa azokat az adatforrásokat, amelyek ismert példákat tartalmaznak a kérdésekre adott válaszokra. Keresse meg a következő adatokat:

  • A kérdés szempontjából releváns adatok. Rendelkezik a cél mértékével és a célhoz kapcsolódó funkciókkal?
  • A modell célértékének és az érdeklődési körök jellemzőinek pontos mértéke.

Előfordulhat például, hogy egy meglévő rendszer nem rendelkezik a probléma megoldásához és egy projektcél eléréséhez szükséges adatokkal. Ebben az esetben előfordulhat, hogy külső adatforrásokat kell keresnie, vagy frissítenie kell a rendszereket az új adatok gyűjtéséhez.

Integrálás az MLflow-jal

Az üzleti ismeretek szakaszában a csapat nem használ MLflow-eszközöket, de közvetetten kihasználhatja az MLflow dokumentációs és kísérletkövetési képességeit. Ezek a funkciók elemzéseket és előzménykörnyezetet biztosítanak a projekt üzleti célokhoz való igazításához.

Artifacts

Ebben a szakaszban a csapata a következőket biztosítja:

  • Egy oklevél. A charterdokumentum egy élő dokumentum. A dokumentumot az új felfedezések során és az üzleti követelmények változásával frissítheti a projekt során. A kulcs a dokumentum iterálása. Adjon hozzá további részleteket a felderítési folyamat előrehaladása során. Tájékoztassa az ügyfelet és a többi érintettet a változásokról és azok okairól.

  • Adatforrások. Az Azure Machine Tanulás használatával kezelheti az adatforrás-kezelést. Ezt az Azure-szolgáltatást aktív és különösen nagy projektekhez ajánljuk, mert integrálható az MLflow-jal.

  • Adatszótárak. Ez a dokumentum az ügyfél által biztosított adatok leírását tartalmazza. Ezek a leírások tartalmazzák a sémával kapcsolatos információkat (az adattípusokat és az érvényesítési szabályokra vonatkozó információkat, ha vannak ilyenek), valamint az entitás-kapcsolat diagramokat, ha vannak ilyenek. A csapatnak dokumentálnia kell ezen információk egy részét vagy egészét.

Lektorált szakirodalom

A kutatók tanulmányokat tesznek közzé a TDSP-ről a lektorált szakirodalomban. Az idézetek lehetőséget nyújtanak a TDSP-hez hasonló alkalmazások vagy hasonló ötletek vizsgálatára, beleértve az üzleti ismeretek életciklusának szakaszát is.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

Ezek a cikkek a TDSP életciklusának további szakaszait ismertetik: