A csapat Adattudomány folyamat életciklusának üzleti megértési szakasza
Ez a cikk a Csapat Adattudomány Folyamat (TDSP) üzleti megértési szakaszához kapcsolódó célokat, feladatokat és termékeket ismerteti. Ez a folyamat egy ajánlott életciklust biztosít, amellyel csapata strukturálhatja adatelemzési projektjeit. Az életciklus a csapat által végrehajtott fő fázisokat vázolja fel, gyakran iteratív módon:
- Üzleti ismeretek
- Adatgyűjtés és -megértés
- Modellezés
- Üzembe helyezés
- Ügyfélfogadás
Íme a TDSP életciklusának vizuális ábrázolása:
Célok
Az üzleti ismeretek szakaszának céljai a következők:
Adja meg a modell céljaiként szolgáló kulcsváltozókat. Adja meg a célok metrikáit, amelyek meghatározzák a projekt sikerességét.
Azonosítsa azokat a releváns adatforrásokat, amelyekhez a vállalat hozzáfér, vagy amelyekhez hozzá kell férnie.
A feladatok végrehajtása
Az üzleti ismeretek szakaszának két fő feladata van:
Célkitűzések meghatározása: Az ügyféllel és más érdekelt felekkel együttműködve megismerheti és azonosíthatja az üzleti problémákat. Olyan kérdéseket fogalmazhat meg, amelyek meghatározzák az adatelemzési technikák által megcélzott üzleti célokat.
Adatforrások azonosítása: Keresse meg azokat a releváns adatokat, amelyek segítenek megválaszolni a projekt célkitűzéseit meghatározó kérdéseket.
Célkitűzések meghatározása
Ennek a fázisnak a központi célja az elemzés által előrejelzett főbb üzleti változók azonosítása. Ezeket a változókat modellcéloknak nevezzük, a hozzájuk tartozó metrikákat pedig a projekt sikerességének meghatározására használják. A cél lehet például egy értékesítési előrejelzés, vagy annak a valószínűsége, hogy egy megrendelés csalárd.
A projekt céljainak meghatározásához tegye fel és pontosítsa a releváns, konkrét és egyértelmű kérdéseket. Az adatelemzés egy olyan folyamat, amely neveket és számokat használ az ilyen kérdések megválaszolásához. Általában adatelemzést vagy gépi tanulást használ öt kérdéstípus megválaszolásához:
- Mennyit vagy hányat? (regresszió)
- Melyik kategória? (besorolás)
- Melyik csoport? (fürtözés)
- Ez szokatlan? (anomáliadetektálás)
- Melyik lehetőséget kell megadni? (javaslat)
Határozza meg, hogy ezek közül a kérdések közül melyiket kell feltennie, és hogy a megválaszolás hogyan segítheti az üzleti célok elérését.
A projektcsapat meghatározásához adja meg a tagok szerepköreit és feladatait. Dolgozzon ki egy magas szintű mérföldkő-tervet, amelyről a további információk felfedezése során iterál.
Meg kell határoznia a sikerességi metrikákat. Előfordulhat például, hogy egy három hónapos projekt végére x százalékos pontosságú ügyfélváltozás-előrejelzést szeretne teljesíteni. Ezekkel az adatokkal ügyfeleknek szóló promóciókat kínálhat a forgalom csökkentésére. A metrikáknak SMART-nak kell lenniük:
- Specific
- Measurable
- Achievable
- Reevant
- Time-bound
Adatforrások azonosítása
Azonosítsa azokat az adatforrásokat, amelyek ismert példákat tartalmaznak a kérdésekre adott válaszokra. Keresse meg a következő adatokat:
- A kérdés szempontjából releváns adatok. Rendelkezik a cél mértékével és a célhoz kapcsolódó funkciókkal?
- A modell célértékének és az érdeklődési körök jellemzőinek pontos mértéke.
Előfordulhat például, hogy egy meglévő rendszer nem rendelkezik a probléma megoldásához és egy projektcél eléréséhez szükséges adatokkal. Ebben az esetben előfordulhat, hogy külső adatforrásokat kell keresnie, vagy frissítenie kell a rendszereket az új adatok gyűjtéséhez.
Integrálás az MLflow-jal
Az üzleti ismeretek szakaszában a csapat nem használ MLflow-eszközöket, de közvetetten kihasználhatja az MLflow dokumentációs és kísérletkövetési képességeit. Ezek a funkciók elemzéseket és előzménykörnyezetet biztosítanak a projekt üzleti célokhoz való igazításához.
Artifacts
Ebben a szakaszban a csapata a következőket biztosítja:
Egy oklevél. A charterdokumentum egy élő dokumentum. A dokumentumot az új felfedezések során és az üzleti követelmények változásával frissítheti a projekt során. A kulcs a dokumentum iterálása. Adjon hozzá további részleteket a felderítési folyamat előrehaladása során. Tájékoztassa az ügyfelet és a többi érintettet a változásokról és azok okairól.
Adatforrások. Az Azure Machine Tanulás használatával kezelheti az adatforrás-kezelést. Ezt az Azure-szolgáltatást aktív és különösen nagy projektekhez ajánljuk, mert integrálható az MLflow-jal.
Adatszótárak. Ez a dokumentum az ügyfél által biztosított adatok leírását tartalmazza. Ezek a leírások tartalmazzák a sémával kapcsolatos információkat (az adattípusokat és az érvényesítési szabályokra vonatkozó információkat, ha vannak ilyenek), valamint az entitás-kapcsolat diagramokat, ha vannak ilyenek. A csapatnak dokumentálnia kell ezen információk egy részét vagy egészét.
Lektorált szakirodalom
A kutatók tanulmányokat tesznek közzé a TDSP-ről a lektorált szakirodalomban. Az idézetek lehetőséget nyújtanak a TDSP-hez hasonló alkalmazások vagy hasonló ötletek vizsgálatára, beleértve az üzleti ismeretek életciklusának szakaszát is.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Mark Tabladillo | Vezető felhőmegoldás-tervező
A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.
Kapcsolódó erőforrások
Ezek a cikkek a TDSP életciklusának további szakaszait ismertetik:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: