Fáze obchodního porozumění životnímu cyklu týmového Datová Věda procesu
Tento článek popisuje cíle, úkoly a dodávky spojené s fází obchodního porozumění týmu Datová Věda procesu (TDSP). Tento proces poskytuje doporučený životní cyklus, který může váš tým použít ke strukturování projektů datových věd. Životní cyklus popisuje hlavní fáze, které váš tým provádí, často iterativním způsobem:
- Obchodní porozumění
- Získávání a porozumění datům
- Modelování
- Nasazení
- Přijetí zákazníka
Tady je vizuální znázornění životního cyklu TDSP:
Cíle
Cílem fáze obchodního porozumění je:
Zadejte klíčové proměnné, které slouží jako cíle modelu. A určete metriky cílů, které určují úspěch projektu.
Identifikujte relevantní zdroje dat, ke kterým má firma přístup nebo ke kterým potřebuje získat přístup.
Jak dokončit úkoly
Fáze obchodního porozumění má dva hlavní úkoly:
Definování cílů: Spolupracujte se zákazníkem a dalšími zúčastněnými stranami, abyste pochopili a identifikovali obchodní problémy. Formulujte otázky, které definují obchodní cíle, na které můžou cílit techniky datových věd.
Identifikovat zdroje dat: Najděte relevantní data, která vám pomohou zodpovědět otázky, které definují cíle projektu.
Definování cílů
Ústředním cílem této fáze je identifikovat klíčové obchodní proměnné, které analýza potřebuje k predikci. Tyto proměnné se nazývají cíle modelu a metriky přidružené k nim slouží k určení úspěšnosti projektu. Cílem může být například prognóza prodeje nebo pravděpodobnost podvodných objednávek.
Pokud chcete definovat cíle projektu, položte a upřesněte ostré otázky, které jsou relevantní, specifické a jednoznačné. Datové vědy jsou proces, který k zodpovězení těchto otázek používá názvy a čísla. K zodpovězení pěti typů otázek obvykle používáte datové vědy nebo strojové učení:
- Kolik nebo kolik? (regrese)
- Kterou kategorii? (klasifikace)
- Kterou skupinu? (clustering)
- Je to neobvyklé? (detekce anomálií)
- Kterou možnost byste měli vzít? (doporučení)
Určete, které z těchto otázek se mají ptát a jak na ni můžete odpovědět, abyste dosáhli svých obchodních cílů.
Pokud chcete definovat projektový tým, určete role a odpovědnosti jejích členů. Při zjišťování dalších informací vytvořte plán milníků vysoké úrovně, na který iterujete.
Musíte definovat metriky úspěchu. Můžete například chtít splnit predikci četnosti změn zákazníků s přesností x procent na konci tříměsíčního projektu. Díky tomuto datu můžete zákazníkům nabídnout propagační akce, které snižují četnost změn. Metriky musí být SMART:
- Specific
- Measurable
- Dosažitelný
- Relevant
- Time vázané
Identifikace zdrojů dat
Identifikujte zdroje dat, které obsahují známé příklady odpovědí na vaše otázky. Vyhledejte následující data:
- Data, která jsou relevantní pro danou otázku. Máte míry cíle a funkcí, které souvisejí s cílem?
- Data, která jsou přesnou mírou cíle modelu a zajímavými funkcemi.
Existující systém například nemusí mít data, která potřebuje k vyřešení problému, a dosažení cíle projektu. V takovém případě možná budete muset najít externí zdroje dat nebo aktualizovat systémy tak, aby shromažďovat nová data.
Integrace s MLflow
Pro fázi obchodního porozumění váš tým nepoužívá nástroje MLflow, ale může nepřímo těžit z dokumentace a možností sledování experimentů MLflow. Tyto funkce můžou poskytovat přehledy a historický kontext, které pomáhají sladit projekt s obchodními cíli.
Artifacts
V této fázi váš tým poskytuje:
Listina. Listina je živý dokument. Dokument v celém projektu aktualizujete při nových zjišťováních a změnách obchodních požadavků. Klíčem je iterace v tomto dokumentu. Při procházení procesu zjišťování přidejte další podrobnosti. Informujte zákazníka a další zúčastněné strany o změnách a jejich důvodech.
Zdroje dat. Ke správě zdrojů dat můžete použít Učení Azure Machine. Tuto službu Azure doporučujeme pro aktivní a hlavně velké projekty, protože se integruje s MLflow.
Slovníky dat Tento dokument obsahuje popis dat, která klient poskytuje. Tyto popisy zahrnují informace o schématu (datové typy a informace o ověřovacích pravidlech, pokud jsou k dispozici) a diagramy relací entit, pokud jsou k dispozici. Váš tým by měl zdokumentovat některé nebo všechny tyto informace.
Recenzovaná literatura
Výzkumníci publikují studie o TDSP v peer-reviewed literatury. Citace poskytují příležitost prozkoumat jiné aplikace nebo podobné nápady pro TDSP, včetně fáze životního cyklu obchodního porozumění.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Mark Tabladillo | Vedoucí architekt cloudových řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Související prostředky
Tyto články popisují další fáze životního cyklu TDSP:
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro