Fáze obchodního porozumění životnímu cyklu týmového Datová Věda procesu

Tento článek popisuje cíle, úkoly a dodávky spojené s fází obchodního porozumění týmu Datová Věda procesu (TDSP). Tento proces poskytuje doporučený životní cyklus, který může váš tým použít ke strukturování projektů datových věd. Životní cyklus popisuje hlavní fáze, které váš tým provádí, často iterativním způsobem:

  • Obchodní porozumění
  • Získávání a porozumění datům
  • Modelování
  • Nasazení
  • Přijetí zákazníka

Tady je vizuální znázornění životního cyklu TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Cíle

Cílem fáze obchodního porozumění je:

  • Zadejte klíčové proměnné, které slouží jako cíle modelu. A určete metriky cílů, které určují úspěch projektu.

  • Identifikujte relevantní zdroje dat, ke kterým má firma přístup nebo ke kterým potřebuje získat přístup.

Jak dokončit úkoly

Fáze obchodního porozumění má dva hlavní úkoly:

  • Definování cílů: Spolupracujte se zákazníkem a dalšími zúčastněnými stranami, abyste pochopili a identifikovali obchodní problémy. Formulujte otázky, které definují obchodní cíle, na které můžou cílit techniky datových věd.

  • Identifikovat zdroje dat: Najděte relevantní data, která vám pomohou zodpovědět otázky, které definují cíle projektu.

Definování cílů

  1. Ústředním cílem této fáze je identifikovat klíčové obchodní proměnné, které analýza potřebuje k predikci. Tyto proměnné se nazývají cíle modelu a metriky přidružené k nim slouží k určení úspěšnosti projektu. Cílem může být například prognóza prodeje nebo pravděpodobnost podvodných objednávek.

  2. Pokud chcete definovat cíle projektu, položte a upřesněte ostré otázky, které jsou relevantní, specifické a jednoznačné. Datové vědy jsou proces, který k zodpovězení těchto otázek používá názvy a čísla. K zodpovězení pěti typů otázek obvykle používáte datové vědy nebo strojové učení:

    • Kolik nebo kolik? (regrese)
    • Kterou kategorii? (klasifikace)
    • Kterou skupinu? (clustering)
    • Je to neobvyklé? (detekce anomálií)
    • Kterou možnost byste měli vzít? (doporučení)

    Určete, které z těchto otázek se mají ptát a jak na ni můžete odpovědět, abyste dosáhli svých obchodních cílů.

  3. Pokud chcete definovat projektový tým, určete role a odpovědnosti jejích členů. Při zjišťování dalších informací vytvořte plán milníků vysoké úrovně, na který iterujete.

  4. Musíte definovat metriky úspěchu. Můžete například chtít splnit predikci četnosti změn zákazníků s přesností x procent na konci tříměsíčního projektu. Díky tomuto datu můžete zákazníkům nabídnout propagační akce, které snižují četnost změn. Metriky musí být SMART:

    • Specific
    • Measurable
    • Dosažitelný
    • Relevant
    • Time vázané

Identifikace zdrojů dat

Identifikujte zdroje dat, které obsahují známé příklady odpovědí na vaše otázky. Vyhledejte následující data:

  • Data, která jsou relevantní pro danou otázku. Máte míry cíle a funkcí, které souvisejí s cílem?
  • Data, která jsou přesnou mírou cíle modelu a zajímavými funkcemi.

Existující systém například nemusí mít data, která potřebuje k vyřešení problému, a dosažení cíle projektu. V takovém případě možná budete muset najít externí zdroje dat nebo aktualizovat systémy tak, aby shromažďovat nová data.

Integrace s MLflow

Pro fázi obchodního porozumění váš tým nepoužívá nástroje MLflow, ale může nepřímo těžit z dokumentace a možností sledování experimentů MLflow. Tyto funkce můžou poskytovat přehledy a historický kontext, které pomáhají sladit projekt s obchodními cíli.

Artifacts

V této fázi váš tým poskytuje:

  • Listina. Listina je živý dokument. Dokument v celém projektu aktualizujete při nových zjišťováních a změnách obchodních požadavků. Klíčem je iterace v tomto dokumentu. Při procházení procesu zjišťování přidejte další podrobnosti. Informujte zákazníka a další zúčastněné strany o změnách a jejich důvodech.

  • Zdroje dat. Ke správě zdrojů dat můžete použít Učení Azure Machine. Tuto službu Azure doporučujeme pro aktivní a hlavně velké projekty, protože se integruje s MLflow.

  • Slovníky dat Tento dokument obsahuje popis dat, která klient poskytuje. Tyto popisy zahrnují informace o schématu (datové typy a informace o ověřovacích pravidlech, pokud jsou k dispozici) a diagramy relací entit, pokud jsou k dispozici. Váš tým by měl zdokumentovat některé nebo všechny tyto informace.

Recenzovaná literatura

Výzkumníci publikují studie o TDSP v peer-reviewed literatury. Citace poskytují příležitost prozkoumat jiné aplikace nebo podobné nápady pro TDSP, včetně fáze životního cyklu obchodního porozumění.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Tyto články popisují další fáze životního cyklu TDSP: