Fáze modelování životního cyklu týmového Datová Věda procesu

Tento článek popisuje cíle, úkoly a dodávky spojené s fází modelování týmového Datová Věda procesu (TDSP). Tento proces poskytuje doporučený životní cyklus, který může váš tým použít ke strukturování projektů datových věd. Životní cyklus popisuje hlavní fáze, které váš tým provádí, často iterativním způsobem:

  • Obchodní porozumění
  • Získávání a porozumění datům
  • Modelování
  • Nasazení
  • Přijetí zákazníka

Tady je vizuální znázornění životního cyklu TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Cíle

Cílem fáze modelování je:

  • Určete optimální datové funkce pro model strojového učení.

  • Vytvořte informativní model strojového učení, který predikuje cíl nejpřesněji.

  • Vytvořte model strojového učení, který je vhodný pro produkční prostředí.

Jak dokončit úkoly

Fáze modelování má tři hlavní úlohy:

  • Příprava funkcí: Vytváření datových funkcí z nezpracovaných dat za účelem usnadnění trénování modelu

  • Trénování modelu: Najděte model, který odpovídá na otázku nejpřesněji, porovnáním metrik úspěšnosti modelů.

  • Vyhodnocení modelu: Určete, jestli je váš model vhodný pro produkční prostředí.

Příprava atributů

Příprava funkcí zahrnuje zahrnutí, agregaci a transformaci nezpracovaných proměnných, aby se vytvořily funkce použité v analýze. Pokud chcete získat přehled o tom, jak se model sestavuje, budete muset prozkoumat základní funkce modelu.

Tento krok vyžaduje kreativní kombinaci odborných znalostí v doméně a přehledů získaných z kroku zkoumání dat. Příprava funkcí je vyrovnáváním hledání a zahrnutím informativních proměnných, ale zároveň se snaží vyhnout příliš mnoha nesouvisejícím proměnným. Informativní proměnné zlepšují váš výsledek. Nesouvisející proměnné do modelu zavádějí zbytečný šum. Tyto funkce musíte také vygenerovat pro všechna nová data získaná během vyhodnocování. V důsledku toho může generování těchto funkcí záviset pouze na datech, která jsou k dispozici v době vyhodnocování.

Trénování modelu

Existuje mnoho algoritmů modelování, které můžete použít v závislosti na typu otázky, na kterou se pokoušíte odpovědět. Pokyny k výběru předem připraveného algoritmu najdete v stručné nápovědě k algoritmům strojového Učení pro návrháře služby Azure Machine Učení. Další algoritmy jsou k dispozici prostřednictvím opensourcových balíčků v R nebo Pythonu. I když se tento článek zaměřuje na službu Azure Machine Učení, pokyny, které poskytuje, jsou užitečné pro mnoho projektů strojového učení.

Proces trénování modelu zahrnuje následující kroky:

  • Rozdělte vstupní data náhodně pro modelování do trénovací datové sady a testovací datové sady.

  • Sestavte modely pomocí trénovací sady dat.

  • Vyhodnoťte trénování a testovací sadu dat. Použijte řadu konkurenčních algoritmů strojového učení. Použijte různé přidružené parametry ladění (označované jako uklidování parametrů), které jsou zaměřené na zodpovězení otázky zájmu s aktuálními daty.

  • Určení nejlepšího řešení pro zodpovězení otázky porovnáním metrik úspěšnosti mezi alternativními metodami

Další informace najdete v tématu Trénování modelů pomocí strojového Učení.

Poznámka:

Vyhněte se úniku dat: Únik dat můžete způsobit, pokud zahrnete data mimo trénovací sadu dat, která umožňuje algoritmus modelu nebo strojového učení provádět nerealisticky dobré předpovědi. Únik je běžný důvod, proč jsou datoví vědci nervózní, když získají prediktivní výsledky, které se zdají být příliš dobré, aby byly pravdivé. Tyto závislosti můžou být obtížné rozpoznat. Zabránění úniku často vyžaduje iteraci mezi sestavením sady dat analýzy, vytvořením modelu a vyhodnocením přesnosti výsledků.

Vyhodnocení modelu

Po vytrénování modelu se datový vědec ve vašem týmu zaměřuje na vyhodnocení modelu.

  • Určení: Vyhodnoťte, jestli model funguje dostatečně pro produkční prostředí. Mezi klíčové otázky, které je potřeba položit, patří:

    • Odpovídá model na otázku s dostatečnou jistotou vzhledem k testovacím datům?

    • Měli byste vyzkoušet nějaké alternativní přístupy?

    • Měli byste shromažďovat více dat, provádět další přípravu funkcí nebo experimentovat s jinými algoritmy?

  • Interpretujte model: Pomocí sady Machine Učení Python SDK proveďte následující úlohy:

    • Vysvětlete celé chování modelu nebo individuální předpovědi na vašem osobním počítači místně.

    • Povolte techniky interpretovatelnosti pro zkonstruované funkce.

    • Vysvětlete chování celého modelu a jednotlivých předpovědí v Azure.

    • Nahrajte vysvětlení do historie spuštění Učení počítače.

    • Pomocí řídicího panelu vizualizace můžete pracovat s vysvětleními modelu, a to jak v poznámkovém bloku Jupyter, tak v pracovním prostoru Učení počítače.

    • Nasaďte spolu s modelem vysvětlení skóre, abyste mohli sledovat vysvětlení během odvozování.

  • Posouzení nestrannosti: Použití opensourcového balíčku Pythonu fairlearn s machine Učení k provádění následujících úloh:

    • Vyhodnoťte nestrannost předpovědí modelu. Tento proces pomáhá vašemu týmu získat další informace o nestrannosti strojového učení.

    • Nahrajte, vypíšete a stáhnete přehledy posouzení nestrannosti do a ze sady Machine Učení Studio.

    • Podívejte se na řídicí panel posouzení nestrannosti v nástroji Machine Učení Studio, kde můžete pracovat s přehledy o nestrannosti vašich modelů.

Integrace s MLflow

Strojové Učení se integruje s MLflow, aby podporovaly životní cyklus modelování. Používá sledování MLflow pro experimenty, nasazení projektu, správu modelů a registr modelů. Tato integrace zajišťuje bezproblémový a efektivní pracovní postup strojového učení. Následující funkce v nástroji Machine Učení pomáhají podporovat tento prvek životního cyklu modelování:

  • Sledování experimentů: Základní funkce MLflow se ve fázi modelování široce používá ke sledování různých experimentů, parametrů, metrik a artefaktů.

  • Nasazení projektů: Balení kódu pomocí projektů MLflow zajišťuje konzistentní spuštění a snadné sdílení mezi členy týmu, což je nezbytné při iterativním vývoji modelů.

  • Správa modelů: Správa modelů a správa verzí je v této fázi důležitá, protože různé modely se sestavují, vyhodnocují a upřesňuje.

  • Registrace modelů: Registr modelů se používá pro správu verzí a správu modelů v průběhu jejich životního cyklu.

Recenzovaná literatura

Výzkumníci publikují studie o TDSP v peer-reviewed literatury. Citace poskytují příležitost prozkoumat jiné aplikace nebo podobné nápady na TDSP, včetně fáze životního cyklu modelování.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Tyto články popisují další fáze životního cyklu TDSP: