Role i zadania w procesie Nauka o danych zespołu

Team Nauka o danych Process (TDSP) to struktura opracowana przez firmę Microsoft, która zapewnia metodologię ustrukturyzowaną umożliwiającą efektywne tworzenie rozwiązań do analizy predykcyjnej i inteligentnych aplikacji. W tym artykule opisano kluczowe role personelu i skojarzone zadania dla zespołu nauki o danych ustandaryzujące ten proces.

Sugerowane jest środowisko zgodne z usługą Git w celu uzupełnienia artefaktów MLflow przechowywanych w usłudze Azure Machine Edukacja. Usługa Azure Machine Edukacja integruje się z repozytoriami Git, dzięki czemu można używać wielu usług zgodnych z usługą git, takich jak GitHub, GitLab, Bitbucket, Azure DevOps lub dowolna inna usługa zgodna z usługą Git.

Struktura grup i zespołów nauki o danych

Funkcje nauki o danych w przedsiębiorstwach są często zorganizowane w następującej hierarchii:

  • Grupa nauki o danych
  • Zespoły nauki o danych w grupie

W takiej strukturze istnieją potencjalni klienci grupowi i potencjalni klienci zespołu. Zazwyczaj zespół ds. nauki o danych przeprowadza projekt nauki o danych. Zespoły ds. nauki o danych mają liderów projektu w zakresie zarządzania projektami i zarządzania nimi oraz poszczególnych analityków danych i inżynierów do wykonywania części nauki o danych i inżynierii danych w projekcie. Grupa, zespół lub projekt prowadzi do wykonania początkowej konfiguracji i ładu projektu.

Definicja i zadania dla czterech ról TDSP

Przy założeniu, że jednostka nauki o danych składa się z zespołów w grupie, istnieją cztery odrębne role dla personelu TDSP:

  • Menedżer grupy: zarządza całą jednostką nauki o danych w przedsiębiorstwie. Jednostka nauki o danych może mieć wiele zespołów, z których każda pracuje nad wieloma projektami nauki o danych w różnych obszarach biznesowych. Menedżer grupy może delegować swoje zadania do zastępcy, ale zadania skojarzone z rolą nie zmieniają się.

  • Lider zespołu: zarządza zespołem w jednostce nauki o danych przedsiębiorstwa. Zespół składa się z analityków danych. W przypadku małej jednostki nauki o danych menedżer grupy i kierownik zespołu mogą być tą samą osobą.

  • Kierownik projektu: zarządza codziennymi działaniami poszczególnych analityków danych w konkretnym projekcie nauki o danych.

  • Współautorzy projektu: analitycy danych, analitycy biznesowi, inżynierowie danych, architekci i inni, którzy wykonują projekt nauki o danych.

Uwaga

W zależności od struktury i rozmiaru przedsiębiorstwa jedna osoba może mieć więcej niż jedną rolę lub więcej niż jedna osoba może pełnić rolę.

Zadania dla czterech ról

Na poniższym diagramie przedstawiono zadania najwyższego poziomu dla każdej roli TDSP. To omówienie i poniższy szczegółowy opis zadań dla każdej roli TDSP może pomóc w wyborze samouczka, który jest potrzebny na podstawie Obowiązków.

Diagram that shows an overview of the roles and tasks.

Zadania menedżera grupy

Menedżer grupy lub wyznaczony administrator systemu TDSP wykonuje następujące zadania w celu wdrożenia dostawcy TDSP:

  • Tworzy organizację usługi Azure DevOps i projekt grupy w organizacji.

  • Tworzy repozytorium szablonów projektu w projekcie grupy usługi Azure DevOps i powoduje jego utworzenie z repozytorium szablonu projektu opracowanego przez zespół microsoft TDSP. Repozytorium szablonów projektu TDSP firmy Microsoft udostępnia:

    • Ustandaryzowana struktura katalogów, w tym katalogi danych, kodu i dokumentów.
    • Zestaw ustandaryzowanych szablonów dokumentów do prowadzenia wydajnego procesu nauki o danych.
  • Tworzy repozytorium narzędzi i wysieje je z repozytorium narzędzi opracowanego przez zespół TDSP firmy Microsoft. Repozytorium narzędzi TDSP firmy Microsoft udostępnia zestaw przydatnych narzędzi, które ułatwiają pracę analityka danych. Repozytorium narzędzi firmy Microsoft zawiera narzędzia do interaktywnej eksploracji danych, analizy, raportowania i modelowania bazowego oraz raportowania.

  • Konfiguruje zasady kontroli zabezpieczeń dla konta organizacji.

Aby uzyskać więcej informacji, zobacz Zadania menedżera grup dla zespołu nauki o danych.

Zadania potencjalnych zespołów

Kierownik zespołu lub wyznaczony administrator projektu wykonuje następujące zadania w celu wdrożenia dostawcy TDSP:

  • Tworzy projekt zespołowy w organizacji usługi Azure DevOps grupy.

  • Tworzy repozytorium szablonu projektu w projekcie i powoduje jego utworzenie z repozytorium szablonu projektu grupy skonfigurowanego przez menedżera grupy lub pełnomocnika.

  • Tworzy repozytorium narzędzi zespołowych, wysiewuje je z repozytorium narzędzi grupy i dodaje do repozytorium narzędzia specyficzne dla zespołu.

  • Opcjonalnie tworzy magazyn plików platformy Azure do przechowywania przydatnych zasobów danych dla zespołu. Inni członkowie zespołu mogą zainstalować ten udostępniony magazyn plików w chmurze na pulpitach analitycznych.

  • Opcjonalnie instaluje magazyn plików platformy Azure na maszynie wirtualnej do nauki o danych zespołu i dodaje do niego zasoby danych zespołu.

  • Konfiguruje kontrolę zabezpieczeń, dodając członków zespołu i konfigurując ich uprawnienia.

Aby uzyskać więcej informacji, zobacz Team lead tasks for a data science team (Zadania potencjalnych zespołów ds. danych dla zespołu ds. nauki o danych).

Zadania potencjalnych klientów projektu

Kierownik projektu wykonuje następujące zadania w celu wdrożenia dostawcy TDSP:

  • Tworzy repozytorium projektu w projekcie zespołowym i powoduje jego utworzenie z repozytorium szablonu projektu.

  • Opcjonalnie tworzy magazyn plików platformy Azure do przechowywania zasobów danych projektu.

  • Opcjonalnie instaluje magazyn plików platformy Azure na maszynie wirtualnej do nauki o danych i dodaje do niego zasoby danych projektu.

  • Konfiguruje kontrolę zabezpieczeń, dodając członków projektu i konfigurując ich uprawnienia.

Aby uzyskać więcej informacji, zobacz Project lead tasks for a data science team (Zadania potencjalnych klientów projektu dla zespołu ds. nauki o danych).

Zadania poszczególnych współautorów projektu

Indywidualny współautor projektu, zwykle analityk danych, wykonuje następujące zadania przy użyciu dostawcy TDSP:

  • Klonuje repozytorium projektu skonfigurowane przez potencjalnego klienta projektu.

  • Opcjonalnie instaluje udostępniony zespół i magazyn plików platformy Azure na maszynie wirtualnej do nauki o danych.

  • Wykonuje projekt.

Aby uzyskać więcej informacji, zobacz Project individual contributor tasks for a data science team (Zadania poszczególnych współautorów projektu dla zespołu nauki o danych).

Przepływ pracy wykonywania projektu nauki o danych

Analitycy danych, potencjalni potencjalni klienci projektu i potencjalni klienci zespołu mogą tworzyć elementy robocze w celu śledzenia wszystkich zadań i etapów projektu od początku do końca. Na poniższej ilustracji przedstawiono przepływ pracy TDSP na potrzeby wykonywania projektu:

Diagram that shows the typical data science project workflow.

Kroki przepływu pracy można zgrupować w trzy działania:

  • Potencjalni klienci projektu przeprowadzają planowanie przebiegu.

  • Analitycy danych opracowują artefakty na git gałęziach w celu rozwiązywania problemów z elementami roboczymi.

  • Potencjalni klienci projektu lub inni członkowie zespołu wykonują przeglądy kodu i scalają gałęzie robocze z gałęzią podstawową.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.