Ruoli e attività nel processo di data science per i team

Il processo di data science per i team (TDSP) è un framework sviluppato da Microsoft che fornisce una metodologia strutturata per creare con efficienza soluzioni di analisi predittiva e applicazioni intelligenti. Questo articolo descrive i ruoli chiave del personale e le attività associate per un team di data science che usa questo processo come standard.

È consigliabile un ambiente compatibile con Git per integrare gli artefatti MLflow archiviati in Azure Machine Learning. Azure Machine Learning si integra con i repository Git, quindi è possibile usare molti servizi compatibili con Git, ad esempio GitHub, GitLab, Bitbucket, Azure DevOps o qualsiasi altro servizio compatibile con Git.

Struttura dei gruppi e team di data science

Le funzioni di data science nelle aziende sono spesso organizzate nella gerarchia seguente:

  • Gruppo di data science
  • Team di data science all'interno del gruppo

In questa struttura sono presenti responsabili di gruppo e dei team. In genere, un team di data science esegue un progetto di data science. I team di data science prevedono responsabili di progetto per le attività di gestione e governance dei progetti e singoli data scientist e tecnici per eseguire le parti di ingegneria dei dati e data science del progetto. Il gruppo, il team o i responsabili del progetto eseguono la configurazione e la governance iniziali del progetto.

Definizione e attività per i quattro ruoli TDSP

Partendo dal presupposto che l'unità di data science è composta da più team all'interno di un gruppo, il personale TDSP è diviso in quattro ruoli distinti:

  • Group manager: gestisce l'intera unità di data science in un'azienda. Un'unità di data science potrebbe avere più team, ognuno dei quali funziona su più progetti di data science in aree aziendali distinte. Un responsabile del gruppo potrebbe delegare le attività a un surrogato, ma le attività associate al ruolo non cambiano.

  • Responsabile del team: gestisce un team nell'unità di data science di un'azienda. Un team è costituito da data scientist. Per una piccola unità di data science, il responsabile del gruppo e il responsabile del team potrebbero essere la stessa persona.

  • Responsabile del progetto: gestisce le attività quotidiane dei singoli data scientist in un progetto di data science specifico.

  • Collaboratori singoli del progetto: data scientist, business analyst, data engineer, architetti e altri utenti che eseguono un progetto di data science.

Nota

A seconda della struttura e delle dimensioni di un'azienda, una singola persona potrebbe avere più di un ruolo o più di una persona potrebbe occupare un ruolo.

Attività per i quattro ruoli

Il diagramma seguente illustra le attività di primo livello per ogni ruolo TDSP. Questa panoramica e la struttura dettagliata seguente delle attività per ogni ruolo TDSP consentono di scegliere l'esercitazione necessaria in base alle proprie responsabilità.

Diagram that shows an overview of the roles and tasks.

Attività di Gestione gruppo

Il responsabile del gruppo o un amministratore di sistema TDSP designato completa le attività seguenti per adottare il TDSP:

  • Crea un'organizzazione di Azure DevOps e un progetto di gruppo all'interno dell'organizzazione.

  • Crea un repository dei modelli di progetto nel progetto di gruppo di Azure DevOps, effettuandone il seeding dal repository dei modelli di progetto sviluppato dal team TDSP di Microsoft. Il repository dei modelli di progetto TDSP di Microsoft offre quanto segue:

    • Una struttura di directory standardizzata che comprende directory per dati, codice e documenti.
    • Un set di modelli di documento standardizzati per guidare in modo efficiente il processo di data scienze.
  • Crea un repository delle utilità, effettuandone il seeding dal repository delle utilità sviluppato dal team TDSP di Microsoft. Il repository delle utilità TDSP di Microsoft offre un set di utilità che permettono ai data scientist di lavorare in modo più efficiente. Il repository delle utilità Microsoft include utilità per l'esplorazione interattiva dei dati, l'analisi, la creazione di report, nonché la modellazione e la creazione di report di base.

  • Configura i criteri di controllo di sicurezza per l'account dell'organizzazione.

Per altre informazioni, vedere Attività di group manager per un team di data science.

Attività del responsabile del team

Il responsabile del team o un amministratore designato del progetto completa le attività seguenti per adottare il TDSP:

  • Creare un progetto team nell'organizzazione del gruppo in Azure DevOps.

  • Crea il repository dei modelli di progetto nel progetto e lo inizializza dal repository dei modelli di progetto di gruppo configurato dal responsabile del gruppo o dal delegato.

  • Crea il repository delle utilità del team, effettuandone il seeding dal repository delle utilità del gruppo e vi aggiunge utilità specifiche del team.

  • Facoltativamente, crea l'archiviazione file di Azure in cui archiviare asset di dati utili per il team. Gli altri membri del team possono montare questo archivio file su cloud condiviso sui loro desktop di analisi.

  • Facoltativamente, monta l'archiviazione file di Azure nella macchina virtuale di data science del team e aggiunge gli asset di dati del team.

  • Configura il controllo di sicurezza aggiungendo i membri del team e configurando le relative autorizzazioni.

Per altre informazioni, vedere Attività dei responsabili del team per un team di data science.

Attività lead del progetto

Il responsabile del progetto completa le attività seguenti per adottare il TDSP:

  • Crea un repository del progetto nel progetto team, effettuandone il seeding dal repository dei modelli del progetto team.

  • Facoltativamente, crea l'archiviazione file di Azure in cui archiviare gli asset di dati del progetto.

  • Facoltativamente, monta l'archiviazione file di Azure nella macchina virtuale di data science e aggiunge gli asset di dati del progetto.

  • Configura il controllo di sicurezza aggiungendo i membri del progetto e configurando le relative autorizzazioni.

Per altre informazioni, vedere Attività lead del progetto per un team di data science.

Attività dei singoli collaboratori del progetto

Il singolo collaboratore del progetto, in genere un data scientist, esegue le attività seguenti usando il TDSP:

  • Clona il repository del progetto configurato dal responsabile di progetto.

  • Facoltativamente, monta il team condiviso e proietta l'archiviazione file di Azure nella macchina virtuale per l'analisi scientifica dei dati.

  • Esegue il progetto.

Per altre informazioni, vedere Project individual contributor tasks for a data science team .For more information, see Project individual contributor tasks for a data science team.

Flusso di lavoro di esecuzione di progetti di data science

I data scientist, i responsabili del progetto e i responsabili del team possono creare elementi di lavoro per tenere traccia di tutte le attività e le fasi del progetto dall'inizio alla fine. La figura seguente illustra il flusso di lavoro TDSP per l'esecuzione del progetto:

Diagram that shows the typical data science project workflow.

I passaggi del flusso di lavoro possono essere raggruppati in tre attività:

  • I responsabili del progetto eseguono la pianificazione dello sprint.

  • I data scientist sviluppano artefatti in git rami per risolvere gli elementi di lavoro.

  • I lead del progetto o altri membri del team eseguono revisioni del codice e uniscono rami di lavoro al ramo primario.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.