Roles y tareas del proceso de ciencia de datos en equipo

El proceso de ciencia de datos en equipo (TDSP) es una plataforma desarrollada por Microsoft que proporciona una metodología estructurada para crear soluciones de análisis predictivo y aplicaciones inteligentes de un modo eficaz. En este artículo se describen los roles clave del personal y sus tareas asociadas para un equipo de ciencia de datos que estandariza este proceso.

Se recomienda un entorno compatible con Git para complementar los artefactos de MLflow almacenados en Azure Machine Learning. Azure Machine Learning se integra con repositorios de Git, por lo que puede usar servicios compatibles con GitHub, como GitHub, GitLab, Bitbucket, Azure DevOps u otro servicio compatible con Git.

Estructura de los grupos y equipos de ciencia de datos

Las funciones de ciencia de datos en las empresas a menudo se organizan en la siguiente jerarquía:

  • Grupo de ciencia de datos
  • Equipos de ciencia de datos dentro del grupo

En este tipo de estructura habrá responsables de grupo y de equipo. Normalmente, un proyecto de ciencia de datos lo realiza un equipo de ciencia de datos. Los equipos de ciencia de datos cuentan con responsables de proyecto (para tareas de administración y gobernanza del proyecto) y científicos de datos e ingenieros individuales que ejecutarán las partes de ciencia de datos e ingeniería de datos del proyecto. Los responsables de grupo, equipo o proyecto realizan la configuración y gobernanza del proyecto inicial.

Definición y tareas de los cuatro roles de TDSP

Suponiendo que la unidad de ciencia de datos conste de equipos dentro de un grupo, existen cuatro roles distintos para el personal de TDSP:

  • Administrador de grupos: administra la unidad de ciencia de datos completa en una empresa. Una unidad de ciencia de datos podría tener varios equipos, cada uno de ellos trabajando en varios proyectos de ciencia de datos en áreas de negocio distintas. Un administrador de grupos puede delegar sus tareas en un suplente, pero no cambian las tareas asociadas al rol.

  • Responsable de equipo: administra un equipo de la unidad de ciencia de datos de una empresa. Un equipo está formado por científicos de datos. En una unidad de ciencia de datos reducida, el administrador de grupos y el responsable de equipo podrían ser la misma persona.

  • Responsable de proyecto: administra las actividades diarias de los científicos de datos en un proyecto de ciencia de datos específico.

  • Colaboradores individuales del proyecto: científicos de datos, analistas de negocios, ingenieros de datos, arquitectos y otros colaboradores que ejecutan un proyecto de ciencia de datos.

Nota:

En función de la estructura y el tamaño de una empresa, una sola persona puede desempeñar más de un rol o un grupo de personas podría ocupar un solo rol.

Tareas de los cuatro roles

En el diagrama siguiente se muestran las tareas de nivel superior para cada rol de TDSP. Esta información general y el esquema detallado siguiente, donde las tareas de cada rol de TDSP se describen más detalladamente, pueden ayudarle a elegir el tutorial que necesita en función de sus responsabilidades.

Diagram that shows an overview of the roles and tasks.

Tareas del administrador de grupo

Las siguientes tareas las realiza el administrador de grupos (o un administrador del sistema TDSP designado) para adoptar el TDSP:

  • Crea una organización de Azure DevOps y un proyecto de grupo dentro de la organización.

  • Crea un repositorio de plantillas de proyecto en el proyecto de grupo de Azure DevOps y lo inicializa desde el repositorio de plantillas de proyecto desarrollado por el equipo TDSP de Microsoft. El repositorio de plantillas de proyecto TDSP de Microsoft proporciona:

    • Una estructura de directorios estandarizada que incluye directorios de datos, código y documentos.
    • Un conjunto de plantillas de documentos estandarizadas como guía para un proceso de ciencia de datos eficaz.
  • Crea un repositorio de utilidades y lo inicializa desde el repositorio de utilidades desarrollado por el equipo de TDSP de Microsoft. El repositorio de utilidades de TDSP de Microsoft proporciona un conjunto de utilidades útiles para que el trabajo de un científico de datos resulte más eficaz. El repositorio de utilidades de Microsoft incluye utilidades para exploración interactiva de datos, análisis e informes y para informes y modelos de base de referencia.

  • Configura la directiva de control de seguridad para la cuenta de la organización.

Para obtener más información, consulte Tareas de administrador de grupos para un equipo de ciencia de datos.

Tareas del responsable de equipo

Las siguientes tareas las realiza el responsable de equipo (o un administrador del proyecto designado) para adoptar el TDSP:

  • Crea un proyecto de equipo en la organización de Azure DevOps del grupo.

  • Crea el repositorio de plantillas de proyecto en el proyecto y lo inicializa desde el repositorio de plantillas de proyecto de grupo configurado por el administrador del grupo o el delegado.

  • Crea el repositorio de utilidades del equipo, lo inicializa desde el repositorio de utilidades del grupo y agrega utilidades específicas del equipo al repositorio.

  • Opcionalmente, crea una instancia de Azure File Storage para almacenar recursos de datos útiles para el equipo. Otros miembros del equipo pueden montar este almacén de archivos compartidos en la nube en sus escritorios de análisis.

  • Opcionalmente monta el almacenamiento de Azure File Storage en la Data Science Virtual Machine y le añade los activos de datos del equipo.

  • Configura el control de seguridad mediante la adición de miembros del equipo y la configuración de sus permisos.

Para obtener más información, consulte Tareas del responsable de equipo para un equipo de ciencia de datos.

Tareas del responsable de proyecto

Las siguientes tareas las realiza el responsable de proyecto para adoptar el TDSP:

  • Crea un repositorio del proyecto en el proyecto de equipo y lo inicializa desde el repositorio de plantillas del proyecto.

  • Opcionalmente, crea una instancia de Azure File Storage para almacenar recursos de datos del proyecto.

  • Opcionalmente monta el almacenamiento de Azure File Storage en la Data Science Virtual Machine y le añade los activos de datos del proyecto.

  • Configura el control de seguridad mediante la adición de miembros del proyecto y la configuración de sus permisos.

Para obtener más información, consulte Tareas del responsable de proyecto para un equipo de ciencia de datos.

Tareas del colaborador individual del proyecto

El colaborador individual del proyecto, normalmente un científico de datos, realiza las siguientes tareas mediante TDSP:

  • Clona el repositorio del proyecto configurado por el responsable de proyecto.

  • Opcionalmente, monta el recurso compartido y la instancia de Azure File Storage del proyecto en la instancia de Data Science Virtual Machine.

  • Ejecuta el proyecto.

Para obtener más información, consulte Tareas de colaborador individual del proyecto para un equipo de ciencia de datos.

Flujo de trabajo de ejecución del proyecto de ciencia de datos

Los científicos de datos, los responsables de proyecto y los responsables de equipo pueden crear elementos de trabajo para realizar el seguimiento de todas las tareas y las fases de un proyecto de principio a fin. La siguiente ilustración muestra el flujo de trabajo de TDSP para la ejecución del proyecto:

Diagram that shows the typical data science project workflow.

Los pasos del flujo de trabajo se pueden agrupar en tres actividades:

  • Los responsables de proyecto realizan el planeamiento de sprints.

  • Los científicos de datos desarrollan artefactos en ramas de git para tratar los elementos de trabajo.

  • Los responsables de proyecto u otros miembros del equipo realizan revisiones de código y combinan ramas de trabajo en la rama primaria.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.