¿Qué es el Proceso de ciencia de datos en equipo (TDSP)?

Azure Machine Learning

El proceso de ciencia de datos en equipo (TDSP) es una metodología de ciencia de datos ágil e iterativa que puede usar para proporcionar soluciones de análisis predictivo y aplicaciones de IA de manera eficiente. El TDSP ayuda a mejorar la colaboración y el aprendizaje en equipo al sugerir cómo los roles de equipo funcionan mejor juntos. El TDSP incluye procedimientos recomendados y estructuras de Microsoft y otros líderes del sector para ayudar a su equipo a implementar correctamente iniciativas de ciencia de datos y a obtener las ventajas del programa de análisis.

En este artículo se proporciona una introducción a TDSP y sus componentes principales. Se presentan instrucciones sobre cómo implementar el TDSP mediante herramientas e infraestructura de Microsoft. Puede encontrar recursos más detallados en todo el artículo.

Principales componentes del TDSP

El TDSP tiene los siguientes componentes principales:

  • Una definición de ciclo de vida de ciencia de datos
  • Una estructura de proyecto estandarizada
  • Infraestructura y recursos recomendados para proyectos de ciencia de datos
  • Herramientas y utilidades recomendadas para la ejecución de proyectos

Ciclo de vida de ciencia de datos

El TDSP proporciona un ciclo de vida que puede usar para estructurar el desarrollo de sus proyectos de ciencia de datos. En el ciclo de vida se describen todos los pasos que siguen los proyectos correctos.

Puede combinar el TDSP basado en tareas con otros ciclos de vida de la ciencia de datos, como el proceso estándar intersectorial para la minería de datos (CRISP-DM), el proceso de descubrimiento de conocimientos en bases de datos (KDD) u otro proceso personalizado. En un nivel alto, estas distintas metodologías tienen mucho en común.

Debe usar este ciclo de vida si tiene un proyecto de ciencia de datos que forma parte de una aplicación inteligente. Las aplicaciones inteligentes implementan modelos de Machine Learning o IA para realizar un análisis predictivo. También puede usar este proceso para proyectos de ciencia de datos exploratorios y proyectos de análisis improvisados.

El ciclo de vida de TDSP se compone de cinco fases principales que el equipo ejecuta de forma iterativa. Estas fases incluyen:

Esta es una representación visual del ciclo de vida de TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Para obtener información sobre los objetivos, las tareas y los artefactos de documentación de cada fase, consulte El ciclo de vida del proceso de ciencia de datos en equipo.

Estas tareas y artefactos están asociados con roles de proyecto, por ejemplo:

  • Arquitecto de soluciones.
  • Administrador de proyecto.
  • Ingeniero de datos.
  • Científico de datos.
  • Desarrollador de aplicaciones.
  • Responsable de proyecto.

En el siguiente diagrama se muestran las tareas (en azul) y los artefactos (en verde) asociados con cada fase del ciclo de vida (eje horizontal) de estos roles (eje vertical).

Diagram that shows the tasks and artifacts for each stage.

Estructura de proyecto estandarizada

El equipo puede usar la infraestructura de Azure para organizar los recursos de ciencia de datos.

Azure Machine Learning admite MLflow de código abierto. Se recomienda usar MLflow para la administración de proyectos de ciencia de datos e IA. MLflow está diseñado para administrar el ciclo de vida completo del aprendizaje automático. Entrena y sirve modelos en distintas plataformas, por lo que puede usar un conjunto coherente de herramientas independientemente de dónde se ejecuten los experimentos. Puede usar MLflow localmente en el equipo, en un destino de proceso remoto, en una máquina virtual o en una instancia de proceso de Machine Learning.

MLflow consta de varias funcionalidades clave:

  • Seguimiento de experimentos: con MLflow, puede realizar un seguimiento de los experimentos, incluidos los parámetros, las versiones de código, las métricas y los archivos de salida. Esta característica le ayuda a comparar diferentes ejecuciones y a administrar el proceso de experimentación de forma eficaz.

  • Código de paquete: ofrece un formato estandarizado para empaquetar código de aprendizaje automático, que incluye dependencias y configuraciones. Este empaquetado facilita reproducir ejecuciones y compartir código con otros usuarios.

  • Administración de modelos: MLflow proporciona funcionalidades para administrar y controlar modelos. Admite varios marcos de aprendizaje automático, por lo que puede almacenar, versionar y servir modelos.

  • Entre e implementación de modelos: MLflow integra las funcionalidades de entrega e implementación del modelo, por lo que puede implementar fácilmente modelos en diversos entornos.

  • Registro de modelos: puede administrar el ciclo de vida de un modelo, incluido el control de versiones, las transiciones de fase y las anotaciones. MLflow es útil para mantener un almacén de modelos centralizado en un entorno de colaboración.

  • Uso de una API y una interfaz de usuario: dentro de Azure, MLflow se agrupa en la versión 2 de la API de Machine Learning, por lo que puede interactuar con el sistema mediante programación. Puede usar Azure Portal para interactuar con una interfaz de usuario.

MLflow tiene como objetivo simplificar y estandarizar el proceso de desarrollo de aprendizaje automático, desde la experimentación hasta la implementación.

Machine Learning se integra con repositorios de Git, por lo que puede usar servicios compatibles con GitHub: GitHub, GitLab, Bitbucket, Azure DevOps u otro servicio compatible con Git. Además de los activos que ya se han seguido en Machine Learning, el equipo puede desarrollar su propia taxonomía dentro de su servicio compatible con Git para almacenar otra información del proyecto, como:

  • Documentación
    • Project, por ejemplo, el informe final del proyecto
    • Informe de datos, por ejemplo, el diccionario de datos o los informes de calidad de datos
    • Modelo, por ejemplo, informes de modelos
  • Código
    • Preparación de los datos
    • Desarrollo del modelo
    • Puesta en funcionamiento, incluida la seguridad y el cumplimiento

Infraestructura y recursos

El TDSP proporciona recomendaciones para administrar análisis compartido e infraestructura de almacenamiento, por ejemplo:

  • Sistemas de archivos en la nube para almacenar conjuntos de datos
  • Bases de datos
  • Clústeres de macrodatos, por ejemplo, SQL o Spark
  • Machine Learning Services

Puede colocar la infraestructura de análisis y almacenamiento, donde se almacenan los conjuntos de datos sin procesar y los procesados, en la nube o en un entorno local. Esta infraestructura permite un análisis reproducible. También evita la duplicación, lo que puede llevar a incoherencias y costos de infraestructura innecesarios. La infraestructura tiene herramientas para aprovisionar los recursos compartidos, realizar un seguimiento de ellos y permitir que cada miembro del equipo se conecte a dichos recursos de forma segura. También es una buena práctica pedir a los miembros del proyecto que creen un entorno de proceso coherente. Diferentes miembros del equipo pueden replicar y validar los experimentos.

Este es un ejemplo de un equipo que trabaja en varios proyectos y que comparte diversos componentes de la infraestructura de análisis:

Diagram that shows the infrastructure of a team.

Herramientas y utilidades

En la mayoría de las organizaciones la introducción de procesos presenta ciertos desafíos. La infraestructura proporciona herramientas para implementar el TDSP y el ciclo de vida de ciencia de datos ayudan a reducir las barreras a su adopción y la normalizan.

Con Machine Learning, los científicos de datos pueden aplicar herramientas de código abierto como parte de la canalización o el flujo de trabajo de ciencia de datos. En Machine Learning, Microsoft promueve herramientas de IA responsable, lo que ayuda a lograr el estándar de IA responsable de Microsoft.

Citas revisadas por expertos

TDSP es una metodología bien establecida que se usa en las interacciones de Microsoft y, por tanto, se ha documentado y estudiado en la documentación revisada por expertos. Estas citas proporcionan una oportunidad para investigar las aplicaciones y características de TDSP. Consulte la página de información general del ciclo de vida para obtener una lista de citas.

Roles y tareas del proceso de ciencia de datos en equipo