Fase de descripción de negocio del ciclo de vida del Proceso de ciencia de datos en equipo

En este artículo se describen los objetivos, las tareas y los resultados asociados a la fase de descripción del negocio del Proceso de ciencia de datos en equipo (TDSP). Este proceso proporciona un ciclo de vida recomendado que el equipo puede usar para estructurar los proyectos de ciencia de datos. El ciclo de vida describe las fases principales que realiza el equipo, a menudo iterativamente:

  • Conocimiento del negocio
  • Adquisición y comprensión de los datos
  • Modelado
  • Implementación
  • Aceptación del cliente

Esta es una representación visual del ciclo de vida de TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Objetivos

Los objetivos de la fase de comprensión empresarial son:

  • Especificar las variables clave que actúan como destinos del modelo. Y especificar las métricas de los destinos, que determinan el éxito del proyecto.

  • Identifique los orígenes de datos pertinentes a los que tiene acceso la empresa o que necesita obtener.

Cómo completar las tareas

La fase de comprensión empresarial tiene dos tareas principales:

  • Definición de objetivos: trabaje con el cliente y con otras partes interesadas para comprender e identificar los problemas de la empresa. Formule preguntas que definan los objetivos empresariales y a las que puedan aplicarse las técnicas de ciencia de datos.

  • Identifique los orígenes de datos: busque los datos pertinentes que lo ayuden a responder a las preguntas que definen los objetivos del proyecto.

Definición de objetivos

  1. Un objetivo fundamental de esta fase consiste en identificar las principales variables empresariales que el análisis deberá predecir. Estas variables se denominan objetivos del modelo y las métricas asociadas a ellas se utilizan para determinar el éxito del proyecto. Por ejemplo, un destino puede ser una previsión de ventas o la probabilidad de que un pedido sea fraudulento.

  2. Para definir los objetivos del proyecto, plantee y ajuste preguntas certeras que sean pertinentes, específicas y sin ambigüedad alguna. La ciencia de datos es un proceso que utiliza nombres y números para responder a estas preguntas. La ciencia de datos o el aprendizaje automático suelen utilizarse para responder a cinco tipos de preguntas:

    • ¿Cuánto? o ¿cuántos? (regresión)
    • ¿Qué categoría? (clasificación)
    • ¿Qué grupo? (agrupación en clústeres)
    • ¿Es inusual? (detección de anomalías)
    • ¿Qué opción se debe elegir? (recomendación)

    Determine cuál de las siguientes es su pregunta y cómo la respuesta puede ayudar a lograr sus objetivos empresariales.

  3. Para definir el equipo del proyecto, especifique los roles y las responsabilidades de sus miembros. Desarrolle un plan general de hitos que se pueda repetir a medida que se descubra más información.

  4. Debe definir las métricas del éxito. Por ejemplo, es posible que desee cumplir una predicción de abandono de clientes con una tasa de precisión de x por ciento al final de un proyecto de tres meses. Con estos datos, puede ofrecer promociones al cliente para mejorar la fidelización. Las métricas deben cumplir los requisitos SMART:

    • Specific (específicas)
    • Measurable (mensurables)
    • Achievable (alcanzables)
    • Relevant (pertinentes)
    • Time-bound (con un límite de tiempo)

Identificación de los orígenes de datos

Identifique los orígenes de datos que contienen ejemplos conocidos de respuestas a las preguntas. Busque los siguientes datos:

  • Datos pertinentes para la pregunta. ¿Tenemos indicadores para medir el objetivo y las características que están relacionados con él?
  • Datos que representen una medida precisa de nuestro objetivo de modelo y de las características de interés.

Por ejemplo, es posible que un sistema existente no tenga los datos que necesita para solucionar un problema y lograr un objetivo del proyecto. En esta situación, podría necesitar buscar orígenes de datos externos o actualizar los sistemas para recopilar datos nuevos.

Integración con MLflow

Para la fase de comprensión empresarial, el equipo no usa herramientas de MLflow, pero puede beneficiarse indirectamente de las funcionalidades de documentación y seguimiento de experimentos de MLflow. Estas características pueden proporcionar información y contexto histórico para ayudar a alinear el proyecto con objetivos empresariales.

Artifacts

En esta fase, el equipo entrega lo siguiente:

  • Un documento marco. El documento marco es un documento en cambio continuo. El documento se actualiza a lo largo del proyecto a medida que se descubren nuevos elementos y cambian las necesidades empresariales. La clave es iterar en este documento. Agregue más detalles a medida que avance a través del proceso de detección. Informe al cliente y a otras partes interesadas de los cambios y las razones de ellos.

  • Orígenes de datos. Puede usar Azure Machine Learning para controlar la administración de orígenes de datos. Se recomienda este servicio de Azure para proyectos activos y especialmente grandes, ya que se integra con MLflow.

  • Diccionarios de datos. Este documento proporciona descripciones de los datos que proporciona el cliente. Estas descripciones incluyen información sobre el esquema (tipos de datos e información sobre las reglas de validación, si hay) y los diagramas de relación de entidades, si están disponibles. El equipo debe documentar parte o toda esta información.

Documentación revisada por expertos

Los investigadores publican estudios sobre el TDSP en la documentación revisada por expertos. Las citas proporcionan una oportunidad para investigar otras aplicaciones o ideas similares al TDSP, incluida la fase del ciclo de vida de descripción del negocio.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

En estos artículos se describen las demás fases del ciclo de vida del TDSP: