O estágio de compreensão de negócios do ciclo de vida do Processo de Ciência de Dados da Equipe

Este artigo descreve as metas, tarefas e resultados finais associados ao estágio de compreensão de negócios do Processo de Ciência de Dados da Equipe (TDSP). Esse processo fornece um ciclo de vida recomendado que sua equipe pode usar para estruturar seus projetos de ciência de dados. O ciclo de vida descreve os principais estágios que sua equipe executa, geralmente iterativamente:

  • Compreensão do negócio
  • Aquisição e compreensão de dados
  • Modelação
  • Implementação
  • Aceitação do cliente

Aqui está uma representação visual do ciclo de vida do TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Objetivos

Os objetivos da etapa de compreensão do negócio são:

  • Especifique as variáveis-chave que servem como destinos do modelo. E especificar as métricas das metas, que determinam o sucesso do projeto.

  • Identifique as fontes de dados relevantes às quais a empresa tem acesso ou precisa obter.

Como concluir as tarefas

A etapa de compreensão do negócio tem duas tarefas principais:

  • Defina objetivos: Trabalhe com seu cliente e outras partes interessadas para entender e identificar os problemas do negócio. Formule perguntas que definam os objetivos de negócios que as técnicas de ciência de dados podem atingir.

  • Identificar fontes de dados: encontre os dados relevantes que o ajudam a responder às perguntas que definem os objetivos do projeto.

Definir objetivos

  1. Um objetivo central desta etapa é identificar as principais variáveis de negócios que a análise precisa prever. Essas variáveis são chamadas de metas do modelo, e as métricas associadas a elas são usadas para determinar o sucesso do projeto. Por exemplo, um alvo pode ser uma previsão de vendas ou a probabilidade de um pedido ser fraudulento.

  2. Para definir os objetivos do projeto, faça e refine perguntas precisas que sejam relevantes, específicas e inequívocas. A ciência de dados é um processo que usa nomes e números para responder a essas perguntas. Normalmente, você usa ciência de dados ou aprendizado de máquina para responder a cinco tipos de perguntas:

    • Quanto ou quantos? (regressão)
    • Que categoria? (classificação)
    • Que grupo? (agrupamento)
    • Isso é incomum? (deteção de anomalias)
    • Que opção deve ser tomada? (recomendação)

    Determine quais dessas perguntas fazer e como respondê-las pode ajudar a alcançar suas metas de negócios.

  3. Para definir a equipe do projeto, especifique as funções e responsabilidades de seus membros. Desenvolva um plano de marcos de alto nível que você itere à medida que descobre mais informações.

  4. Você deve definir as métricas de sucesso. Por exemplo, você pode querer atender a uma previsão de rotatividade de clientes com uma taxa de precisão de x por cento até o final de um projeto de três meses. Com esses dados, você pode oferecer promoções aos clientes para reduzir a rotatividade. As métricas devem ser SMART:

    • Specific
    • Mfacilitável
    • Umchievable
    • Relevado
    • Time-ligado

Identificar as origens de dados

Identifique fontes de dados que contenham exemplos conhecidos de respostas às suas perguntas. Procure os seguintes dados:

  • Dados relevantes para a pergunta. Você tem medidas do alvo e características que estão relacionadas com o alvo?
  • Dados que são uma medida precisa do seu alvo de modelo e dos recursos de interesse.

Por exemplo, um sistema existente pode não ter os dados necessários para resolver um problema e atingir um objetivo do projeto. Nessa situação, talvez seja necessário encontrar fontes de dados externas ou atualizar seus sistemas para coletar novos dados.

Integração com MLflow

Para o estágio de compreensão de negócios, sua equipe não usa ferramentas MLflow, mas pode se beneficiar indiretamente da documentação e dos recursos de rastreamento de experimentos do MLflow. Esses recursos podem fornecer informações e contexto histórico para ajudar a alinhar o projeto com os objetivos de negócios.

Artefactos

Nesta etapa, sua equipe entrega:

  • Um documento de carta. O documento de carta é um documento vivo. Você atualiza o documento ao longo do projeto à medida que faz novas descobertas e os requisitos de negócios mudam. A chave é iterar neste documento. Adicione mais detalhes à medida que avança no processo de descoberta. Informar o cliente e outras partes interessadas sobre as alterações e as razões para as mesmas.

  • Origens de dados. Você pode usar o Aprendizado de Máquina do Azure para lidar com o gerenciamento da fonte de dados. Recomendamos este serviço do Azure para projetos ativos e especialmente grandes porque ele se integra ao MLflow.

  • Dicionários de dados. Este documento fornece descrições dos dados que o cliente fornece. Essas descrições incluem informações sobre o esquema (os tipos de dados e informações sobre as regras de validação, se houver) e os diagramas de relação entidade, se disponíveis. Sua equipe deve documentar algumas ou todas essas informações.

Literatura revista por pares

Os pesquisadores publicam estudos sobre o TDSP na literatura revisada por pares. As citações oferecem uma oportunidade para investigar outras aplicações ou ideias semelhantes ao TDSP, incluindo o estágio de ciclo de vida de compreensão de negócios.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Estes artigos descrevem os outros estágios do ciclo de vida do TDSP: