Estágio de modelagem do ciclo de vida do Processo de Ciência de Dados da Equipe

Este artigo descreve as metas, as tarefas e os resultados associados ao estágio de modelagem do TDSP (Processo de Ciência de Dados da Equipe). Esse processo fornece um ciclo de vida recomendado que a sua equipe pode usar para estruturar seus projetos de ciência de dados. O ciclo de vida descreve os principais estágios que sua equipe executa, geralmente de forma iterativa:

  • Noções básicas sobre negócios
  • Aquisição de dados e entendimento
  • Modelagem
  • Implantação
  • Aceitação do cliente

Esta é uma representação visual do ciclo de vida do TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Metas

Os objetivos da etapa de modelagem são:

  • Determinar os recursos de dados ideais para o modelo de aprendizado de máquina.

  • Criar um modelo de aprendizado de máquina informativo que preveja o destino da maneira mais precisa.

  • Criar um modelo de aprendizado de máquina adequado para a produção.

Como concluir as tarefas

A etapa de modelagem tem três tarefas principais:

  • Engenharia de recursos: crie recursos de dados dos dados brutos para facilitar o treinamento do modelo.

  • Treinamento do modelo: encontre o modelo que responde à pergunta com mais precisão, comparando as métricas de sucesso dos modelos.

  • Avaliação de modelos: determine se seu modelo é adequado para produção.

Engenharia de recursos

A engenharia de recursos envolve a inclusão, agregação e transformação de variáveis brutas para criar os recursos usados na análise. Se quiser informações sobre como um modelo é criado, você precisa estudar os recursos subjacentes do modelo.

Esta etapa requer uma combinação criativa de experiência de domínio e das ideias obtidas na etapa de exploração de dados. A engenharia de recursos é um equilíbrio entre encontrar e incluir variáveis informativas, mas, ao mesmo tempo, tentar evitar muitas variáveis não relacionadas. Variáveis informativas melhoram seu resultado. Variáveis não relacionadas introduzem ruído desnecessário no modelo. Você também precisa gerar esses recursos para os novos dados obtidos durante a pontuação. Como resultado, a geração desses recursos só pode depender dos dados disponíveis no momento da pontuação.

Treinamento do modelo

Existem muitos algoritmos de modelagem que você pode usar, dependendo do tipo de pergunta que você está tentando responder. Para obter orientação sobre como escolher um algoritmo pré-criado, consulte Folha de referências do algoritmo de Aprendizado de Máquina para o designer do Azure Machine Learning. Outros algoritmos estão disponíveis por meio de pacotes de código aberto em R ou Python. Embora este artigo use o Azure Machine Learning, as diretrizes fornecidas aqui são úteis para diversos projetos de aprendizado de máquina.

O processo de treinamento do modelo inclui as seguintes etapas:

  • Dividir os dados de entrada aleatoriamente para modelagem em um conjunto de dados de treinamento e um conjunto de dados de teste.

  • Crie os modelos usando o conjunto de dados de treinamento.

  • Avalie o conjunto de dados de treinamento e de teste. Use uma série de algoritmos de aprendizado de máquina concorrentes. Use vários parâmetros de ajuste associados (conhecidos como varreduras de parâmetros) que se concentram em responder à pergunta de interesse com os dados atuais.

  • Determine a melhor solução para responder à pergunta comparando a métrica de sucesso entre os métodos alternativos.

Para saber mais, consulte Treinar modelos com o Azure Machine Learning.

Observação

Evite o vazamento: você pode causar vazamento de dados se incluir dados de fora do conjunto de dados de treinamento que permite a um modelo ou ao algoritmo de aprendizado de máquina fazer previsões boas de forma irrealista. A perda é um motivo comum pelo qual os cientistas de dados ficam preocupados quando obtêm resultados preditivos que parecem bons demais para serem verdadeiros. Essas dependências podem ser difíceis de detectar. Para evitar vazamentos, geralmente é necessária a iteração entre a criação de um conjunto de dados de análise, a criação de um modelo e a avaliação da precisão dos resultados.

Avaliação de modelos

Depois de treinar o modelo, um cientista de dados da sua equipe se concentra na avaliação do modelo.

  • Faça uma determinação: avalie se o modelo executa o suficiente para produção. Algumas perguntas importantes a serem feitas são:

    • O modelo responde à pergunta com confiança suficiente, considerando os dados de teste?

    • Você deve experimentar abordagens alternativas?

    • Você deve coletar mais dados, realizar mais engenharia de recursos ou fazer experimentos com outros algoritmos?

  • Interprete o modelo: use o SDK do Python de aprendizado de máquina para executar as seguintes tarefas:

    • Explique o comportamento do modelo completo ou previsões individuais em seu computador pessoal de forma local.

    • Habilite técnicas de interpretabilidade para recursos de engenharia.

    • Explique o comportamento do modelo completo e de previsões individuais no Azure.

    • Faça upload de explicações no histórico de execuções do de aprendizado de máquina.

    • Use um painel de visualização para interagir com as explicações do modelo, tanto em um notebook do Jupyter quanto no Workspace do Machine Learning.

    • Implante um explicador de pontuação com seu modelo para observar explicações durante a inferência.

  • Avalie a imparcialidade: use o pacote Python de código aberto Fairlearn com o Azure Machine Learning para executar as seguintes tarefas:

    • Avaliar a imparcialidade de suas previsões de modelo. Esse processo ajudará sua equipe a saber mais sobre a imparcialidade no aprendizado de máquina.

    • Carregar, listar e baixar insights de avaliações de imparcialidade de e para o estúdio de aprendizado de máquina.

    • Veja um painel de avaliação de imparcialidade no Estúdio do Machine Learning para interagir com os insights de imparcialidade dos seus modelos.

Integração com o MLflow

O Machine Learning integra-se ao MLflow para dar suporte ao ciclo de vida da modelagem. Ele usa o rastreamento do MLflow para experimentos, implantação de projeto, gerenciamento de modelos e um registro de modelo. Essa integração garante um fluxo de trabalho de aprendizado de máquina contínuo e eficiente. Os seguintes recursos do Machine Learning ajudam a dar suporte a esse elemento do ciclo de vida da modelagem:

  • Rastrear experimentos: a funcionalidade principal do MLflow é amplamente usada no estágio de modelagem para rastrear vários experimentos, parâmetros, métricas e artefatos.

  • Implantar projetos: o empacotamento de código com MLflow Projects garante execuções consistentes e fácil compartilhamento entre os membros da equipe, o que é essencial durante o desenvolvimento de modelos iterativos.

  • Gerenciar modelos: o gerenciamento e o controle de versão de modelos é fundamental nesta fase, pois diferentes modelos são criados, avaliados e refinados.

  • Registre modelos: o registro de modelo é usado para controle de versão e gerenciamento de modelos durante todo o seu ciclo de vida.

Literatura revisada por pares

Os pesquisadores publicam estudos sobre o TDSP em literatura revisada por pares. As citações fornecem uma oportunidade para investigar outras aplicações ou ideias semelhantes ao TDSP, incluindo o estágio do ciclo de vida da modelagem.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Estes artigos descrevem os outros estágios do ciclo de vida do TDSP: