Tutorial: Treinar um modelo de classificação com AutoML sem código no Estúdio do Azure Machine Learning

Saiba como treinar um modelo de classificação com AutoML sem código usando ML automatizada do Azure Machine Learning no Estúdio do Azure Machine Learning. Este modelo de classificação prevê se um cliente assinará um depósito a prazo fixo com uma instituição financeira.

Com o ML automatizado, você pode automatizar tarefas intensivas e demoradas. O aprendizado de máquina automatizado itera rapidamente em muitas combinações de algoritmos e hiperparâmetros para ajudar você a encontrar o melhor modelo com base em uma métrica de sucesso de sua escolha.

Você não escreverá código neste tutorial e usará a interface do estúdio para realizar o treinamento. Você aprenderá a realizar as seguintes tarefas:

  • Criar um Workspace de Azure Machine Learning.
  • Executar um experimento de aprendizado de máquina automatizado.
  • Explore os detalhes do modelo.
  • Implante o modelo recomendado.

Além disso, experimente o machine learning automatizado para estes outros tipos de modelo:

Pré-requisitos

  • Uma assinatura do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita.

  • Baixe o arquivo de dados bankmarketing_train.csv. A coluna y indica se um cliente assinou um depósito a prazo fixo, que é posteriormente identificado como a coluna de destino para as previsões neste tutorial.

Criar um workspace

Um Workspace do Azure Machine Learning é o recurso fundamental na nuvem que você usa para experimentar, treinar e implantar modelos de machine learning. Ele vincula sua assinatura do Azure e o grupo de recursos a um objeto facilmente consumido no serviço.

Neste tutorial, conclua as etapas a seguir para criar um espaço de trabalho e continuar o tutorial.

  1. Entre no Estúdio do Azure Machine Learning

  2. Selecione Criar workspace

  3. Forneça as informações a seguir para configurar o novo workspace:

Campo Descrição
Nome do workspace Insira um nome único que identifique seu workspace. Os nomes devem ser únicos em todo o grupo de recursos. Use um nome que seja fácil de lembrar e diferenciar de workspaces criados por outras pessoas. O nome do workspace não diferencia maiúsculas de minúsculas.
Subscription Selecione a assinatura do Azure que você deseja usar.
Resource group Use um grupo de recursos existente na sua assinatura ou insira um nome para criar um grupo de recursos. Um grupo de recursos mantém os recursos relacionados a uma solução do Azure. Você precisa de um colaborador ou da função de proprietário para usar um grupo de recursos existente. Para obter mais informações sobre o acesso, consulte Gerenciar acesso a um workspace do Azure Machine Learning.
Região Selecione a região do Azure mais próxima aos usuários e recursos de dados para criar o workspace.
  1. Selecione Criar para criar o workspace

Para obter mais informações sobre os recursos do Azure, consulte as etapas neste artigo, Crie os recursos necessários para começar.

Para outras formas de criar um espaço de trabalho no Azure, Gerencie os espaços de trabalho do Azure Machine Learning no portal ou com o Python SDK (v2).

Criar um trabalho de Azure Machine Learning automatizado

Você concluiu a configuração do teste a seguir e executou as etapas usando o Estúdio do Azure Machine Learning em https://ml.azure.com, uma interface da Web consolidada que inclui ferramentas de machine learning para executar cenários de ciência de dados para praticantes dessa área com todos os níveis de habilidade. O estúdio não é compatível com navegadores Internet Explorer.

  1. Selecione a assinatura e o workspace criado.

  2. No painel esquerdo, selecione ML Automatizado na seção Criação.

    Como este é seu primeiro experimento de ML automatizado, você verá uma lista vazia e links para a documentação.

    Get started page

  3. Selecione + Novo trabalho de ML automatizado.

Crie e carregue um conjunto de dados como um ativo de dados

Antes de configurar seu experimento, carregue seu arquivo de dados em seu espaço de trabalho na forma de um ativo de dados do Azure Machine Learning. No caso deste tutorial, você pode pensar em um ativo de dados como seu conjunto de dados para o trabalho do AutoML. Essa ação permite que você garanta que os dados estejam formatados corretamente para o experimento.

  1. Crie um novo ativo de dados selecionando Dos arquivos locais no menu suspenso +Criar ativo de dados.

    1. No formulário Informações Básicas, dê um nome ao ativo de dados e forneça uma descrição opcional. No momento, a interface de ML automatizado só dá suporte a TabularDatasets; portanto, o padrão do tipo de conjunto de dados deve ser Tabular.

    2. Selecione Avançar na parte inferior esquerda

    3. No formulário Seleção de armazenamento de dados e de arquivo, selecione o armazenamento de dados padrão que foi configurado automaticamente durante a criação do workspace, workspaceblobstore (Armazenamento de Blobs do Azure) . É nele que você carregará seu arquivo de dados para disponibilizá-lo ao workspace.

    4. Selecione Carregar arquivos no menu suspenso Carregar.

    5. Escolha o arquivo bankmarketing_train.csv no computador local. Esse é o arquivo que você baixou como pré-requisito.

    6. Selecione Avançar no canto inferior esquerdo para fazer upload dele no contêiner padrão que foi configurado automaticamente durante a criação do workspace.

      Após a conclusão do upload, o formulário Configurações e visualização será preenchido automaticamente com base no tipo de arquivo.

    7. Verifique se seus dados estão devidamente formatados através do formulário Esquema. Os dados devem ser preenchidos da seguinte forma. Depois de verificar se os dados estão corretos, selecione Avançar.

      Campo Descrição Valor para o tutorial
      Formato de arquivo Define o layout e o tipo de dados armazenados em um arquivo. Delimitado
      Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados. Vírgula
      Codificação Identifica qual tabela de esquema de bit para caractere usar para ler seu conjunto de dados. UTF-8
      Cabeçalhos da coluna Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados. Todos os arquivos têm os mesmos cabeçalhos
      Ignorar linhas Indica quantas linhas, se houver, serão ignoradas no conjunto de registros. Nenhum
    8. O formulário Esquema permite configurar ainda mais os dados do experimento. Neste exemplo, selecione o botão de alternância day_of_week para que ele não seja incluído. Selecione Avançar. Schema form

    9. No formulário Confirmar detalhes, verifique se as informações correspondem ao que já foi populado nos formulários Informações básicas, Seleção de armazenamento de dados e arquivo e Configurações e visualização.

    10. Selecione Criar para concluir a criação do conjunto de dados.

    11. Selecione seu conjunto de dados quando ele aparecer na lista.

    12. Revise os dados selecionando o ativo de dados e observando a guia visualizar que preenche para garantir que você não incluiu dia_da_semana e selecione Fechar.

    13. Selecione Avançar.

Configurar trabalho

Depois de carregar e configurar seus dados, você poderá configurar seu experimento. Essa configuração inclui tarefas de design de experimento, como selecionar o tamanho do seu ambiente de computação e especificar qual coluna você deseja prever.

  1. Selecione o botão de opção Criar.

  2. Preencha o formulário Configurar Trabalho da seguinte maneira:

    1. Insira este nome de experimento: my-1st-automl-experiment

    2. Selecione y como a coluna de destino, o que você quer prever. Essa coluna indica se o cliente assinou um depósito a prazo ou não.

    3. Selecione cluster de computação como seu tipo de computação.

    4. Um destino de computação é um ambiente de recursos local ou baseado em nuvem usado para executar o script de treinamento ou hospedar a implantação do serviço. Para este experimento, você pode experimentar uma computação sem servidor baseada em nuvem (versão prévia) ou criar sua própria computação baseada em nuvem.

      1. Para usar a computação sem servidor, habilite a versão prévia do recurso, selecione Sem servidor e ignore o restante da etapa.
      2. Para criar seu próprio destino de computação, selecione +Novo para configurar seu destino de computação.
        1. Preencha o formulário Selecionar máquina virtual para configurar sua computação.

          Campo Descrição Valor para o tutorial
          Location A região da qual você gostaria de executar o computador Oeste dos EUA 2
          Tipo de máquina virtual Selecione a prioridade que o experimento deve ter Dedicado
          Tipo de máquina virtual Selecione o tipo da máquina virtual da computação. CPU (Unidade de Processamento Central)
          Tamanho da máquina virtual Selecione o tamanho da máquina virtual da computação. É fornecida uma lista de tamanhos recomendados com base em seus dados e no tipo de experimento. Standard_DS12_V2
        2. Selecione Avançar para preencher o Formulário Definir configurações.

          Campo Descrição Valor para o tutorial
          Nome da computação Um nome exclusivo que identifique o contexto de computação. automl-compute
          Mín./máx. de nós Para analisar os dados, é necessário especificar um ou mais nós. Número mín. de nós: 1
          Número máx. de nós: 6
          Segundos de espera antes de reduzir verticalmente Tempo de espera antes que o cluster seja reduzido verticalmente automaticamente para a contagem mínima de nós. 120 (padrão)
          Configurações avançadas Definições para configurar e autorizar uma rede virtual para seu experimento. Nenhum
        3. Selecione Criar para criar o destino de computação.

          Isso levará alguns minutos para ser concluído.

          Settings page

        4. Após a criação, selecione o novo destino de computação na lista suspensa.

    5. Selecione Avançar.

  3. No formulário Selecionar tarefas e configurações, conclua a configuração do experimento de ML automatizado especificando o tipo de tarefa de aprendizado de máquina e as definições de configuração.

    1. Selecione Classificação como o tipo de tarefa de machine learning.

    2. Selecione Exibir definições de configuração adicionais e preencha os campos da seguinte maneira. Essas configurações destinam-se a controlar melhor o trabalho de treinamento. Caso contrário, os padrões são aplicados com base na seleção e nos dados de experimento.

      Configurações adicionais Descrição Valor para o tutorial
      Métrica principal Métrica de avaliação pela qual o algoritmo de aprendizado de máquina será medido. AUC_weighted
      Explicar o melhor modelo Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado. Habilitar
      Algoritmos bloqueados Algoritmos que você deseja excluir do trabalho de treinamento Nenhum
      Configurações adicionais de classificação Essas configurações ajudam a aprimorar a precisão do modelo Rótulo de classe positiva: nenhum
      Critério de saída Se um critério for atendido, o trabalho de treinamento será interrompido. Tempo do trabalho de treinamento (horas): 1
      Limite de pontuação da métrica: nenhum
      Simultaneidade O número máximo de iterações paralelas executadas por iteração Máximo de iterações simultâneas: 5

      Selecione Salvar.

    3. Selecione Avançar.

  4. No formulário [Opcional] Validar e testar,

    1. Selecione a validação cruzada k-fold como seu Tipo de validação.
    2. Selecione 2 como Número de validações cruzadas.
  5. Selecione Concluir para executar o experimento. A tela Detalhes do Trabalho é aberta com o Status do trabalho na parte superior à medida que a preparação do experimento é iniciada. Esse status é atualizado conforme o progresso do experimento. Também aparecem notificações no canto superior direito do estúdio para informar você sobre o status do experimento.

Importante

A preparação leva de 10 a 15 minutos para preparar a execução do experimento. Durante a execução, são necessários mais 2 a 3 minutos para cada iteração.

Em produção, provavelmente, isso demorará mais. Mas para este tutorial, sugerimos que você comece a explorar os algoritmos testados na guia Modelos conforme eles são concluídos, enquanto os outros ainda estão em execução.

Explorar modelos

Navegue até a guia Modelos para ver os algoritmos (modelos) testados. Por padrão, os modelos são ordenados pela pontuação da métrica à medida que são concluídos. Por este tutorial, o modelo com a pontuação mais alta de acordo com a métrica AUC_weighted escolhida é exibida no início da lista.

Enquanto você aguarda a conclusão de todos os modelos de experimento, selecione o Nome do algoritmo de um modelo concluído para explorar seus detalhes de desempenho.

O exemplo a seguir navega pelas guias Detalhes e Métricas para exibir as propriedades, as métricas e os gráficos de desempenho do modelo selecionado.

Run iteration detail

Explicações de modelo

Enquanto aguarda a conclusão dos modelos, você também pode dar uma olhada nas explicações de modelo e ver quais recursos de dados (brutos ou com engenharia) influenciaram as previsões de um modelo específico.

Essas explicações de modelo podem ser geradas sob demanda e estão resumidas no painel de explicações do modelo que faz parte da guia Explicações (versão prévia).

Para gerar explicações de modelo:

  1. Selecione Trabalho 1 na parte superior para voltar para a tela Modelos.

  2. Selecione a guia Modelo.

  3. Para esse tutorial, selecione o primeiro modelo MaxAbsScaler, LightGBM.

  4. Selecione o botão Explicar modelo na parte superior. À direita, o painel Explicar modelo é exibido.

  5. Selecione o automl-compute que você criou anteriormente. Esse cluster de cálculo inicia um trabalho filho para gerar as explicações de modelo.

  6. Selecione Criar na parte inferior. Uma mensagem de êxito em verde é exibida na parte superior da tela.

    Observação

    O trabalho de explicação leva cerca de 2 a 5 minutos para ser concluído.

  7. Selecione o botão Explicações (versão prévia) . Essa guia será preenchida assim que a execução da explicação for concluída.

  8. No lado esquerdo, expanda o painel e selecione a linha que diz bruto em Recursos.

  9. Selecione a guia Importância do recurso agregado à direita. Esse gráfico mostra quais recursos de dados influenciaram as previsões do modelo selecionado.

    Nesse exemplo, a duração parece ter mais influência sobre as previsões desse modelo.

    Model explanation dashboard

Implantar o melhor modelo

A interface de machine learning automatizado permite que você implante o melhor modelo como um serviço Web em algumas etapas. A implantação é a integração do modelo para que ele possa prever novos dados e identificar possíveis áreas de oportunidade.

Para este experimento, a implantação em um serviço Web significa que a instituição financeira agora tem uma solução Web iterativa e escalonável para identificar clientes potenciais para depósito a prazo fixo.

Verifique se a execução experimental foi concluída. Para fazer isso, volte para a página do trabalho pai selecionando Trabalho 1 na parte superior da sua tela. Um status Concluído é mostrado na parte superior esquerda da tela.

Quando a execução experimental for concluída, a página Detalhes será populada com uma seção Resumo do melhor modelo. Nesse contexto de experimento, VotingEnsemble é considerado o melhor modelo, com base na métrica AUC_weighted.

Implantamos esse modelo, mas saiba que a implantação demora cerca de 20 minutos para ser concluída. O processo de implantação envolve várias etapas, incluindo o registro do modelo, a geração de recursos e a configuração deles para o serviço Web.

  1. Selecione VotingEnsemble para abrir a página específica do modelo.

  2. Selecione o menu Implantar no canto superior esquerdo e selecione Implantar no serviço Web.

  3. Preencha o painel Implantar um Modelo da seguinte maneira:

    Campo Valor
    Nome da implantação my-automl-deploy
    Descrição da implantação Minha primeira implantação de experimento de aprendizado de máquina automatizado
    Tipo de computação Selecionar ACI (Instância de Contêiner do Azure)
    Habilitar autenticação Desabilite.
    Usar implantações personalizadas Desabilite. Permite que o arquivo de driver padrão (script de pontuação) e o arquivo de ambiente sejam gerados automaticamente.

    Para este exemplo, usamos os padrões fornecidos no menu Avançado.

  4. Selecione Implantar.

    Uma mensagem de sucesso verde aparece na parte superior da tela Trabalho e, no painel Resumo de modelo, uma mensagem de status é exibida em Status de implantação. Selecione Atualizar periodicamente para verificar o status da implantação.

Agora você tem um serviço Web operacional para gerar previsões.

Vá para as Próximas Etapas para saber mais sobre como consumir seu novo serviço Web e testar as previsões usando o suporte interno do Power BI ao Azure Machine Learning.

Limpar os recursos

Os arquivos de implantação são maiores que os dados e os arquivos de teste, portanto, eles custam mais para serem armazenados. Exclua somente os arquivos de implantação para minimizar os custos de sua conta ou se você quiser manter o workspace e os arquivos do experimento. Caso contrário, se você não planeja usar nenhum dos arquivos, exclua o grupo de recursos inteiro.

Excluir a instância de implantação

Exclua apenas a instância de implantação do Azure Machine Learning em https://ml.azure.com/ se desejar manter o grupo de recursos e o workspace para outros tutoriais e explorações.

  1. Acesse Azure Machine Learning. Navegue até o workspace e, no lado esquerdo, no painel Ativos, selecione Pontos de extremidade.

  2. Selecione a implantação que você deseja excluir e selecione Excluir.

  3. Selecione Continuar.

Exclua o grupo de recursos

Importante

Os recursos que você criou podem ser usados como pré-requisitos em outros tutoriais e artigos de instruções do Azure Machine Learning.

Se você não pretende usar nenhum dos recursos criados, exclua-os para não gerar custos:

  1. No portal do Azure, selecione Grupos de recursos no canto esquerdo.

  2. Selecione o grupo de recursos que você criou por meio da lista.

  3. Selecione Excluir grupo de recursos.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. Insira o nome do grupo de recursos. Em seguida, selecione Excluir.

Próximas etapas

Neste tutorial de machine learning automatizado, você usou a interface de ML automatizado do Azure Machine Learning para criar e implantar um modelo de classificação. Confira estes artigos para obter mais informações e ver as próximas etapas:

Observação

Esse conjunto de dados de marketing bancário é disponibilizado sob a licença Creative Commons (CCO: Domínio Público). Todos os direitos no conteúdo individual do banco de dados são licenciados sob a Licença de Conteúdo do Banco de Dados e estão disponíveis no Kaggle. Esse conjunto de dados estava originalmente disponível no banco de dados de aprendizado de máquina da UCI.

[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. Uma abordagem controlada por dados para prever o sucesso do telemarketing bancário. Sistemas de suporte a decisões, Elsevier, 62:22-31, junho de 2014.