Tutorial 1: Prever risco de crédito - Estúdio de Machine Learning (clássico)

APLICA A:Esta é uma marca de verificação, o que significa que este artigo se aplica ao Machine Learning Studio (clássico). Machine Learning Studio (clássico) Este é um X, o que significa que este artigo não se aplica ao Azure Machine Learning.Aprendizagem de Máquinas Azure

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Neste tutorial, você dá uma olhada alargada no processo de desenvolvimento de uma solução de análise preditiva. Desenvolve-se um modelo simples no Machine Learning Studio (clássico). Em seguida, implementa o modelo como um serviço web machine learning. Este modelo implementado pode fazer previsões usando novos dados. Este tutorial é parte um de uma série tutorial em três partes.

Suponhamos que precisa de prever o risco de crédito de um indivíduo com base nas informações fornecidas sobre uma aplicação de crédito.

A avaliação do risco de crédito é um problema complexo, mas este tutorial irá simplificar um pouco. Você vai usá-lo como um exemplo de como você pode criar uma solução de análise preditiva usando Machine Learning Studio (clássico). Você usará um Machine Learning Studio (clássico) e um serviço web machine learning para esta solução.

Neste tutorial em três partes, começa-se com dados de risco de crédito disponíveis ao público. Depois desenvolve-se e treina-se um modelo preditivo. Finalmente, implementa o modelo como um serviço web.

Nesta parte do tutorial:

  • Criar um espaço de trabalho machine learning studio (clássico)
  • Carregar os dados existentes
  • Criar uma experimentação

Em seguida, pode utilizar esta experiência para treinar modelos na parte 2 e depois implantá-los na parte 3.

Pré-requisitos

Este tutorial pressupõe que já usou o Machine Learning Studio (clássico) pelo menos uma vez, e que tem alguma compreensão dos conceitos de machine learning. Porém, não parte do princípio de que é um especialista.

Se nunca usou o Machine Learning Studio (clássico) antes, talvez queira começar com o quickstart, Crie a sua primeira experiência de ciência de dados no Machine Learning Studio (clássico). O quickstart leva-o pela primeira vez ao Machine Learning Studio (clássico). Mostra-lhe as noções básicas de como arrastar e largar módulos na experimentação, ligá-los entre si, executar a experimentação e analisar os resultados.

Dica

Você pode encontrar uma cópia de trabalho da experiência que você desenvolve neste tutorial na Galeria Azure AI. Vá ao Tutorial - Preveja o risco de crédito e clique em Open in Studio para descarregar uma cópia da experiência no seu espaço de trabalho Machine Learning Studio (clássico).

Criar um espaço de trabalho machine learning studio (clássico)

Para utilizar o Machine Learning Studio (clássico), precisa de ter um espaço de trabalho do Machine Learning Studio (clássico). Esta área de trabalho contém as ferramentas de que precisa para criar, gerir e publicar experimentações.

Para criar um espaço de trabalho, consulte Criar e partilhar um espaço de trabalho machine learning Studio (clássico).

Após a criação do seu espaço de trabalho, open Machine Learning Studio (clássico) (https://studio.azureml.net/Homeclássico). Se tiver mais de um espaço de trabalho, pode selecionar o espaço de trabalho na barra de ferramentas no canto superior direito da janela.

Selecione espaço de trabalho em Studio (clássico)

Dica

Se você é dono do espaço de trabalho, você pode compartilhar as experiências em que você está trabalhando convidando outros para o espaço de trabalho. Pode fazê-lo no Machine Learning Studio (clássico) na página DEFINIÇÕES . Só precisa da conta microsoft ou da conta organizacional para cada utilizador.

Na página DEFINIÇÕES , clique em UTILIZADORES e clique em CONVIDAR MAIS UTILIZADORES na parte inferior da janela.

Carregar os dados existentes

Para desenvolver um modelo preditivo para o risco de crédito, precisa de dados que pode usar para treinar e depois testar o modelo. Para este tutorial, utilizará o "Conjunto de Dados de Statlog (Dados de Crédito Alemão) da UC Irvine Machine Learning. Pode encontrá-lo aqui:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

Vai usar o ficheiro chamado german.data. Descarregue este ficheiro para o seu disco rígido local.

O conjunto de dados german.data contém linhas de 20 variáveis para 1000 candidatos anteriores para crédito. Estas 20 variáveis representam o conjunto de funcionalidades do conjunto de dados (o vetor de recurso), que fornece características de identificação para cada candidato a crédito. Uma coluna adicional em cada linha representa o risco calculado de crédito do requerente, com 700 candidatos identificados como um baixo risco de crédito e 300 como um risco elevado.

O site da UCI fornece uma descrição dos atributos do vetor de recurso para estes dados. Estes dados incluem informação financeira, histórico de crédito, estado do emprego e informações pessoais. Para cada candidato, foi dada uma notação binária que indica se se trata de um risco de crédito baixo ou elevado.

Usará estes dados para treinar um modelo de análise preditiva. Quando terminar, o seu modelo deve ser capaz de aceitar um vetor de recurso para um novo indivíduo e prever se eles são um risco de crédito baixo ou alto.

Aqui está uma reviravolta interessante.

A descrição do conjunto de dados no site da UCI menciona o custo se classificar mal o risco de crédito de uma pessoa. Se o modelo prevê um alto risco de crédito para alguém que é na verdade um baixo risco de crédito, o modelo fez uma classificação errada.

Mas a classificação inversa é cinco vezes mais dispendiosa para a instituição financeira: se o modelo prevê um baixo risco de crédito para alguém que é, na verdade, um risco elevado de crédito.

Então, você quer treinar o seu modelo para que o custo deste último tipo de classificação é cinco vezes maior do que classificar mal o contrário.

Uma forma simples de o fazer quando treina o modelo na sua experiência é duplicando (cinco vezes) as entradas que representam alguém com um alto risco de crédito.

Então, se o modelo classifica mal alguém como um baixo risco de crédito quando na verdade é um risco elevado, o modelo faz a mesma classificação errada cinco vezes, uma vez por cada duplicado. Isto aumentará o custo deste erro nos resultados da formação.

Converter o formato do conjunto de dados

O conjunto de dados original utiliza um formato separado em branco. O Machine Learning Studio (clássico) funciona melhor com um ficheiro de valor separado em vírgula (CSV), para que converta o conjunto de dados substituindo espaços por vírgulas.

Há muitas formas de converter estes dados. Uma das formas é utilizar o seguinte comando Windows PowerShell:

cat german.data | %{$_ -replace " ",","} | sc german.csv  

Outra forma é usar o comando unix sed:

sed 's/ /,/g' german.data > german.csv

Em qualquer dos casos, criou uma versão separada em vírgula dos dados num ficheiro chamado german.csv que pode utilizar na sua experiência.

Faça o upload do conjunto de dados para o Machine Learning Studio (clássico)

Uma vez que os dados foram convertidos para formato CSV, você precisa carregá-lo para o Machine Learning Studio (clássico).

  1. Abra a página inicial do Machine Learning Studio (clássico) (https://studio.azureml.net).

  2. Clique no menu Este é o ícone do menu - três linhas empilhadas.

  3. Clique em +NEW na parte inferior da janela.

  4. Selecione DATASET.

  5. Selecione A PARTIR DE ARQUIVO LOCAL.

    Adicione um conjunto de dados de um ficheiro local

  6. No Upload um novo diálogo do conjunto de dados , clique em Procurar e encontre o german.csv ficheiro que criou.

  7. Introduza um nome para o conjunto de dados. Para este tutorial, chame-lhe "Dados do Cartão de Crédito Alemão da UCI".

  8. Para o tipo de dados, selecione Ficheiro Genérico CSV sem cabeçalho (.nh.csv).

  9. Adicione uma descrição, se quiser.

  10. Clique na marca de verificação OK .

    Faça o upload do conjunto de dados

Isto envia os dados para um módulo de conjunto de dados que pode usar numa experiência.

Pode gerir conjuntos de dados que fez o upload para o Studio (clássico) clicando no separador DATASETS à esquerda da janela Studio (clássico).

Gerir conjuntos de dados

Para obter mais informações sobre a importação de outros tipos de dados numa experiência, consulte Importe os seus dados de formação no Machine Learning Studio (clássico).

Criar uma experimentação

O próximo passo neste tutorial é criar uma experiência no Machine Learning Studio (clássico) que usa o conjunto de dados que carregou.

  1. Em Studio (clássico), clique em +NEW na parte inferior da janela.

  2. Selecione EXPERIMENT e, em seguida, selecione "Blank Experiment".

    Criar uma nova experimentação

  3. Selecione o nome da experiência padrão no topo da tela e mude o nome para algo significativo.

    Experiência de renome

    Dica

    É uma boa prática preencher resumo edescrição para a experiência no painel de propriedades . Estas propriedades dão-lhe a oportunidade de documentar a experiência para que quem a vir mais tarde compreenda os seus objetivos e metodologia.

    Propriedades experimentais

  4. Na paleta de módulos à esquerda da tela de experimentação, expanda os Conjuntos de Dados Guardados.

  5. Encontre o conjunto de dados que criou nos meus conjuntos de dados e arraste-o para a tela. Também pode encontrar o conjunto de dados introduzindo o nome na caixa de Pesquisa acima da paleta.

    Adicione o conjunto de dados à experiência

Preparar os dados

Pode ver as primeiras 100 linhas dos dados e algumas informações estatísticas para todo o conjunto de dados: Clique na porta de saída do conjunto de dados (o pequeno círculo na parte inferior) e selecione Visualize.

Como o ficheiro de dados não veio com títulos de coluna, o Studio (clássico) forneceu títulos genéricos (Col1, Col2, etc.). Os bons títulos não são essenciais para a criação de um modelo, mas facilitam o trabalho com os dados da experiência. Além disso, quando eventualmente publica este modelo num serviço web, os títulos ajudam a identificar as colunas ao utilizador do serviço.

Pode adicionar títulos de coluna utilizando o módulo editar metadados .

Utiliza o módulo Editar Metadados para alterar metadados associados a um conjunto de dados. Neste caso, utilize-o para fornecer nomes mais amigáveis para títulos de colunas.

Para utilizar metadados de edição, primeiro especifica quais as colunas a modificar (neste caso, todas elas.) Em seguida, especifica a ação a realizar nessas colunas (neste caso, alterando as posições das colunas.)

  1. Na paleta de módulos, escreva "metadados" na caixa de pesquisa . Os Metadados de Edição aparecem na lista de módulos.

  2. Clique e arraste o módulo de Metadados editar para a tela e deixe-o abaixo do conjunto de dados que adicionou anteriormente.

  3. Ligue o conjunto de dados aos Metadados de Edição: clique na porta de saída do conjunto de dados (o pequeno círculo na parte inferior do conjunto de dados), arraste para a porta de entrada dos Metadados de Edição (o pequeno círculo na parte superior do módulo) e, em seguida, liberte o botão do rato. O conjunto de dados e o módulo permanecem ligados mesmo que se mova na tela.

    A experiência deve agora ser mais ou menos assim:

    Adicionar Metadados de Edição

    A marca de exclamação vermelha indica que ainda não definiu as propriedades para este módulo. Fará isto a seguir.

    Dica

    Pode adicionar um comentário a um módulo, fazendo duplo clique no módulo e introduzindo o texto. Isto pode ajudá-lo a ver rapidamente o que o módulo está a fazer na sua experimentação. Neste caso, clique duas vezes no módulo editar metadados e digite o comentário "Adicionar títulos de coluna". Clique em qualquer outro lugar na tela para fechar a caixa de texto. Para visualizar o comentário, clique na seta para baixo no módulo.

    Editar módulo de metadados com comentário adicionado

  4. Selecione Editar Metadados e, no painel propriedades à direita da tela, clique no seletor de colunas de Lançamento.

  5. No diálogo de colunas Select , selecione todas as linhas em Colunas Disponíveis e clique > para movê-las para Colunas Selecionadas. O diálogo deve ser assim:

    Seletor de colunas com todas as colunas selecionadas

  6. Clique na marca de verificação OK .

  7. De volta ao painel de propriedades , procure o parâmetro dos nomes da nova coluna . Neste campo, introduza uma lista de nomes para as 21 colunas no conjunto de dados, separadas por vírgulas e por ordem de coluna. Pode obter os nomes das colunas a partir da documentação do conjunto de dados no site da UCI, ou para conveniência pode copiar e colar a seguinte lista:

    Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
    

    O painel de propriedades é assim:

    Propriedades para Editar Metadados

    Dica

    Se pretender verificar as posições da coluna, faça a experiência (clique em RUN abaixo da tela de experiência). Quando terminar de correr (aparece uma marca de verificação verde no Editar Metadados), clique na porta de saída do módulo Editar Metadados e selecione Visualize. Pode ver a saída de qualquer módulo da mesma forma para ver o progresso dos dados através da experiência.

Criar conjuntos de dados de treino e teste

Precisa de alguns dados para treinar o modelo e alguns para testá-lo. Assim, no próximo passo da experiência, dividiu o conjunto de dados em dois conjuntos de dados separados: um para treinar o nosso modelo e outro para testá-lo.

Para isso, utilize o módulo De Dados Divididos .

  1. Encontre o módulo dados divididos , arraste-o para a tela e conecte-o ao módulo de metadados de edição .

  2. Por predefinição, a relação de divisão é de 0,5 e o parâmetro de divisão aleatório é definido. Isto significa que uma metade aleatória dos dados é a saída através de uma porta do módulo de Dados Divididos , e metade através da outra. Pode ajustar estes parâmetros, bem como o parâmetro de sementes aleatórias , para alterar a divisão entre os dados de treino e teste. Por exemplo, deixa-los como está.

    Dica

    A fração de linhas de propriedade no primeiro conjunto de dados de saída determina a quantidade de dados que é a saída através da porta de saída esquerda . Por exemplo, se definir o rácio para 0,7, então 70% dos dados são de saída através da porta esquerda e 30% através da porta direita.

  3. Clique duas vezes no módulo Dados Divididos e introduza o comentário: "Dados de treino/teste dividem 50%".

Pode utilizar as saídas do módulo De Dados Divididos como quiser, mas vamos escolher usar a saída esquerda como dados de treino e a saída certa como dados de teste.

Tal como referido na etapa anterior, o custo de classificação errada de um risco de crédito elevado, uma vez que é baixo, é cinco vezes superior ao custo de classificação errada de um baixo risco de crédito tão elevado. Para responder a isto, gera um novo conjunto de dados que reflete esta função de custo. No novo conjunto de dados, cada exemplo de alto risco é replicado cinco vezes, enquanto cada exemplo de baixo risco não é replicado.

Pode fazer esta replicação utilizando o código R:

  1. Encontre e arraste o módulo executo R script para a tela de experiência.

  2. Ligue a porta de saída esquerda do módulo De dados divididos à primeira porta de entrada ("Dataset1") do módulo Executo R Script .

  3. Clique duas vezes no módulo 'Executar R Script' e introduza o comentário: "Ajuste o custo".

  4. No painel Propriedades , elimine o texto predefinido no parâmetro R Script e introduza este script:

    dataset1 <- maml.mapInputPort(1)
    data.set<-dataset1[dataset1[,21]==1,]
    pos<-dataset1[dataset1[,21]==2,]
    for (i in 1:5) data.set<-rbind(data.set,pos)
    maml.mapOutputPort("data.set")
    

    Script R no módulo executo R Script

É necessário fazer esta mesma operação de replicação para cada saída do módulo De Dados Divididos para que os dados de treino e teste tenham o mesmo ajustamento de custos. A forma mais fácil de o fazer é duplicando o módulo Execut R Script que acabou de fazer e ligando-o à outra porta de saída do módulo De dados divididos .

  1. Clique com o botão direito no módulo 'Executar R Script' e selecione Copy.

  2. Clique com o botão direito na tela da experiência e selecione Pasta.

  3. Arraste o novo módulo para a posição e, em seguida, ligue a porta de saída certa do módulo Dados Divididos à primeira porta de entrada deste novo módulo execute R Script .

  4. Na parte inferior da tela, clique em Executar.

Dica

A cópia do módulo executo R Script contém o mesmo script que o módulo original. Ao copiar e colar um módulo na tela, a cópia conserva todas as propriedades do original.

A nossa experiência agora é mais ou menos assim:

Adicionar módulo split e scripts R

Para obter mais informações sobre a utilização de scripts R nas suas experiências, consulte Extend your experiment with R.

Limpar os recursos

Se já não necessitar dos recursos criados utilizando este artigo, elimine-os para evitar incorrer em quaisquer encargos. Saiba como no artigo, Exporte e elimine os dados do utilizador no produto.

Passos seguintes

Neste tutorial completou estes passos:

  • Criar um espaço de trabalho machine learning studio (clássico)
  • Faça o upload dos dados existentes para o espaço de trabalho
  • Criar uma experimentação

Está agora pronto para treinar e avaliar modelos para estes dados.