Tutorial 1: Prever risco de crédito – Azure Machine Learning StudioTutorial 1: Predict credit risk - Azure Machine Learning Studio

Neste tutorial, você analisará de maneira aprofundada o processo de desenvolvimento de uma solução de análise preditiva.In this tutorial, you take an extended look at the process of developing a predictive analytics solution. Você desenvolverá um modelo simples no Machine Learning Studio.You develop a simple model in Machine Learning Studio. Em seguida, você implantará o modelo como um serviço Web do Azure Machine Learning.You then deploy the model as an Azure Machine Learning web service. Esse modelo implantado pode fazer previsões usando novos dados.This deployed model can make predictions using new data. Este tutorial é a primeira parte de uma série com três partes.This tutorial is part one of a three-part tutorial series.

Suponha que você precisa prever o risco de crédito de uma pessoa com base nas informações dadas em um aplicativo de crédito.Suppose you need to predict an individual's credit risk based on the information they gave on a credit application.

A avaliação de risco de crédito é um problema complexo, mas este tutorial simplificará um pouco esse tópico.Credit risk assessment is a complex problem, but this tutorial will simplify it a bit. Você usará isso como exemplo de como criar uma solução de análise preditiva usando o Microsoft Azure Machine Learning Studio.You'll use it as an example of how you can create a predictive analytics solution using Microsoft Azure Machine Learning Studio. Você usará o Azure Machine Learning Studio e um serviço Web do Machine Learning para esta solução.You'll use Azure Machine Learning Studio and a Machine Learning web service for this solution.

Neste tutorial de três partes, você começará com os dados de risco de crédito disponíveis publicamente.In this three-part tutorial, you start with publicly available credit risk data. Em seguida, você desenvolverá e treinará um modelo preditivo.You then develop and train a predictive model. Por fim, você implantará o modelo como um serviço Web.Finally you deploy the model as a web service.

Nesta parte do tutorial, você vai:In this part of the tutorial you:

  • Criar um workspace do Machine Learning StudioCreate a Machine Learning Studio workspace
  • Carregar dados existentesUpload existing data
  • Criar uma experiênciaCreate an experiment

Depois, você usará esse experimento para treinar modelos na parte 2 e, em seguida implantá-los na parte 3.You can then use this experiment to train models in part 2 and then deploy them in part 3.

Experimente o Azure Machine Learning Studio, disponível nas opções paga ou gratuita.Try Azure Machine Learning Studio, available in paid or free options.

Pré-requisitosPrerequisites

Este tutorial pressupõe que você tenha usado o Machine Learning Studio pelo menos uma vez e tenha noções básicas sobre conceitos de aprendizado de máquina.This tutorial assumes that you've used Machine Learning Studio at least once before, and that you have some understanding of machine learning concepts. Mas não pressupõe que você seja um especialista em qualquer um deles.But it doesn't assume you're an expert in either.

Se você nunca usou Azure Machine Learning Studio antes, inicie pelo guia de início rápido Criar seu primeiro experimento de ciência de dados no Azure Machine Learning Studio.If you've never used Azure Machine Learning Studio before, you might want to start with the quickstart, Create your first data science experiment in Azure Machine Learning Studio. Esse guia de início rápido leva você a explorar o Machine Learning Studio pela primeira vez.The quickstart takes you through Machine Learning Studio for the first time. Ele mostra os conceitos básicos de como arrastar e soltar módulos no seu experimento, conectá-los, executar o experimento e examinar os resultados.It shows you the basics of how to drag-and-drop modules onto your experiment, connect them together, run the experiment, and look at the results.

Dica

Você pode encontrar uma cópia funcional do experimento desenvolvido neste tutorial na Galeria de IA do Azure.You can find a working copy of the experiment that you develop in this tutorial in the Azure AI Gallery. Acesse Tutorial – Previsão de risco de crédito e clique em Abrir no Studio para baixar uma cópia do experimento no seu workspace do Machine Learning Studio.Go to Tutorial - Predict credit risk and click Open in Studio to download a copy of the experiment into your Machine Learning Studio workspace.

Criar um workspace do Machine Learning StudioCreate a Machine Learning Studio workspace

Para usar o Machine Learning Studio, você precisa ter um workspace do Microsoft Azure Machine Learning Studio.To use Machine Learning Studio, you need to have a Microsoft Azure Machine Learning Studio workspace. Esse workspace contém as ferramentas necessárias para criar, gerenciar e publicar testes.This workspace contains the tools you need to create, manage, and publish experiments.

Para criar um workspace, confira Criar e compartilhar um workspace do Azure Machine Learning Studio.To create a workspace, see Create and share an Azure Machine Learning Studio workspace.

Após criar o workspace, abra o Microsoft Machine Learning Studio (https://studio.azureml.net/Home).After your workspace is created, open Machine Learning Studio (https://studio.azureml.net/Home). Se você tiver mais de um workspace, poderá selecionar o workspace na barra de ferramentas no canto superior direito da janela.If you have more than one workspace, you can select the workspace in the toolbar in the upper-right corner of the window.

Selecionar o workspace no estúdio

Dica

Se você for proprietário do workspace, será possível compartilhar os experimentos em que está trabalhando convidando outras pessoas para o workspace.If you are owner of the workspace, you can share the experiments you're working on by inviting others to the workspace. Pode fazer isso no Machine Learning Studio na página CONFIGURAÇÕES .You can do this in Machine Learning Studio on the SETTINGS page. Basta ter a conta da Microsoft ou a conta da empresa de cada usuário.You just need the Microsoft account or organizational account for each user.

Na página CONFIGURAÇÕES, clique em USUÁRIOS e, em seguida, clique em CONVIDAR MAIS USUÁRIOS na parte inferior da janela.On the SETTINGS page, click USERS, then click INVITE MORE USERS at the bottom of the window.

Carregar dados existentesUpload existing data

Para desenvolver um modelo preditivo para risco de crédito, você precisará de dados que possam ser usados para treinar e testar o modelo.To develop a predictive model for credit risk, you need data that you can use to train and then test the model. Para este tutorial, usaremos o “Conjunto de Dados Statlog (Dados de Crédito Alemão) UCI” do repositório UC Irvine Machine Learning.For this tutorial, You'll use the "UCI Statlog (German Credit Data) Data Set" from the UC Irvine Machine Learning repository. Você pode encontrá-lo aqui: You can find it here:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

Use o arquivo chamado german.data.You'll use the file named german.data. Baixe esse arquivo em sua unidade de disco rígido local.Download this file to your local hard drive.

O conjunto de dados german.data contém linhas de 20 variáveis para 1000 candidatos antigos de crédito.The german.data dataset contains rows of 20 variables for 1000 past applicants for credit. Essas 20 variáveis representam o conjunto de recursos do conjunto de dados (o vetor de recurso), que fornece características de identificação para cada candidato de crédito.These 20 variables represent the dataset's set of features (the feature vector), which provides identifying characteristics for each credit applicant. Uma coluna adicional em cada linha representa o risco de crédito calculado do candidato, com 700 candidatos identificados como um risco de crédito baixo e 300 como um alto risco.An additional column in each row represents the applicant's calculated credit risk, with 700 applicants identified as a low credit risk and 300 as a high risk.

O website do UCI fornece uma descrição dos atributos do vetor de recurso para esses dados.The UCI website provides a description of the attributes of the feature vector for this data. Esses dados incluem informações financeiras, histórico de crédito, status de emprego e informações pessoais.This data includes financial information, credit history, employment status, and personal information. Para cada candidato, foi dada uma classificação binária indicando se são um risco baixo ou alto de crédito.For each applicant, a binary rating has been given indicating whether they are a low or high credit risk.

Use estes dados para treinar um modelo de análise preditiva.You'll use this data to train a predictive analytics model. Ao concluir, o modelo deverá ser capaz de aceitar um vetor de recurso para uma nova pessoa e prever se ela tem um risco de crédito alto ou baixo.When you're done, your model should be able to accept a feature vector for a new individual and predict whether they are a low or high credit risk.

Aqui está uma mudança interessante.Here's an interesting twist.

A descrição do conjunto de dados no site do UCI menciona quanto custa se classificarmos incorretamente o risco de crédito de uma pessoa.The description of the dataset on the UCI website mentions what it costs if you misclassify a person's credit risk. Se o modelo previr um alto risco de crédito para alguém que, de fato, é de baixo risco de crédito, o modelo terá feito uma classificação incorreta.If the model predicts a high credit risk for someone who is actually a low credit risk, the model has made a misclassification.

Porém, a classificação incorreta inversa é cinco vezes mais onerosa para a instituição financeira: se o modelo previr um baixo risco de crédito para alguém que, de fato, é de alto risco de crédito.But the reverse misclassification is five times more costly to the financial institution: if the model predicts a low credit risk for someone who is actually a high credit risk.

Dessa forma, treine o modelo para que o custo desse último tipo de classificação incorreta seja cinco vezes mais alto do que o outro tipo de classificação incorreta.So, you want to train your model so that the cost of this latter type of misclassification is five times higher than misclassifying the other way.

Uma maneira simples de fazer isso ao treinar o modelo no experimento é duplicando (cinco vezes) as entradas que representam alguém com um alto risco de crédito.One simple way to do this when training the model in your experiment is by duplicating (five times) those entries that represent someone with a high credit risk.

Assim, se o modelo classificar incorretamente alguém como de baixo risco de crédito, quando ele for de fato de risco alto, o modelo fará a mesma classificação incorreta cinco vezes, uma para cada duplicação.Then, if the model misclassifies someone as a low credit risk when they're actually a high risk, the model does that same misclassification five times, once for each duplicate. Isso aumentará o custo deste erro nos resultados de treinamento.This will increase the cost of this error in the training results.

Converter o formato do conjunto de dadosConvert the dataset format

O conjunto de dados original usa um formato separado por espaço em branco.The original dataset uses a blank-separated format. O Machine Learning Studio trabalha melhor com um arquivo CSV (valores separados por vírgula). Então, você converterá o conjunto de dados substituindo espaços por vírgulas.Machine Learning Studio works better with a comma-separated value (CSV) file, so you'll convert the dataset by replacing spaces with commas.

Há muitas maneiras de converter esses dados.There are many ways to convert this data. Uma maneira é usar o seguinte comando do Windows PowerShell:One way is by using the following Windows PowerShell command:

cat german.data | %{$_ -replace " ",","} | sc german.csv  

Outra maneira é usar o comando Unix sed:Another way is by using the Unix sed command:

sed 's/ /,/g' german.data > german.csv  

Em ambos os casos, você criou uma versão separada por vírgulas dos dados em um arquivo chamado german.csv que será usado em nosso experimento.In either case, you have created a comma-separated version of the data in a file named german.csv that you can use in your experiment.

Carregar o conjunto de dados para o Machine Learning StudioUpload the dataset to Machine Learning Studio

Depois que os dados tiverem sido convertidos no formato CSV, você deverá fazer upload deles no Machine Learning Studio.Once the data has been converted to CSV format, you need to upload it into Machine Learning Studio.

  1. Abra a home page do Machine Learning Studio (https://studio.azureml.net).Open the Machine Learning Studio home page (https://studio.azureml.net).

  2. Clique em Menu no canto superior esquerdo da janela, clique em Azure Machine Learning, selecione Estúdio e entre.Click the menu Menu in the upper-left corner of the window, click Azure Machine Learning, select Studio, and sign in.

  3. Clique em +NOVO na parte inferior da janela.Click +NEW at the bottom of the window.

  4. Selecione CONJUNTO DE DADOS.Select DATASET.

  5. Selecione DO ARQUIVO LOCAL.Select FROM LOCAL FILE.

    Adicionar um conjunto de dados de um arquivo local

  6. Na caixa de diálogo Carregar um novo conjunto de dados, clique em Pesquisar e localize o arquivo german.csv que você criou.In the Upload a new dataset dialog, click Browse, and find the german.csv file you created.

  7. Insira um nome para o conjunto de dados.Enter a name for the dataset. Para este tutorial, vamos chamá-lo de "Dados do cartão de crédito alemão UCI".For this tutorial, call it "UCI German Credit Card Data".

  8. Para tipo de dados, selecione Arquivo CSV genérico sem cabeçalho (.nh.csv) .For data type, select Generic CSV File With no header (.nh.csv).

  9. Inclua uma descrição se desejar.Add a description if you’d like.

  10. Clique na marca de seleção OK.Click the OK check mark.

    Carregar o conjunto de dados

Isso carrega os dados em um módulo de conjunto de dados que você poderá usar em um experimento.This uploads the data into a dataset module that you can use in an experiment.

É possível gerenciar conjuntos de dados que você carregou no Estúdio clicando na guia CONJUNTOS DE DADOS à esquerda da janela do Estúdio.You can manage datasets that you've uploaded to Studio by clicking the DATASETS tab to the left of the Studio window.

Gerenciar conjuntos de dados

Para obter mais informações sobre como importar outros tipos de dados para um teste, consulte Importar dados de treinamento para o Azure Machine Learning Studio.For more information about importing other types of data into an experiment, see Import your training data into Azure Machine Learning Studio.

Criar uma experiênciaCreate an experiment

A próxima etapa do tutorial é criar um experimento no Machine Learning Studio que usa o conjunto de dados que você carregou.The next step in this tutorial is to create an experiment in Machine Learning Studio that uses the dataset you uploaded.

  1. No Estúdio, clique em +NOVO na parte inferior da janela.In Studio, click +NEW at the bottom of the window.

  2. Selecione TESTEe, em seguida, selecione "Teste em branco".Select EXPERIMENT, and then select "Blank Experiment".

    Criar um novo experimento

  3. Selecione o nome do teste padrão na parte superior da tela e renomeie-o para algo significativo.Select the default experiment name at the top of the canvas and rename it to something meaningful.

    Renomear o teste

    Dica

    É uma boa prática preencherResumo e Descrição para o experimento no painel Propriedades.It's a good practice to fill in Summary and Description for the experiment in the Properties pane. Essas propriedades lhe dão a chance de documentar o experimento para que qualquer pessoa que olhe para ele mais tarde compreenda as suas metas e a metodologia.These properties give you the chance to document the experiment so that anyone who looks at it later will understand your goals and methodology.

    Propriedades de teste

  4. Na paleta do módulo à esquerda das telas de teste, expanda Conjuntos de dados salvos.In the module palette to the left of the experiment canvas, expand Saved Datasets.

  5. Localize o conjunto de dados que você criou em Meus Conjuntos de Dados e arraste-o para a tela.Find the dataset you created under My Datasets and drag it onto the canvas. Você também pode localizar o conjunto de dados inserindo o nome na caixa Pesquisar acima da paleta.You can also find the dataset by entering the name in the Search box above the palette.

    Adicionar o conjunto de dados ao teste

Preparar os dadosPrepare the data

Você pode exibir as primeiras 100 linhas de dados e algumas informações estatísticas de todo o conjunto de dados: Clique na porta de saída do conjunto de dados (o círculo pequeno na parte inferior) e selecione Visualizar.You can view the first 100 rows of the data and some statistical information for the whole dataset: Click the output port of the dataset (the small circle at the bottom) and select Visualize.

Como o arquivo de dados não foi fornecido com títulos de coluna, o Estúdio forneceu títulos genéricos (Col1, Col2 etc. ).Because the data file didn't come with column headings, Studio has provided generic headings (Col1, Col2, etc.). Bons títulos de coluna não são essenciais para criar um modelo, mas facilitam o trabalho com os dados no teste.Good headings aren't essential to creating a model, but they make it easier to work with the data in the experiment. Além disso, quando você eventualmente publicar esse modelo em um serviço Web, os títulos ajudarão a identificar as colunas para o usuário do serviço.Also, when you eventually publish this model in a web service, the headings help identify the columns to the user of the service.

Você pode adicionar títulos de coluna usando o módulo Editar Metadados.You can add column headings using the Edit Metadata module.

O módulo Editar Metadados é usado para alterar os metadados associados a um conjunto de dados.You use the Edit Metadata module to change metadata associated with a dataset. Nesse caso, ele fornece nomes mais amigáveis para títulos de coluna.In this case, you use it to provide more friendly names for column headings.

Para usar o módulo Editar Metadados, é necessário especificar quais colunas você deseja modificar (nesse caso, todas). Em seguida, especifique a ação a ser executada nessas colunas (nesse caso, alterar os cabeçalhos de coluna.)To use Edit Metadata, you first specify which columns to modify (in this case, all of them.) Next, you specify the action to be performed on those columns (in this case, changing column headings.)

  1. Na paleta de módulo, digite "metadados" na caixa Pesquisar .In the module palette, type "metadata" in the Search box. Editar Metadados aparecerá na lista de módulos.The Edit Metadata appears in the module list.

  2. Clique e arraste o módulo Editar Metadados para a tela e solte-o abaixo do conjunto de dados que você adicionou anteriormente.Click and drag the Edit Metadata module onto the canvas and drop it below the dataset you added earlier.

  3. Conecte o conjunto de dados ao módulo Editar Metadados: clique na porta de saída do conjunto de dados (o círculo pequeno na parte inferior do conjunto de dados), arraste para a porta de entrada do Editar Metadados (o círculo pequeno na parte superior do módulo) e, em seguida, solte o botão do mouse.Connect the dataset to the Edit Metadata: click the output port of the dataset (the small circle at the bottom of the dataset), drag to the input port of Edit Metadata (the small circle at the top of the module), then release the mouse button. O conjunto de dados e o módulo permanecem conectados mesmo se você mover um deles nas telas.The dataset and module remain connected even if you move either around on the canvas.

    O teste deve se parecer como o seguinte:The experiment should now look something like this:

    Adicionar Editar Metadados

    O ponto de exclamação vermelho indica que você ainda não definiu as propriedades deste módulo.The red exclamation mark indicates that you haven't set the properties for this module yet. Você fará isso em seguida.You'll do that next.

    Dica

    É possível adicionar um comentário em um módulo ao clicar duas vezes nele e inserir o texto.You can add a comment to a module by double-clicking the module and entering text. Isso pode ajudar a ver rapidamente o que o módulo está fazendo em seu experimento.This can help you see at a glance what the module is doing in your experiment. Nesse caso, clique duas vezes no módulo Editar Metadados e digite o comentário "Adicionar títulos de coluna".In this case, double-click the Edit Metadata module and type the comment "Add column headings". Clique em qualquer lugar na tela para fechar a caixa de texto.Click anywhere else on the canvas to close the text box. Para exibir o comentário, clique na seta para baixo no módulo.To display the comment, click the down-arrow on the module.

    Módulo Editar Metadados com comentário adicionado

  4. Selecione Editar Metadados e, no painel Propriedades, à direita da tela, clique em Iniciar seletor de colunas.Select Edit Metadata, and in the Properties pane to the right of the canvas, click Launch column selector.

  5. Na caixa de diálogo Selecionar colunas, selecione todas as linhas de Colunas disponíveis e clique em > para movê-las para Colunas selecionadas.In the Select columns dialog, select all the rows in Available Columns and click > to move them to Selected Columns. A caixa de diálogo deve ter esta aparência:The dialog should look like this:

    Seletor de coluna com todas as colunas selecionadas

  6. Clique na marca de seleção OK.Click the OK check mark.

  7. Volte ao painel Propriedades, procure o parâmetro Novos nomes de coluna.Back in the Properties pane, look for the New column names parameter. Neste campo, insira uma lista de nomes para as 21 colunas no conjunto de dados, separadas por vírgulas e na ordem da coluna.In this field, enter a list of names for the 21 columns in the dataset, separated by commas and in column order. Você pode obter os nomes de colunas na documentação do conjunto de dados no site UCI ou, por conveniência, você pode copiar e colar a seguinte lista:You can obtain the columns names from the dataset documentation on the UCI website, or for convenience you can copy and paste the following list:

    Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
    

    O painel de Propriedades tem esta aparência:The Properties pane looks like this:

    Propriedades de Editar Metadados

    Dica

    Se quer verificar os títulos de coluna, execute o teste (clique em EXECUTAR abaixo da tela do teste).If you want to verify the column headings, run the experiment (click RUN below the experiment canvas). Quando ele terminar a execução (uma marca de seleção verde aparecerá em Editar Metadados), clique na porta de saída do módulo Editar Metadados e selecione Visualizar.When it finishes running (a green check mark appears on Edit Metadata), click the output port of the Edit Metadata module, and select Visualize. Você pode exibir a saída de qualquer módulo da mesma maneira para exibir o progresso dos dados durante o teste.You can view the output of any module in the same way to view the progress of the data through the experiment.

Criar conjuntos de dados de treinamento e testeCreate training and test datasets

Você precisa de alguns dados para treinar o modelo e alguns para testá-lo.You need some data to train the model and some to test it. Portanto, na próxima etapa do teste, você dividirá o conjunto de dados em dois conjuntos de dados separados: um para treinar nosso modelo e outro para testá-lo.So in the next step of the experiment, you split the dataset into two separate datasets: one for training our model and one for testing it.

Para isso, use o módulo Dividir Dados.To do this, you use the Split Data module.

  1. Localize o módulo Dividir Dados, arraste-o para a tela e conecte-o ao módulo Editar Metadados.Find the Split Data module, drag it onto the canvas, and connect it to the Edit Metadata module.

  2. Por padrão, a taxa de divisão é 0,5 e o parâmetro Divisão aleatória é definido.By default, the split ratio is 0.5 and the Randomized split parameter is set. Isso significa que metade dos dados aleatórios sairá por uma porta do módulo Dividir Dados e a outra metade sairá por outra porta.This means that a random half of the data is output through one port of the Split Data module, and half through the other. É possível ajustar isso, bem como o parâmetro Semente aleatória, a fim de alterar a divisão entre dados de treinamento e teste.You can adjust these parameters, as well as the Random seed parameter, to change the split between training and testing data. Neste exemplo, deixe no estado em que se encontra.For this example, you leave them as-is.

    Dica

    A propriedade Fração de linhas no primeiro conjunto de dados de saída determina a quantidade de dados que saem através da porta de saída à esquerda.The property Fraction of rows in the first output dataset determines how much of the data is output through the left output port. Por exemplo, se você definir a taxa em 0,7, então, 70% dos dados sairão pela porta esquerda e 30% pela porta direita.For instance, if you set the ratio to 0.7, then 70% of the data is output through the left port and 30% through the right port.

  3. Clique duas vezes no módulo Dividir Dados e insira o comentário, "Dividir dados de treinamento/teste em 50%".Double-click the Split Data module and enter the comment, "Training/testing data split 50%".

É possível usar as saídas do módulo Dividir Dados da forma que você quiser, mas vamos escolher usar a saída à esquerda para dados de treinamento e a saída à direita para dados de teste.You can use the outputs of the Split Data module however you like, but let's choose to use the left output as training data and the right output as testing data.

Como mencionado na etapa anterior, o custo de uma classificação incorreta de um risco de crédito alto como baixo é cinco vezes maior do que o custo da classificação incorreta de um risco baixo como alto.As mentioned in the previous step, the cost of misclassifying a high credit risk as low is five times higher than the cost of misclassifying a low credit risk as high. Para isso, gere um novo conjunto de dados que reflita essa função de custo.To account for this, you generate a new dataset that reflects this cost function. No novo conjunto de dados, cada exemplo de alto risco é replicado cinco vezes, enquanto cada exemplo de baixo risco não será replicado.In the new dataset, each high risk example is replicated five times, while each low risk example is not replicated.

Você pode fazer essa replicação usando código em R:You can do this replication using R code:

  1. Localize e arraste o módulo Executar Script R para a tela de teste.Find and drag the Execute R Script module onto the experiment canvas.

  2. Conecte a porta de saída à esquerda do módulo Dividir Dados à primeira porta de entrada (“Dataset1”) do módulo Executar Script R.Connect the left output port of the Split Data module to the first input port ("Dataset1") of the Execute R Script module.

  3. Clique duas vezes no módulo Executar Script R e insira o comentário "Definir ajuste de custo".Double-click the Execute R Script module and enter the comment, "Set cost adjustment".

  4. No painel Propriedades, exclua o texto padrão no parâmetro Script R e insira esse script:In the Properties pane, delete the default text in the R Script parameter and enter this script:

    dataset1 <- maml.mapInputPort(1)
    data.set<-dataset1[dataset1[,21]==1,]
    pos<-dataset1[dataset1[,21]==2,]
    for (i in 1:5) data.set<-rbind(data.set,pos)
    maml.mapOutputPort("data.set")
    

    Script R no módulo Executar Script R

É necessário fazer essa mesma operação de replicação para cada saída do módulo Dividir Dados de forma que os dados de treinamento e teste tenham os mesmos ajustes de custo.You need to do this same replication operation for each output of the Split Data module so that the training and testing data have the same cost adjustment. A maneira mais fácil de fazer isso é duplicando o módulo Executar Script R que você acabou de criar e conectando-o a outra porta de saída do módulo Dividir Dados.The easiest way to do this is by duplicating the Execute R Script module you just made and connecting it to the other output port of the Split Data module.

  1. Clique com o botão direito do mouse no módulo Executar Script R e selecione Copiar.Right-click the Execute R Script module and select Copy.

  2. Clique com o botão direito do mouse nas telas de teste e selecione Colar.Right-click the experiment canvas and select Paste.

  3. Arraste o novo módulo para a posição correta e, em seguida, conecte a porta de saída à direita do módulo Dividir Dados à primeira porta de entrada desse novo módulo Executar Script R.Drag the new module into position, and then connect the right output port of the Split Data module to the first input port of this new Execute R Script module.

  4. Na parte inferior da tela, clique em Executar.At the bottom of the canvas, click Run.

Dica

A cópia do módulo Executar script R contém o mesmo script que o módulo original.The copy of the Execute R Script module contains the same script as the original module. Quando você copia e cola um módulo nas telas, a cópia mantém todas as propriedades do original.When you copy and paste a module on the canvas, the copy retains all the properties of the original.

Nosso teste agora se parece com esse:Our experiment now looks something like this:

Adicionando módulo Divisão e Scripts R

Para obter mais informações sobre como usar scripts R em seus testes, consulte Estender seu teste com R.For more information on using R scripts in your experiments, see Extend your experiment with R.

Limpar recursosClean up resources

Caso não precise mais dos recursos que criou usando este artigo, exclua-os para evitar a geração de encargos.If you no longer need the resources you created using this article, delete them to avoid incurring any charges. Saiba como fazer isso no artigo Exportar e excluir dados de usuário no produto.Learn how in the article, Export and delete in-product user data.

Próximas etapasNext steps

Neste tutorial, você concluiu estas etapas:In this tutorial you completed these steps:

  • Criar um workspace do Machine Learning StudioCreate a Machine Learning Studio workspace
  • Carregar dados existentes no workspaceUpload existing data into the workspace
  • Criar uma experiênciaCreate an experiment

Agora você está pronto para treinar e avaliar modelos para esses dados.You are now ready to train and evaluate models for this data.