Crie seu primeiro experimento de ciência de dados no Machine Learning Studio (clássico)

Artigo
02/06/2019

APLICA-SE A: essa é uma marca de seleção, o que significa que este artigo se aplica ao Machine Learning Studio (clássico). Machine Learning Studio (clássico) Isso é um X, o que significa que este artigo não se aplica ao Azure Machine Learning. Azure Machine Learning

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Neste artigo, você vai criar um experimento de machine learning no Machine Learning Studio (clássico) que prevê o preço de um carro com base em diferentes variáveis, como a marca e as especificações técnicas.

Se você nunca teve contato com o aprendizado de máquina, a série de vídeo Ciência de dados para iniciantes é uma excelente introdução ao aprendizado de máquina usando linguagem e conceitos do dia a dia.

Este início rápido segue o fluxo de trabalho padrão para um experimento:

Criar um modelo
Treinar o modelo
- Escolher e aplicar um algoritmo
Pontuar e testar o modelo
- Prever novos preços de automóveis

Obter os dados

A primeira coisa que você precisa para executar o aprendizado de máquina são dados. Há uma série de conjuntos de dados de exemplo incluídos no Studio (clássico) que você pode usar ou você pode importar dados de várias fontes. Neste exemplo, usaremos o conjunto de dados de exemplo Dados de preço de automóvel (Brutos) , que está incluído no seu workspace. Esse conjunto de dados inclui entradas para vários automóveis individuais, incluindo informações como marca, modelo, especificações técnicas e preço.

Dica

Você pode encontrar uma cópia funcional do seguinte experimento na Galeria de IA do Azure. Vá para Seu primeiro experimento de ciência de dados – previsão de preço de automóvel e clique em Abrir no Studio para baixar uma cópia do experimento no seu espaço de trabalho do Machine Learning Studio (clássico).

Aqui está a explicação de como colocar o conjunto de dados no seu experimento.

Crie um novo experimento clicando em +NOVO na parte inferior da janela do Machine Learning Studio (clássico). Selecione EXPERIMENTO>Experimento em Branco.
O teste recebe um nome padrão que você pode ver na parte superior da tela. Selecione este texto e renomeie para algo que tenha sentido, por exemplo, Previsão de preço de automóvel. O nome não precisa ser exclusivo.
À esquerda da tela do experimento está uma paleta de conjuntos de dados e módulos. Digite automóvel na caixa Pesquisar na parte superior desta paleta para localizar o conjunto de dados rotulado como Dados de preço de automóvel (brutos) . Arraste este conjunto de dados até a tela do experimento.

Para ver a aparência dos dados, clique na porta de saída na parte inferior do conjunto de dados do automóvel e selecione Visualizar.

Clique na porta de saída e selecione

Dica

Os módulos e conjuntos de dados têm portas de entrada e saída representadas por círculos pequenos – portas de entrada na parte superior, portas de saída na parte inferior. Para criar um fluxo de dados por meio do experimento, você conectará uma porta de um módulo de saída a uma porta de entrada do outro. A qualquer momento, você pode clicar na porta de saída de um conjunto de dados ou de um módulo para ver aparência dos dados naquele ponto do fluxo de dados.

No conjunto de dados de exemplo, cada linha representa uma instância de um automóvel e as variáveis associadas a cada automóvel aparecem como colunas. Vamos prever o preço na coluna à direita (coluna 26, intitulada "preço") usando as variáveis de um automóvel específico.

Exibir os dados de automóveis na janela de visualização de dados

Feche a janela de visualização clicando no "x" no canto superior direito.

Preparar os dados

Um conjunto de dados geralmente requer algum pré-processamento antes de poder ser analisado. Você deve ter observado os valores ausentes presentes nas colunas de várias linhas. Os valores ausentes precisam ser limpos para que o modelo possa analisar os dados corretamente. Vamos remover quaisquer linhas que tenham valores ausentes. Além disso, a coluna normalized-losses tem uma grande proporção de valores ausentes, portanto excluiremos totalmente essa coluna do modelo.

Dica

Limpar os valores ausentes dos dados de entrada é um pré-requisito para usar a maioria dos módulos.

Primeiro, vamos adicionar um módulo que remova a coluna normalized-losses completamente. Em seguida, adicionamos outro módulo que remove qualquer linha que tenha dados ausentes.

Digite selecionar colunas na caixa de Pesquisa na parte superior da paleta do módulo para encontrar o módulo Selecionar Colunas no Conjunto de Dados. Em seguida, arraste-o para a tela do experimento. Esse módulo permite selecionar quais colunas de dados desejamos incluir ou excluir no modelo.
Conecte a porta de saída do conjunto de dados Dados de preço de automóveis (Brutos) à porta de entrada de Selecionar Colunas no Conjunto de Dados.
Selecione o módulo Selecionar Colunas no Conjunto de Dados e clique em Iniciar seletor de coluna no painel Propriedades.
- À esquerda, clique em Com regras
- Em Começa com, clique em Todas as colunas. Essas regras instruem o módulo Selecionar Colunas no Conjunto de Dados a passar por todas as colunas (exceto aquelas que estamos prestes a excluir).
- Nos menus suspensos, selecione Excluir e nomes da coluna e clique dentro da caixa de texto. Uma lista de colunas é exibida. Selecione normalized-lossese ela será adicionada à caixa de texto.
- Clique no botão de marca de seleção (OK) para fechar o seletor de coluna (no canto inferior direito).
  
  Agora, o painel de propriedades de Selecionar Colunas no Conjunto de Dados indica que ele passará por todas as colunas do conjunto de dados exceto por normalized-losses.
  
  Dica
  
  É possível adicionar um comentário em um módulo ao clicar duas vezes nele e inserir o texto. Isso pode ajudar a ver rapidamente o que o módulo está fazendo em seu experimento. Neste caso, clique duas vezes no módulo Selecionar Colunas no Conjunto de Dados e digite o comentário "Excluir perdas normalizadas".
Arraste o módulo Limpar Dados Ausentes para a tela do teste e conecte-o ao módulo Selecionar Colunas no Conjunto de Dados. No painel Propriedades selecione Remover linha inteira em Modo de limpeza. Essas opções instruem o módulo Limpar Dados Ausentes a limpar os dados removendo as linhas que têm valores ausentes. Clique duas vezes no módulo e digite o comentário “Remover linhas de valor ausente".
Execute o experimento clicando em EXECUTAR na parte inferior da página.

Quando o experimento terminar a execução, todos os módulos terão uma marca de seleção verde para indicar que foram concluídos com sucesso. Observe também o status Execução concluída no canto superior direito.

Dica

Por que executamos o experimento agora? Ao executar o experimento, as definições de coluna dos dados passam do conjunto de dados, através do módulo Selecionar Colunas no Conjunto de Dados e através do módulo Limpar Dados Ausentes. Isso significa que todos os módulos que conectarmos ao Limpar Dados Ausentes também terão essas mesmas informações.

Agora temos dados limpos. Se desejar exibir o conjunto de dados limpo, clique na porta de saída à esquerda do módulo Limpar Dados Ausentes e selecione Visualizar. Observe que a coluna normalized-losses não está mais incluída e não há valores ausentes.

Agora que os dados estão limpos, estamos prontos para especificar quais recursos usaremos no modelo preditivo.

definir recursos

No aprendizado de máquina, recursos são propriedades individuais mensuráveis de algo em que você está interessado. Em nosso conjunto de dados, cada linha representa um automóvel e cada coluna é um recurso desse automóvel.

Localizar um bom conjunto de recursos para criar um modelo de previsão requer experimentação e conhecimento sobre o problema que você deseja resolver. Alguns recursos são melhores para prever o destino do que outros. Alguns recursos têm uma forte correlação com outros recursos e podem ser removidos. Por exemplo, city-mpg e highway-mpg estão intimamente relacionados, por isso podemos manter um e remover o outro sem afetar a previsão de forma significativa.

Vamos criar um modelo que usa um subconjunto dos recursos em nosso conjunto de dados. É possível voltar depois e selecionar diferentes recursos, executar o experimento novamente e ver se você obtém melhores resultados. Mas, para começar, vamos testar os seguintes recursos:

marca, estilo de carroceria, distância entre os eixos, tamanho do motor, potência, pico de RPM, quilometragem em estrada, preço

Arraste outro módulo Selecionar Colunas no Conjunto de Dados à tela do experimento. Conecte a porta de saída à esquerda do módulo Limpar Dados Ausentes à entrada do módulo Selecionar Colunas no Conjunto de Dados.
Clique duas vezes no módulo e digite “Selecionar recursos de previsão".
Clique em Iniciar seletor de coluna no painel de Propriedades.
Clique em Com regras.
Em Começa com, clique em Nenhuma coluna. Na linha do filtro, selecione Incluir e nomes de coluna e selecione a lista de nomes de coluna na caixa de texto. Esse filtro instrui o módulo a passar somente pelas colunas (recursos) que especificamos.
Clique no botão de marca de seleção (OK).

Esse módulo produz um conjunto de dados filtrado que contém somente os recursos que desejamos passar para o algoritmo de aprendizado que usaremos na próxima etapa. Posteriormente, é possível retornar e tentar novamente com uma seleção diferente de recursos.

Escolher e aplicar um algoritmo

Agora que os dados estão prontos, construir um modelo preditivo consiste em treinamento e teste. Vamos usar nossos dados para treinar o modelo e depois testar o modelo para ver com que proximidade ele é capaz de prever os preços.

Classificação e regressão são dois tipos de técnicas de algoritmo de machine learning supervisionado. A classificação prevê uma resposta de um conjunto definido de categorias, como uma cor (vermelha, azul ou verde). A regressão é usada para prever um número.

Como desejamos prever o preço, que é um número, usaremos um algoritmo de regressão. Neste exemplo, usaremos um modelo de regressão linear.

Treinamos o modelo, dando a ele um conjunto de dados que inclui o preço. O modelo examina os dados e procura correlações entre os recursos de um automóvel e seu preço. Em seguida, testaremos o modelo – vamos dar a ele um conjunto de recursos para automóveis, com os quais estamos familiarizados e veremos qual a proximidade da previsão feita pelo modelo com o preço conhecido.

Vamos usar nossos dados para treinar o modelo e para testá-lo, dividindo-os em conjuntos de dados separados de treinamento e de teste.

Selecione e arraste o módulo Dividir Dados até a tela do teste e conecte-o à porta de saída do último módulo Selecionar Colunas no Conjunto de Dados.
Clique no módulo Dividir Dados para selecioná-lo. Encontre o painel Fração de linhas no primeiro conjunto de dados de saída (no painel Propriedades à direita da tela) e defina-o para 0,75. Desta forma, usaremos 75% dos dados para treinar o modelo e manteremos 25% para teste.

Dica

Alterando o parâmetro Semente aleatória , é possível produzir amostras aleatórias diferentes para treinamento e teste. Esse parâmetro controla a alimentação do gerador de número pseudo-aleatório.
Execute o experimento. Quando o experimento é executado os módulos Selecionar Colunas no Conjunto de Dados e Dividir Dados passam definições de coluna para os módulos que incluiremos em seguida.
Para selecionar o algoritmo de aprendizado, expanda a categoria Machine Learning na paleta do módulo à esquerda da tela e expanda Inicializar Modelo. Isso exibe várias categorias de módulos que podem ser usados para inicializar os algoritmos de Aprendizado de Máquina. Para este experimento, selecione módulo Regressão Linear na categoria Regressão e arraste-o para a tela do experimento. (Você também pode localizar o módulo digitando "regressão linear" na caixa de pesquisa da paleta.)
Encontre e arraste o módulo Treinar Modelo para a tela do teste. Conecte a saída do módulo Regressão Linear à entrada esquerda do módulo Treinar Modelo e conecte a saída de dados de treinamento (porta esquerda) do módulo Dividir Dados à entrada direita do módulo Treinar Modelo.
Selecione o módulo Modelo de Treinamento, clique em Iniciar seletor de coluna no painel Propriedades e selecione a coluna preço. O Preço é o valor que nosso modelo vai prever.

Selecione a coluna preço movendo-a da lista de Colunas disponíveis para a lista de Colunas selecionadas.
Execute o experimento.

Agora temos um modelo de regressão treinado que pode ser usado para pontuar novos dados de automóveis para fazer previsões de preço.

Depois da execução, o experimento agora deve ser semelhante a isto

prever novos preços de automóveis

Agora que treinamos o modelo usando 75% de nossos dados, podemos usá-lo para classificar os outros 25% dos dados e ver se nosso modelo funciona bem.

Localize e arraste o módulo Modelo de Pontuação até a tela do experimento. Conecte a saída do módulo Treinar Modelo à porta de entrada esquerda do módulo Pontuar Modelo. Conecte a saída de dados de teste (porta direita) do módulo Dividir Dados à porta de entrada direita do módulo Pontuar Modelo.
Execute o experimento e exiba a saída do módulo Modelo de Pontuação clicando duas vezes na porta de saída do Modelo de Pontuação e selecionando Visualizar. A saída mostra os valores previstos para o preço e os valores conhecidos dos dados de teste.
Por fim, podemos testar a qualidade dos resultados. Selecione e arraste o módulo Modelo de Avaliação para a tela do experimento e conecte a saída do módulo Modelo de Pontuação com a entrada à direita do Modelo de Avaliação. O experimento final deve se parecer como o seguinte:
Execute o experimento.

Execute o experimento e exiba a saída do módulo Modelo de Avaliação, clique duas vezes na porta de saída e selecione Visualizar.

Resultados de avaliação para o experimento

As estatísticas a seguir são mostradas para nosso modelo:

MAE (Média de erros absolutos): a média de erros absolutos (um erro é a diferença entre o valor previsto e o valor real).
RMSE (Raiz quadrada dos erros ao quadrado): a raiz quadrada da média de erros quadrados de previsões feitas no conjunto de dados de teste.
Erro absoluto relativo: a média de erros absolutos relativos à diferença absoluta entre os valores reais e a média de todos os valores reais.
Erro ao quadrado relativo: a média de erros quadrados relativos à diferença quadrada entre os valores reais e a média de todos os valores reais.
Coeficiente de determinação: também conhecido como o Valor quadrado R, esta é uma métrica estatística que indica se o modelo se encaixa bem nos dados.

Para cada estatística de erro, menos é melhor. Um valor menor indica que as previsões se aproximam mais dos valores reais. Para Coeficiente de Determinação, quanto mais próximo o valor estiver de um (1,0), melhores as previsões.

Limpar os recursos

Caso não precise mais dos recursos que criou usando este artigo, exclua-os para evitar a geração de encargos. Saiba como fazer isso no artigo Exportar e excluir dados de usuário no produto.

Próximas etapas

Neste início rápido, você criou um teste simples usando um conjunto de dados de exemplo. Para explorar o processo de criação e implantação de um modelo mais detalhadamente, continue o tutorial de solução preditiva.

Tutorial: Desenvolver uma solução preditiva no Studio (clássico)

Crie seu primeiro experimento de ciência de dados no Machine Learning Studio (clássico)

Obter os dados

Preparar os dados

definir recursos

Escolher e aplicar um algoritmo

prever novos preços de automóveis

Limpar os recursos

Próximas etapas

Recursos adicionais