Prever uma resposta com um modelo simplesPredict an answer with a simple model

Vídeo 4: Data Science for Beginners seriesVideo 4: Data Science for Beginners series

Aprenda a criar um modelo simples de regressão para prever o preço de um diamante em Data Science para principiantes vídeo 4.Learn how to create a simple regression model to predict the price of a diamond in Data Science for Beginners video 4. Vamos desenhar um modelo de regressão com dados-alvo.We'll draw a regression model with target data.

Para tirar o máximo partido da série, assista a todas.To get the most out of the series, watch them all. Vá à lista de vídeosGo to the list of videos

Outros vídeos desta sérieOther videos in this series

Data Science for Beginners é uma rápida introdução à ciência dos dados em cinco pequenos vídeos.Data Science for Beginners is a quick introduction to data science in five short videos.

Transcrição: Prever uma resposta com um modelo simplesTranscript: Predict an answer with a simple model

Bem-vindos ao quarto vídeo da série "Data Science for Beginners".Welcome to the fourth video in the "Data Science for Beginners" series. Neste, vamos construir um modelo simples e fazer uma previsão.In this one, we'll build a simple model and make a prediction.

Um modelo é uma história simplificada sobre os nossos dados.A model is a simplified story about our data. Vou mostrar-lhe o que quero dizer.I'll show you what I mean.

Recolher dados relevantes, precisos, conectados e suficientesCollect relevant, accurate, connected, enough data

Digamos que quero comprar um diamante.Say I want to shop for a diamond. Tenho um anel que pertencia à minha avó com um cenário para um diamante de 1,35 quilates, e quero ter uma ideia de quanto vai custar.I have a ring that belonged to my grandmother with a setting for a 1.35 carat diamond, and I want to get an idea of how much it will cost. Levo um bloco de notas e uma caneta para a joalharia, e anoto o preço de todos os diamantes da caixa e quanto pesam em quilates.I take a notepad and pen into the jewelry store, and I write down the price of all of the diamonds in the case and how much they weigh in carats. Começando com o primeiro diamante- são 1,01 quilates e $7.366.Starting with the first diamond - it's 1.01 carats and $7,366.

Agora eu ando e faço isto por todos os outros diamantes da loja.Now I go through and do this for all the other diamonds in the store.

Colunas de dados de diamantes

Note que a nossa lista tem duas colunas.Notice that our list has two columns. Cada coluna tem um atributo diferente - peso em quilates e preço - e cada linha é um único ponto de dados que representa um único diamante.Each column has a different attribute - weight in carats and price - and each row is a single data point that represents a single diamond.

Na verdade, criamos um pequeno conjunto de dados aqui- uma mesa.We've actually created a small data set here - a table. Note que satisfaz os nossos critérios de qualidade:Notice that it meets our criteria for quality:

  • Os dados são relevantes - o peso está definitivamente relacionado com o preçoThe data is relevant - weight is definitely related to price
  • É preciso - verificamos duas vezes os preços que escrevemosIt's accurate - we double-checked the prices that we write down
  • Está conectado - não há espaços em branco em nenhuma destas colunasIt's connected - there are no blank spaces in either of these columns
  • E, como veremos, são dados suficientes para responder à nossa perguntaAnd, as we'll see, it's enough data to answer our question

Faça uma pergunta afiadaAsk a sharp question

Agora vamos colocar a nossa pergunta de uma forma afiada: "Quanto vai custar comprar um diamante de 1,35 quilates?"Now we'll pose our question in a sharp way: "How much will it cost to buy a 1.35 carat diamond?"

A nossa lista não tem um diamante de 1,35 quilates, por isso vamos ter de usar o resto dos nossos dados para obter uma resposta à pergunta.Our list doesn't have a 1.35 carat diamond in it, so we'll have to use the rest of our data to get an answer to the question.

Traçar os dados existentesPlot the existing data

A primeira coisa que vamos fazer é desenhar uma linha de número horizontal, chamada eixo, para traçar os pesos.The first thing we'll do is draw a horizontal number line, called an axis, to chart the weights. A gama dos pesos é de 0 a 2, por isso vamos desenhar uma linha que cobre esse alcance e colocar carrapatos para cada meio quilate.The range of the weights is 0 to 2, so we'll draw a line that covers that range and put ticks for each half carat.

Em seguida, vamos desenhar um eixo vertical para registar o preço e ligá-lo ao eixo de peso horizontal.Next we'll draw a vertical axis to record the price and connect it to the horizontal weight axis. Isto será em unidades de dólares.This will be in units of dollars. Agora temos um conjunto de eixos de coordenadas.Now we have a set of coordinate axes.

Eixos de peso e preço

Vamos pegar nestes dados agora e transformá-lo num enredo de dispersão.We're going to take this data now and turn it into a scatter plot. Esta é uma ótima maneira de visualizar conjuntos de dados numéricos.This is a great way to visualize numerical data sets.

Para o primeiro ponto de dados, olhamos uma linha vertical a 1,01 quilates.For the first data point, we eyeball a vertical line at 1.01 carats. Depois, olhamos para uma linha horizontal a $7.366.Then, we eyeball a horizontal line at $7,366. Onde se encontram, desenhamos um ponto.Where they meet, we draw a dot. Isto representa o nosso primeiro diamante.This represents our first diamond.

Agora vamos ver cada diamante desta lista e fazemos a mesma coisa.Now we go through each diamond on this list and do the same thing. Quando terminamos, isto é o que temos: um monte de pontos, um para cada diamante.When we're through, this is what we get: a bunch of dots, one for each diamond.

Enredo de dispersão

Desenhe o modelo através dos pontos de dadosDraw the model through the data points

Agora, se olhares para os pontos e olhares, a coleção parece uma linha gorda e felpuda.Now if you look at the dots and squint, the collection looks like a fat, fuzzy line. Podemos pegar no nosso marcador e traçar uma linha reta através dele.We can take our marker and draw a straight line through it.

Ao desenhar uma linha, criámos um modelo.By drawing a line, we created a model. Pense nisto como tomar o mundo real e fazer uma versão simplista dos desenhos animados dele.Think of this as taking the real world and making a simplistic cartoon version of it. Agora os desenhos animados estão errados- a linha não passa por todos os pontos de dados.Now the cartoon is wrong - the line doesn't go through all the data points. Mas é uma simplificação útil.But, it's a useful simplification.

Linha linear de regressão

O facto de todos os pontos não passarem exatamente pela linha está bem.The fact that all the dots don't go exactly through the line is OK. Os cientistas de dados explicam isto dizendo que há o modelo - que é a linha - e então cada ponto tem algum ruído ou variação associado a ele.Data scientists explain this by saying that there's the model - that's the line - and then each dot has some noise or variance associated with it. Há a relação perfeita subjacente, e depois há o mundo real e corajoso que acrescenta ruído e incerteza.There's the underlying perfect relationship, and then there's the gritty, real world that adds noise and uncertainty.

Porque estamos a tentar responder à pergunta Quanto é que isto se chama regressão.Because we're trying to answer the question How much? this is called a regression. E como estamos a usar uma linha reta, é uma regressão linear.And because we're using a straight line, it's a linear regression.

Use o modelo para encontrar a respostaUse the model to find the answer

Agora temos um modelo e fazemos a nossa pergunta: quanto custará um diamante de 1,35 quilates?Now we have a model and we ask it our question: How much will a 1.35 carat diamond cost?

Para responder à nossa pergunta, olhamos 1,35 quilates e desenhamos uma linha vertical.To answer our question, we eyeball 1.35 carats and draw a vertical line. Onde cruza a linha do modelo, olhamos uma linha horizontal para o eixo do dólar.Where it crosses the model line, we eyeball a horizontal line to the dollar axis. Atinge os 10.000.It hits right at 10,000. Bum!Boom! Esta é a resposta: um diamante de 1,35 quilates custa cerca de $10.000.That's the answer: A 1.35 carat diamond costs about $10,000.

Encontre a resposta no modelo

Criar um intervalo de confiançaCreate a confidence interval

É natural imaginar a precisão desta previsão.It's natural to wonder how precise this prediction is. É útil saber se o diamante de 1,35 quilates será muito perto de $10.000, ou muito mais ou menos.It's useful to know whether the 1.35 carat diamond will be very close to $10,000, or a lot higher or lower. Para resolver isto, vamos desenhar um envelope em torno da linha de regressão que inclui a maioria dos pontos.To figure this out, let's draw an envelope around the regression line that includes most of the dots. Este envelope chama-se nosso intervalo de confiança: Estamos bastante confiantes de que os preços caem dentro deste envelope, porque no passado a maioria deles tem.This envelope is called our confidence interval: We're pretty confident that prices fall within this envelope, because in the past most of them have. Podemos desenhar mais duas linhas horizontais de onde a linha de 1,35 quilates cruza a parte superior e a parte inferior do envelope.We can draw two more horizontal lines from where the 1.35 carat line crosses the top and the bottom of that envelope.

Intervalo de confiança

Agora podemos dizer algo sobre o nosso intervalo de confiança: podemos dizer com confiança que o preço de um diamante de 1,35 quilates é de cerca de $10.000 - mas pode ser tão baixo como $8.000 e pode chegar aos $12.000.Now we can say something about our confidence interval: We can say confidently that the price of a 1.35 carat diamond is about $10,000 - but it might be as low as $8,000 and it might be as high as $12,000.

Terminamos, sem matemática nem computadores.We're done, with no math or computers

Fizemos o que os cientistas de dados são pagos para fazer, e nós fizemos apenas por desenhar:We did what data scientists get paid to do, and we did it just by drawing:

  • Fizemos uma pergunta que poderíamos responder com dadosWe asked a question that we could answer with data
  • Construímos um modelo usando regressão linearWe built a model using linear regression
  • Fizemos uma previsão, completa com um intervalo de confiançaWe made a prediction, complete with a confidence interval

E não usámos matemática ou computadores para o fazer.And we didn't use math or computers to do it.

Agora, se tivéssemos mais informações, como...Now if we'd had more information, like...

  • o corte do diamantethe cut of the diamond
  • variações de cor (quão perto o diamante é de ser branco)color variations (how close the diamond is to being white)
  • o número de inclusãos no diamantethe number of inclusions in the diamond

... então teríamos tido mais colunas....then we would have had more columns. Nesse caso, a matemática torna-se útil.In that case, math becomes helpful. Se tiver mais de duas colunas, é difícil desenhar pontos no papel.If you have more than two columns, it's hard to draw dots on paper. A matemática permite-lhe encaixar muito bem essa linha ou aquele avião nos seus dados.The math lets you fit that line or that plane to your data very nicely.

Além disso, se em vez de apenas um punhado de diamantes, tivéssemos dois mil ou dois milhões, então podes fazer isso muito mais depressa com um computador.Also, if instead of just a handful of diamonds, we had two thousand or two million, then you can do that work much faster with a computer.

Hoje, falamos sobre como fazer regressão linear, e fizemos uma previsão usando dados.Today, we've talked about how to do linear regression, and we made a prediction using data.

Certifique-se de conferir mais vídeos em "Data Science for Beginners" do Microsoft Azure Machine Learning Studio (clássico).Be sure to check out the other videos in "Data Science for Beginners" from Microsoft Azure Machine Learning Studio (classic).

Passos seguintesNext steps