Predicción de respuestas con un modelo sencilloPredict an answer with a simple model

Vídeo 4: Ciencia de datos para principiantesVideo 4: Data Science for Beginners series

Aprenda a crear un modelo de regresión simple para predecir el precio de un diamante en el vídeo 4 de Ciencia de datos para principiantes.Learn how to create a simple regression model to predict the price of a diamond in Data Science for Beginners video 4. Dibujaremos un modelo de regresión con los datos de destino.We'll draw a regression model with target data.

Para obtener el máximo partido de la serie, véalos en orden.To get the most out of the series, watch them all. Ir a la lista de vídeosGo to the list of videos

Otros vídeos de la serieOther videos in this series

Ciencia de datos para principiantes es una introducción rápida a la ciencia de datos en cinco vídeos de corta duración.Data Science for Beginners is a quick introduction to data science in five short videos.

Transcripción: Predicción de respuestas con un modelo sencilloTranscript: Predict an answer with a simple model

Este es el cuarto vídeo de la serie "Ciencia de datos para principiantes".Welcome to the fourth video in the "Data Science for Beginners" series. En este caso, crearemos un modelo simple y realizaremos una predicción.In this one, we'll build a simple model and make a prediction.

Un modelo es un caso simplificado sobre nuestros datos.A model is a simplified story about our data. Le mostraré lo que quiero decir.I'll show you what I mean.

Recopilación de datos pertinentes, precisos, conectados y suficientesCollect relevant, accurate, connected, enough data

Supongamos que deseo comprar un diamante.Say I want to shop for a diamond. Tengo un anillo que pertenecía a mi abuela con un engarce para un diamante de 1,35 quilates, y quiero tener una idea de cuánto costará.I have a ring that belonged to my grandmother with a setting for a 1.35 carat diamond, and I want to get an idea of how much it will cost. Tomo un lápiz y un cuaderno en la joyería y escribo el precio de todos los diamantes de la vitrina y cuántos quilates tienen.I take a notepad and pen into the jewelry store, and I write down the price of all of the diamonds in the case and how much they weigh in carats. Empiezo por el primer diamante: tiene 1,01 quilates y cuesta 7366 USD.Starting with the first diamond - it's 1.01 carats and $7,366.

Ahora hago lo mismo para todos los diamantes de la joyería.Now I go through and do this for all the other diamonds in the store.

Columnas de datos de los diamantes

Observe que nuestra lista tiene dos columnas.Notice that our list has two columns. Cada columna tiene un atributo diferente, quilates y precio, y cada fila es un único punto de datos que representa un solo diamante.Each column has a different attribute - weight in carats and price - and each row is a single data point that represents a single diamond.

En realidad, hemos creado un pequeño conjunto de datos aquí: una tabla.We've actually created a small data set here - a table. Observe que cumple los criterios de calidad:Notice that it meets our criteria for quality:

  • Los datos son pertinentes : sin duda el peso está relacionado con el precio.The data is relevant - weight is definitely related to price
  • Son precisos : hemos comprobado dos veces los precios que escribimos.It's accurate - we double-checked the prices that we write down
  • Están conectados : no hay ningún espacio en blanco en ninguna de estas columnas.It's connected - there are no blank spaces in either of these columns
  • Y, como veremos, hay suficientes datos para responder a nuestra pregunta.And, as we'll see, it's enough data to answer our question

Formulación de una pregunta directaAsk a sharp question

Ahora platearemos nuestra pregunta de forma directa: "¿Cuánto costará comprar un diamante de 1,35 quilates?"Now we'll pose our question in a sharp way: "How much will it cost to buy a 1.35 carat diamond?"

Nuestra lista no contiene ningún diamante de 1,35 quilates, por lo que debemos utilizar el resto de nuestros datos para obtener una respuesta a la pregunta.Our list doesn't have a 1.35 carat diamond in it, so we'll have to use the rest of our data to get an answer to the question.

Trazado de los datos existentesPlot the existing data

Lo primero que haremos es dibujar una línea horizontal de números, denominada un eje, para colocar los pesos.The first thing we'll do is draw a horizontal number line, called an axis, to chart the weights. El intervalo de peso es de 0 a 2, por lo que dibujaremos una línea que cubra ese intervalo y colocaremos marcas para cada medio quilate.The range of the weights is 0 to 2, so we'll draw a line that covers that range and put ticks for each half carat.

A continuación, dibujaremos un eje vertical para registrar el precio y conectarlo al eje horizontal de peso.Next we'll draw a vertical axis to record the price and connect it to the horizontal weight axis. Utilizaremos unidades en dólares.This will be in units of dollars. Ahora tenemos un conjunto de ejes de coordenadas.Now we have a set of coordinate axes.

Ejes de peso y precio

Ahora vamos a tomar estos datos y los convertimos en un gráfico de dispersión.We're going to take this data now and turn it into a scatter plot. Esta es una excelente forma de ver conjuntos de datos numéricos.This is a great way to visualize numerical data sets.

Para el primer punto de datos, dibujamos mentalmente una línea vertical en 1,01 quilates.For the first data point, we eyeball a vertical line at 1.01 carats. A continuación, dibujamos mentalmente una línea horizontal en 7366 USD.Then, we eyeball a horizontal line at $7,366. Donde se encuentran, dibujamos un punto.Where they meet, we draw a dot. Esto representa nuestro primer diamante.This represents our first diamond.

Ahora podemos hacer lo mismo con cada diamante de esta lista.Now we go through each diamond on this list and do the same thing. Cuando hayamos terminado, esto es lo que obtenemos: una serie de puntos, uno para cada diamante.When we're through, this is what we get: a bunch of dots, one for each diamond.

gráfico de dispersión

Dibujado del modelo siguiendo los puntos de datosDraw the model through the data points

Si observa los puntos con los ojos entrecerrados, la colección parece una línea gruesa y difuminada.Now if you look at the dots and squint, the collection looks like a fat, fuzzy line. Podemos tomar nuestro marcador y dibujar una línea recta a través de ellos.We can take our marker and draw a straight line through it.

Al dibujar una línea, hemos creado un modelo.By drawing a line, we created a model. Piense en esto como tomar el mundo real y hacer un cómic simplista de él.Think of this as taking the real world and making a simplistic cartoon version of it. Ahora el cómic es incorrecto: la línea no pasa por todos los puntos de datos.Now the cartoon is wrong - the line doesn't go through all the data points. Pero es una simplificación útil.But, it's a useful simplification.

Línea de regresión lineal

El hecho de que todos los puntos no pasen exactamente por la línea es correcto.The fact that all the dots don't go exactly through the line is OK. Los científicos de datos lo explican diciendo que existe el modelo, que es la línea, y que cada punto tiene cierto ruido o varianza asociado.Data scientists explain this by saying that there's the model - that's the line - and then each dot has some noise or variance associated with it. Existe la relación subyacente perfecta, y después está la cruda realidad, que agrega ruido e incertidumbre.There's the underlying perfect relationship, and then there's the gritty, real world that adds noise and uncertainty.

Dado que estamos intentando responder a la pregunta ¿cuánto? , esto se denomina una regresión.Because we're trying to answer the question How much? this is called a regression. Y puesto que estamos usando una línea recta, es una regresión lineal.And because we're using a straight line, it's a linear regression.

Uso del modelo para encontrar la respuestaUse the model to find the answer

Ahora tenemos un modelo y le planteamos nuestra pregunta: ¿Cuánto costará un diamante de 1,35 quilates?Now we have a model and we ask it our question: How much will a 1.35 carat diamond cost?

Para responder a la pregunta, calculamos la posición de 1,35 quilates y dibujamos una línea vertical.To answer our question, we eyeball 1.35 carats and draw a vertical line. Donde cruza la línea del modelo, dibujamos una línea horizontal hasta el eje de dólares.Where it crosses the model line, we eyeball a horizontal line to the dollar axis. Se encuentra justo en 10 000.It hits right at 10,000. ¡Bum!Boom! Esa es la respuesta: Un diamante de 1,35 quilates cuesta aproximadamente 10 000 USD.That's the answer: A 1.35 carat diamond costs about $10,000.

Encontrar la respuesta en el modelo

Creación de un intervalo de confianzaCreate a confidence interval

Es natural preguntarse si es muy precisa esta predicción.It's natural to wonder how precise this prediction is. Resulta útil saber si el precio del diamante de 1,35 quilates estará muy cerca de los 10 000 USD, o será mucho mayor o menor.It's useful to know whether the 1.35 carat diamond will be very close to $10,000, or a lot higher or lower. Para averiguarlo, marcaremos una zona alrededor de la línea de regresión que incluya la mayoría de los puntos.To figure this out, let's draw an envelope around the regression line that includes most of the dots. Esta zona es nuestro intervalo de confianza: estamos bastante seguros de que los precios estarán dentro de esta zona, porque en el pasado, la mayoría de ellos lo han estado.This envelope is called our confidence interval: We're pretty confident that prices fall within this envelope, because in the past most of them have. Podemos dibujar dos líneas horizontales más donde la línea de 1,35 quilates cruza la parte superior e inferior de dicha zona.We can draw two more horizontal lines from where the 1.35 carat line crosses the top and the bottom of that envelope.

intervalo de confianza

Ahora podemos decir algo sobre nuestro intervalo de confianza: podemos decir con seguridad que el precio de un diamante de 1,35 quilates es aproximadamente de 10 000 USD, con un mínimo de 8000 USD y un máximo de 12 000 USD.Now we can say something about our confidence interval: We can say confidently that the price of a 1.35 carat diamond is about $10,000 - but it might be as low as $8,000 and it might be as high as $12,000.

Hemos terminado, sin matemáticas ni equipos informáticos.We're done, with no math or computers

Hemos hecho lo que hacen los científicos de datos, y lo hemos hecho simplemente con un dibujo:We did what data scientists get paid to do, and we did it just by drawing:

  • Hemos planteado una pregunta a la que hemos podido responder con datos.We asked a question that we could answer with data
  • Hemos creado un modelo mediante la regresión lineal.We built a model using linear regression
  • Hemos realizado una predicción y la hemos completado con un intervalo de confianza.We made a prediction, complete with a confidence interval

Y no hemos usamos ni matemáticas ni equipos informáticos para hacerlo.And we didn't use math or computers to do it.

Ahora bien, si hubiéramos tenido más información, como...Now if we'd had more information, like...

  • el corte del diamantethe cut of the diamond
  • las variaciones de color (la cercanía al blanco del diamante)color variations (how close the diamond is to being white)
  • la cantidad de inclusiones en el diamantethe number of inclusions in the diamond

...habríamos tenido más columnas....then we would have had more columns. En ese caso, las matemáticas hubieran sido útiles.In that case, math becomes helpful. Si tiene más de dos columnas, resulta difícil dibujar los puntos en papel.If you have more than two columns, it's hard to draw dots on paper. Las matemáticas permiten ajustar esa línea o ese plano a los datos perfectamente.The math lets you fit that line or that plane to your data very nicely.

Además, si en lugar de un puñado de diamantes, tuviéramos dos mil o dos millones, podría hacer ese trabajo de forma mucho más rápida con un equipo informático.Also, if instead of just a handful of diamonds, we had two thousand or two million, then you can do that work much faster with a computer.

Hoy, hemos hablado sobre cómo realizar la regresión lineal y hemos realizado una predicción con datos.Today, we've talked about how to do linear regression, and we made a prediction using data.

Asegúrese de consultar los demás vídeos de la serie "Ciencia de datos para principiantes" de Microsoft Azure Machine Learning Studio (clásico).Be sure to check out the other videos in "Data Science for Beginners" from Microsoft Azure Machine Learning Studio (classic).

Pasos siguientesNext steps