可视化数据
数据科学家会直观呈现数据,以更好地理解数据。 他们可以扫描原始数据、检查摘要度量值(如平均值)或绘制数据图表。 图表是一种可视化数据的强有力方式,数据科学家经常使用图表快速了解适度复杂的模式。
直观地表示数据
绘制图表是为了提供对数据的快速定性评估,这有助于理解结果、查找离群值、了解数字的分布方式等。
尽管有时候我们提前知道哪种图表最有用,但其他时候我们以探索性的方式使用图表。 若要了解数据可视化效果的强大功能,请考虑以下数据:无人驾驶汽车的位置 (x,y)。 在数据的原始形式下,很难看到任何真实的模式。 平均值告诉我们,汽车的路径以 x = 0.2 和 y = 0.3 为中心,数值范围似乎介于 -2 和 2 之间。
时间 | Location-X | Location-Y |
---|---|---|
0 | 0 | 2 |
1 | 1.682942 | 1.080605 |
2 | 1.818595 | -0.83229 |
3 | 0.28224 | -1.97998 |
4 | -1.5136 | -1.30729 |
5 | -1.91785 | 0.567324 |
6 | -0.55883 | 1.920341 |
7 | 1.313973 | 1.507805 |
12 | 0.00001 | 0.00001 |
13 | 0.840334 | 1.814894 |
14 | 1.981215 | 0.273474 |
15 | 1.300576 | -1.51938 |
16 | -0.57581 | -1.91532 |
17 | -1.92279 | -0.55033 |
18 | -1.50197 | 1.320633 |
19 | 0.299754 | 1.977409 |
20 | 1.825891 | 0.816164 |
如果我们现在绘制一段时间内的 Location-X,我们可以看到,在时间 7 和 12 之间似乎缺少值。
如果我们用图表绘制 X 与 Y,最终会得到一个汽车行驶位置的地图。 很明显,这辆车一直在绕圈行驶,在某个时刻开到了那个圆圈的中心。
图表不限于像上面一样的 2D 散点图。 可以通过图表浏览数据的其他方面;例如比例(饼图和堆积条形图)、数据如何分布(直方图和箱线图)。 通常,当我们尝试理解原始数据或结果时,我们可能会试验不同类型的图表,直到我们遇到以视觉上直观的方式解释数据的图表。