데이터 시각화

완료됨

데이터 과학자는 데이터를 보다 정확하게 이해하기 위해 데이터를 시각화합니다. 원시 데이터를 검사하거나, 평균과 같은 요약 측정값을 검사하거나, 데이터를 그래프로 표시할 수 있습니다. 그래프는 데이터를 시각화하는 강력한 수단이며, 데이터 과학자는 종종 그래프를 사용하여 적당히 복잡한 패턴을 빠르게 식별합니다.

시각적으로 데이터 표시

그래프를 작성하면 데이터의 질적 평가를 빠르게 수행할 수 있으며 결과를 이해하고, 이상값을 찾고, 숫자의 분포를 이해하는 데 유용합니다.

어떤 종류의 그래프가 가장 유용할지 미리 알 수 있는 경우도 있지만, 그래프를 시험적 수단으로 사용하는 경우도 있습니다. 데이터 시각화가 얼마나 강력한지 알아보기 위해 다음과 같은 데이터를 가정하겠습니다. (x,y)는 자율 주행 자동차의 위치입니다. 데이터 원시 양식에서는 패턴을 알아보기가 쉽지 않습니다. 평균을 보면 자동차의 경로가 x=0.2, y=0.3을 중심으로 몰려 있고, 숫자 범위가 약 -2에서 2 사이인 것으로 나타납니다.

시간 Location-X Location-Y
0 0 2
1 1.682942 1.080605
2 1.818595 -0.83229
3 0.28224 -1.97998
4 -1.5136 -1.30729
5 -1.91785 0.567324
6 -0.55883 1.920341
7 1.313973 1.507805
12 0.00001 0.00001
13 0.840334 1.814894
14 1.981215 0.273474
15 1.300576 -1.51938
16 -0.57581 -1.91532
17 -1.92279 -0.55033
18 -1.50197 1.320633
19 0.299754 1.977409
20 1.825891 0.816164

시간에 따른 Location-X를 그림으로 나타내면 시간 7~12 사이에 일부 값이 누락된 것을 볼 수 있습니다.

Graph of Location-X coordinates plotted against time.

X 좌표와 Y 좌표를 그래프로 그리면 자동차가 이동한 맵을 얻을 수 있습니다. 자동차가 원을 그리며 돌다가 특정 시점에 원의 중심으로 이동한 것을 바로 알 수 있습니다.

Graph of Location-X and Location-Y coordinates plotted.

그래프는 위와 같은 2D 산점도로 제한되지 않습니다. 데이터의 다른 측면, 예를 들어 비율(원형 차트 및 누적 막대그래프) 및 데이터가 분산되는 방식(히스토그램 및 상자 수염 플롯)을 살펴보는 데 사용할 수 있습니다. 원시 데이터나 결과를 이해하기 위해, 시각적으로 직관적인 방식으로 데이터를 설명하는 그래프를 찾을 때까지 여러 가지 유형의 그래프를 시험하는 경우가 종종 있습니다.