송한나의 the art of data (2회)
이럴 땐 이런 그래프: 데이터에 맞는 시각화 방법
필자 송한나는 심리학과 시각디자인학을 전공하고 인지과학 박사를 수료하였으며, 안그라픽스에서 디자이너로서 경력을 시작하여 뉴틸리티, 프린스플, 삼성SDS를 거쳐 현재 코그니텀랩(www.cognitumlab.com)을 운영하고 있다. 어떻게 해야 UX디자인과 데이터 과학을 잘 융합할 수 있을지 탐구하고 있으며, 특히 데이터 시각화를 통해 딱딱한 데이터를 말랑말랑하게 만들어 누구나 데이터를 쉽게 읽고 보고 느낄 수 있도록 돕는 데 관심이 많다. 디자이너의 시각으로 어떻게 데이터 시각화를 유용하면서도 아름답게 만들 수 있을지에 대한 내용을 몇 회에 걸쳐 함께 알아본다.
지난 회에서는 데이터 시각화가 데이터의 특성을 이해하는 데 얼마나 유용하고 간편한 도구인지, 데이터 시각화가 이미 우리의 삶에 얼마나 가깝게 스며들어 있는지를 잘 알아보았습니다. 이제는 실제로 데이터 시각화를 어떻게 다룰 수 있을지 구체적인 방법을 살펴볼 때입니다.
이번 회에는 데이터에 적합한 시각화 방법을 어떻게 선택할 것인가에 대해 살펴보겠습니다. 데이터 시각화 방법의 분류 기준은 크게 두 가지 관점으로 접근할 수 있습니다. 하나는 데이터를 구성하는 변수의 개수에 따라 분류하는 것이고, 다른 하나는 데이터 시각화의 목적에 따라 분류하는 것입니다.
변수의 개수에 따른 분류
첫번째로 변수의 개수에 따라 분류하는 기준은 간단합니다. 이름에서 알 수 있듯이 변수가 한 개면 단변량(univariate), 두 개면 이변량(bivariate), 세 개 이상이면 다변량(multivariate) 데이터 시각화로 분류할 수 있습니다. 단순하게 구별해 보자면 변수의 값을 x축과 같은 한 개의 축에 표시하면 단변량, x축 및 y축과 같은 두 개의 축에 표시하면 이변량이라고 구분할 수 있습니다. 다변량은 세 개 이상의 축에 표시하는 경우뿐만 아니라, 두 개의 축에 컬러 코딩과 같은 다른 방법을 더하는 방법에서 볼 수 있듯이 다양하게 응용됩니다. 이와 같은 세 가지 유형의 데이터 시각화 방법을 차례로 살펴보겠습니다.
먼저 단변량 데이터 시각화 방법 중 가장 많이 쓰이는 것은 차트의 대표주자라고 할 만한 바 차트(bar chart), 라인 차트(line chart), 파이 차트(pie chart)와 같은 기본 차트입니다. 한 개의 축(axis)에 대응하는 데이터 값을 막대의 길이로 표현하는가, 선으로 이어서 표현하는가, 원의 넓이로 표현하는가에 따라 각각의 형태가 달라지는 것으로 이해할 수 있습니다. 가장 단순한 차트이기에 데이터 값의 크기를 직관적으로 파악할 수 있고, 누구나 쉽게 이해할 수 있습니다. 그러므로 정확한 데이터 분석이 강조되는 대시보드 디자인에서 빠질 수 없는 기본 시각화 방법입니다. 같은 종류의 데이터를 여러 가지 조건으로 비교하고 싶다면 단순한 기본 차트를 위로 쌓아 올리거나(stacked) 옆으로 늘어놓는(multiple) 방법으로 응용함으로써 더 복잡한 데이터를 시각화할 수 있습니다.

[그림 1] 대시보드에 사용된 기본 차트의 예
다음으로 이변량 데이터 시각화 방법은 두 개의 축에 각각 대응하는 데이터 값을 표시하는 방법이라고 이해할 수 있습니다. 대표적인 유형이 산포도(scatterplot)입니다. 산포도는 두 개의 변수 간 상관관계를 직관적으로 파악할 수 있는 장점이 있습니다. 데이터 포인트의 분포 패턴에 따라 양의 상관관계가 있는지, 음의 상관관계가 있는지, 아무런 상관관계가 없는지를 한눈에 살 ....