나이팅게일도 눈떴던 데이터 디자인, 수학은 미술이다

수학이 뭐길래
최근 데이터에 대한 관심이 뜨겁다. 구글이나 페이스북 같은 주요 IT 기업들이 ‘21세기의 석유’라고 불리는 데이터 저장을 위해 효과적인 데이터 저장 기술과 데이터 센터 건립에 주력하고 있다. 우리나라에서도 다양한 부문에서 빅데이터 분석이 이루어지고 있으며, 이것이 각종 기업의 신규 사업 아이템이나 고객 맞춤 서비스 제작 등에 활용되고 있다. 그런데 이러한 데이터에 대한 관심에도 불구하고, 데이터 분석을 통해 관련 주제 등을 얼마나 효과적으로 시각화할 것인지에 대한 관심은 아직 우리나라에서는 부족한 편이다.
 
자료, 즉 데이터를 다루고 시각화하는 것은 초등학교 수학 교과서에서부터 시작된다. 초등학교 2학년 수학 수업에서는 표와 활용이라는 단원에서 일종의 막대 그래프를 소개하고, 초등 3·4학년에서는 막대 그래프에 더해 꺾은 선 그래프를 설명한다. 초등 5학년과 6학년에서는 막대 그래프 외에도 그림 그래프나 비율 그래프 등을 가르친다. 중학교에 이르면 도수분포표와 히스토그램, 도수분포다각형 등을 배우고, 마지막으로 고등학교에 가면 고3 때 확률과 통계를 배우면서 정규 분포를 배운다.
 
 
‘21세기의 석유’로 부상한 빅데이터
 
그런데 학교에서 배우는 데이터 시각화 방식은 신사 모자를 닮은 정규 분포 그래프를 제외하면 대개 세로 막대 그래프나 꺾은 선 그래프 방식에 국한되어 있다. 하지만 역사적으로 데이터를 표현했던 기법을 살펴보면, 일찍부터 세로막대형보다 훨씬 더 다양하고 효과적인 방식이 개발되고 사용되었다.
 
그림1

그림1

<그림1> 통계 그래픽 방법의 선구자로 불리는 영국의 정치경제학자 윌리엄 플레이페어가 그린, ‘1700년에서 1782년 사이의 잉글랜드의 수입 및 수출량 그래프’. 수출량과 수입량의 변화를 하나의 그래프 안에 모두 그린 후 두 그래프의 차이를 ‘잉글랜드의 무역수지’(파란색)로 표기하고 면적 그래프 방식으로 표현했다.
 
그림2

그림2

<그림2> 1858년 크림 전쟁에 참여했던 간호사 나이팅게일은 병사들의 사망 원인을 조사하는 과정에서 흥미로운 데이터 시각화 문건을 제작했다. 그는 사망 원인에 따른 월별 사망자 수를 원 그래프로 시각화하기 시작했다. 붉은 부분은 전투 과정에서 입은 부상으로 인한 사망자 수, 검은 부분은 기타 원인에 의한 사망자 수, 푸른 부분은 전염병에 의한 사망자 수를 나타낸다. 이때 서로 겹쳐 놓았던 전략은 전염병에 의해 사망한 군인 수가 다쳐서 사망한 이들에 비해 절대적으로 많다는 사실을 선명하게 부각했다.
 
현대에 이르러 데이터를 효과적으로 시각화하는 작업은 원활한 데이터 확보와 그래픽 기술의 발전을 통해 더욱더 매력적인 작업이 되고 있다. 그러나 우리나라의 경우 시각화 부문에서는 여전히 갈 길이 먼 것처럼 보인다.  가령, 우리나라 국가통계포털에서는 대기 오염도 표와 같이 각 지역의 대기 오염도 수치를 구체적으로 제공하고 있다. 그런데 이 자료로는 대기오염도의 특징이나 경향성 등이 곧바로 드러나지 않는다. 어느 지역이 가장 위험하며, 어느 지역이 가장 청정한지 등을 효과적으로 파악하기 힘든 것이다.
 
미국 워싱턴 대학의 ‘보건지표 및 평가연구소’(IHME)의 연구자들이 발표한 대기 오염도 스트림 그래프처럼 스트림 그래프를 이용해 시각화한다면, 하나의 그래프만으로도 어느 지역이 가장 청정하며 어느 지역이 오염되어 있는지를 순서대로 파악하는 것이 가능해진다.
 
최근에는 그래픽 기술의 발전과 함께 데이터 시각화 작업이 더욱 세련되고 화려한 방식으로 대중들의 시선을 끌고 있다. 학교 현장에서 그래픽 기술을 가르치지 않는다고 하더라도 효과적인 데이터 시각화 기술을 고민하고 표현하는 것은 가능하다.  
 
그림3

그림3

그런 측면에서 가령, 전미애견가협회의 데이터 시각화 작품<그림3>은 매우 매력적이다. 가령, 개를 키우고 싶어서 애견에는 어떤 종들이 있고 각각의 특징은 어떠한지를 알고 싶다고 하자. 기존에 학교에서 배운 데이터 표현 방법을 활용한다면, 애견의 종류를 모두 나열한 뒤 여론 조사나 판매 데이터에 기반해서 막대 그래프나 선 그래프 등을 그릴 수 있을 것이다. 그런데 이럴 경우 애견의 종류가 너무 많은 데다 고려해야 할 요소들이 많기 때문에 자칫 정보가 산만해질 수 있다. 가령, 애견을 기르기로 했다면 애견의 지능은 어떠한지, 몸집은 얼마나 크고 얼마나 오래 사는지, 또 건강해서 기르기 편한지, 얼마나 비싸며 생김새는 얼마나 멋있는지 등 고려해야 할 요소들이 너무 많은 것이다.
 
 
전미애견가협회 시각디자인도 훌륭
 
바로 이런 점을 간파한 미국의 전미애견가협회는 독특한 방식의 데이터 시각화 자료(그림3)를 선보였다. 이 시각화 자료는 크게 전미애견가협회가 매긴 데이터 점수를 x축으로, 대중 사이에서의 인기도를 y축으로 놓은 뒤 각각의 애견 종들이 좌표평면 안에서 어디에 있는지를 한눈에 볼 수 있도록 만들었다.  
 
그리고 여기에 더해 견종 중 지능이 좋은 경우는 머리를 오른쪽으로 향하게 하고 그렇지 않은 경우에는 머리를 왼쪽으로 향하게 했으며, 그림을 통해 애견의 크기를 바로 짐작할 수 있도록 만들었다. 또한 개의 특징에 따라 작은 종인지, 사냥개인지, 애완용인지, 썰매 등을 끄는 작업견인지를 색깔을 달리해 표시했다. 그 결과 애견에 관한 상당량의 정보를 한 장의 시각화 작업을 통해 표현하는 데 성공했다.
 
앞에서 살펴본 것처럼 역사적으로 여러 분야에서 이루어진 데이터 시각화 작업을 통해 20세기 이전에 이미 데이터를 효과적으로 시각화하는 것이 매우 중요하다는 사실이 확인됐다. 20세기 후반에는 모바일 및 컴퓨터 기술의 발전과 함께 데이터의 양이 폭발적으로 증가하면서 방대한 데이터를 효과적으로 시각화하는 작업이 더욱 중요해지고 있다.
 
그러나 학교 수학 교육 과정에서 데이터를 시각화하고 표현하는 방식은 여전히 막대 그래프나 선 그래프 정도에 머물러 있다. 같은 데이터라고 하더라도 그것을 어떤 방식으로 분석하고 시각화하는지에 따라, 데이터를 통해 얻을 수 있는 정보는 완전히 달라질 수 있다. 디자인이 중요해지고 있는 이때 수학 수업에도 디자인 감각이 발휘될 수 있는 융합적 토대가 마련되었으면 좋겠다.
 
조수남 수학사학자 sunamcho@gmail.com
서울대 과학사 및 과학철학 협동과정 박사. 현 서울대 강사이다. 과학사와 수학사를 연구하고 있다. 고등과학원 초학제연구단에서 연구했으며, 『욕망과 상상의 과학사』 등을 썼다.