통계광장조재근 | 경성대학교 수학응용통계학부 교수
통계인문학과 만나다 Ⅱ
데이터 시대는
언제부터 시작되었을까
19세기, 최초의 데이터시대
통계학의 역사는 언제 어디서부터 시작되었을까? 학자들은 보통 17세기 중반 무렵을 그 시작으로 보지만 통계학이 나름의 학문으로 인정받고 대학에 독자적인 전공으로 자리 잡은 것은 20세기 이후부터였다. 다른 분야와 비교해 볼 때 통계학은 매우 젊은 학문인 것이다. 그렇다면 20세기가 되기 전까지는 통계조사도 없고 데이터도 없었을까? 물론 그렇지 않았다.
구미 각국에서는 19세기 전반기에 이미 각종 통계조사가 활발해졌고 데이터가 많은 사람의 주목을 받기 시작했다. 덕분에 그 시기는 역사 연구자들로부터 ‘통계에 대한 열광의 시대’라는 특별한 이름까지 얻었다. 하지만 아무리 많아도 데이터만으로는 과학이 되기 어려웠고 그 데이터를 분석하기 위한 체계적인 이론과 방법은 19세기가 거의 끝나갈 무렵에서야 나타났다. 즉 20세기를 학문으로서의 통계학의 시대라고 한다면 19세기를 데이터의 시대라고 부를 수 있겠다.
비록 아직 데이터가 정밀한 이론이나 분석법과 만나지는 못한 시기였지만 19세기는 통계를 둘러싸고 다양한 의견이 등장했던 흥미진진한 시기였다. 데이터가 풍성하게 만들어지면서 사회 속에서 그 데이터의 역할을 둘러싼 논쟁도 많이 벌어졌기 때문이다. 당시가 영국을 시작으로 산업혁명이 진행되던 시기였으며 19세기가 시작되기 직전인 1789년에 프랑스대혁명이 있었던 것을 떠올려보면 통계 데이터는 혁명의 시대가 낳은 산물 가운데 하나였음을 알 수 있다. 당시에 데이터가 맡은 역할은 변화와 혼란의 와중에서 시대를 파악하는 데 도움이 되는 과학적인 자료를 제공하는 것이었다. 특히 당시 사람들이 주목했던 통계는 자살, 범죄, 빈곤, 공중보건 등 사회의 어두운 모습을 드러내는 통계들이었다.
19세기 전반기 데이터의 역사를 살펴보면 그 당시의 열광적인 분위기가 마치 ‘빅데이터의 시대’라고도 불리는 오늘날의 분위기와 흡사하다는 느낌까지 받게 된다. 그러고 보면 산업혁명과 정치혁명이라는 이중혁명의 시대에 데이터가 맡았던 역할과 흔히 ‘4차 산업혁명’ 시대라고 불리는 오늘날의 데이터가 하는 역할을 서로 비교해보는 것도 흥미롭겠다.
나는 평균적인 한국인일까?
거칠게 요약해보면 통계학의 역사는 평균을 강조하는 흐름과 상관이나 회귀분석처럼 차이와 변화에 더 주목하는 흐름이 서로 시소를 타듯 오르내리며 진행되어 왔던 것 같다.
그 가운데 데이터에 대한 열광의 시기였던 19세기 전반기는 평균이 더 강조되는 편이었는데 그 시대를 대표할 사람을 꼽는다면 벨기에 사람인 케틀레(A. Quetelet, 1796-1874)를 들 수 있다. 오늘날 그는 비만을 측정하는 체질량지수(BMI index)를 만든 사람으로 겨우 이름이 남아있지만 통계학의 역사에서는 1820년대부터 거의 반세기 동안 유럽 통계를 지배한 중요한 인물로 기록된다. 특히 그는 이전까지 천문학을 비롯한 자연과학 데이터를 분석하는데 이용되던 확률 이론을 사회 현상을 설명하는 데에 적용함으로써 사회에 대한 연구를 과학적으로 만들어보려는 야심찬 시도를 했던 사람이었다.
케틀레가 남긴 것 중에 사회 연구와 통계학에서 가장 유명한 것은 ‘평균인(average man)’이라는 개념이다. 평균인이란 많은 사람들로부터 측정한 신체적, 정신적인 특성들을 평균해서 만든 ‘사람’을 일컫는다. 물론 처음에는 가상의 존재였지만 누구나 쉽게 이해할 수 있고 통계로 뒷받침된 덕분에 평균인이라는 개념은 금세 널리 퍼졌고 사회를 대표할 수 있는 전형적인 존재로 떠올랐다. 이전까지 한 집단이나 사회, 또는 나라를 대표하는 존재는 왕이나 정치가, 성직자처럼 큰 권력을 가진 사람들이었다.
그런데 케틀레가 제시한 평균인은 특출한 인물이 아니라 모든 면에서 중간에 있는 보통사람이었다. 평균인은 사람들의 신분이 엄격히 나누어져 있어서 귀족과 평민, 노예를 같은 인간으로 간주하지 않았던 시대라면 나올 수 없는 개념이었고 통계데이터가 널리 생산되지 않는 시대였다면 역시 태어날 수 없는 존재였다.
그러므로 오늘날 우리가 ‘평균적인 한국인의 모습과 삶’을 보도하는 기사를 만나게 된 것은 케틀레 덕분이라고 할 수 있다. 예컨대 우리나라 통계청에서는 5년 주기로 ‘생활시간조사’ 결과를 발표하고 있는데 2015년에 발표한 ‘2014년 생활시간조사’가 가장 최근의 자료다. 그 자료에 따르면 ‘한국의 평균인’은 하루 TV시청에 1시간 55분, 교제활동에 43분, 종교, 문화, 스포츠 활동에 44분을 사용한다고 한다. 우리는 거울을 보듯 그런 통계와 자신을 비교해보고 안도하거나 불만스러워하거나 아니면 거꾸로 거울을 욕하듯 통계를 비난하곤 한다.
19세기 통계, 평균인에서 우생학으로
평균이라는 개념을 유명하게 만들었지만 케틀레 자신은 평균적인 사람과 거리가 멀었다. 그는 천문학, 기상학, 사회과학 등 여러 분야에서 활동했을 뿐 아니라 유럽 곳곳에 다양한 과학단체를 만들어 국제적인 교류에 앞장선 인물이었다.
19세기 전반, 각종 통계조사가 활발하게 이루어지기 시작하면서 유럽에서는 지역이나 나라별로 통계 교류도 활발해졌다. 그런데 서로 만드는 통계도 다르고 같은 통계라 하더라도 정의나 조사방법이 제각각 달랐기 때문에 통계를 비교하기가 어려웠다. 즉 표준화가 이루어지지 않고는 통계의 타당성과 신뢰성을 확보하기 어려웠던 것이다.
그리하여 통계학이 학문으로 자리 잡기 훨씬 이전인 19세기 중반에 각국의 통계전문가들이 만나 정보를 교류하는 모임이 시작되었다. 1853년부터 2년마다 유럽 대도시들에서 정기적으로 열린 국제통계회의(ISC)가 그것인데 첫 모임이 벨기에의 브뤼셀에서 열린 이유는 그 모임을 만드는 데 주도적인 역할을 한 인물이 바로 케틀레였기 때문이었다.
그렇다고 해서 19세기 통계학의 역사 전체가 케틀레의 시대일 수는 없었다. 인간과 사회를 중심으로 간략히 요약해본다면 19세기 통계의 역사는 ‘평등주의’에서 시작하여 ‘우생학’으로 나아갔다고 정리할 수 있다.
말할 나위도 없이 우생학은 사람들을 우수한 집단과 열등한 집단으로 나눌 수 있다고 보고, 다양한 방법을 동원해서 열등한 사람들의 결혼과 출산을 막고 우수한 집단의 수를 늘림으로써 더 좋은 사회와 국가를 만들어보려는 운동이었다.
우리가 지금 우생학이라는 이름조차 듣기 어려워진 것은 나치가 홀로코스트의 과학적 논리로 우생학을 이용했던 탓인데, 그 이전까지만 하더라도 우생학은 구미 각국에서 어엿한 과학의 대접을 받았었다. 시대 분위기가 그렇다보니 현대통계학 역시 우생학과 뗄 수 없는 관계를 갖게 되었다.
19세기 후반 이후부터 통계학을 이끌었던 영국의 골턴(F.Galton)이나 피어슨(K. Pearson), 그리고 피셔(R. A. Fisher)와 같은 인물들이 모두 당대를 대표할만 한 적극적인 우생학주의자들이었기 때문이다.
사실 19세기 후반에 우생학이라는 이름을 만들고 영국 우생학운동의 대표자가 된 골턴이 회귀와 상관이라는 개념을 만든 것도 평균을 강조한 케틀레에 대한 뚜렷한 반발 때문이었다.
빅데이터의 시대, 새로운 사회물리학의 시대
케틀레의 평균인은 자연과학자들이 많은 데이터를 모으고 그 데이터들의 평균값을 구하여 물리적인 참값을 찾으려 한 것과 마찬가지 시도였다. 자연현상을 관측한 데이터의 중심에 단일한 참값이 있듯이 사회에서도 중심의 역할을 하는 존재가 실제로 있다는 것이다. 이처럼 양적인 데이터를 가지고 사회를 파악하려는 노력으로 인해 그는 계량적인 사회연구, 그 자신의 표현에 따르면 ‘사회물리학(social physics)’의 대표자가 되었다.
케틀레가 데이터를 가지고 사회를 과학적으로 연구할 수 있다고 본 것은 데이터가 많아질수록 개인의 다양한 특성은 사라지고 집단의 특성만 부각되기 때문이었다. 그는 많은 데이터에서 드러난 규칙성으로부터 자연과학의 법칙과 유사한 사회의 법칙을 찾을 수 있다고 생각했다.
케틀레를 비롯한 19세기의 선구자들 덕분에 오늘날 우리는 통계조사를 통해 정치, 사회, 경제 등 다양한 분야에서 아주 많은 것들을 파악할 수 있게 되었다. 하지만 표본을 대상으로 하는 통계조사로는 제대로 알아내기 어려운 문제들도 여전히 많다. 성매매 같은 문제가 대표적이다. 통계조사 담당자가 아무리 비밀을 보장한다고 약속한들 성을 판매하는 쪽이나 구매하는 쪽이나 제대로 답을 할 리가 없다. 통계청이나 조사기관이 알아내기 어렵다면 경찰이나 국세청처럼 방대한 정보를 가진 기관들은 우리나라 성매매 시장의 판매자가 얼마나 되고 구매자는 얼마나 되며 어느 정도의 돈이 흘러 다니는지 알고 있을까? 지하경제에 해당하는 밀수나 마약 등과 함께 성매매에 대해서는 경찰과 국세청도 실태를 제대로 파악하기 어려울 것이다.
그런데 얼마 전 방송에서 성매매업소 업주들이 이용한다는 데이터베이스를 찾아내서 보도했다. 그 데이터베이스에는 매수자 남성들의 전화번호와 각종 정보가 차곡차곡 정리되어 있다고 한다. 그런데 거기에 실린 전화번호 수가 무려 사백만 건이나 된다고 한다! 통계학을 공부하는 사람을 놀라게 하는 것은 그처럼 엄청난 구매자 수만이 아니다. 국가기관도 알기 어려운 정보를, 그것도 대단히 민감한 개인정보를 뜻밖의 곳에서 정밀하고도 체계적으로 모아 관리하고 이용하고 있었다는 점이 더욱 놀랍다.
빅데이터의 중요한 특징 중 하나가 이전까지의 데이터로는 알 수 없었던 문제에 대해 파악할 수 있게 해주는 점이라고 한다. 데이터의 규모가 커졌으므로 집단에 대해 더 총체적으로 알 수 있게 된 것은 물론이고 작은 집단, 궁극적으로는 특정 개인의 생각과 행동까지 파악할 수 있게 해준다는 것이다. 사실 소집단이나 개인까지 세밀하게 알아내는 것은 통상적인 표본조사에서는 상상하기 어려운 일이다.
케틀레의 시대와 비교해볼 때, 빅데이터를 이용한 오늘날의 사회물리학은 집단의 움직임과 개인의 모습을 모두 들여다보는 새로운 과학이라고 불러도 되겠다. 그런데 문제는 우리 개개인으로서는 누가 자신의 데이터를 어떻게 저장하고 어디에 활용하는지 까맣게 모른다는 점이다. 성매매업소 업주들이 만들어 이용했다는 데이터베이스는 오늘날 데이터의 생산과 이용 실태, 무엇보다 빅데이터시대 개인의 모습을 잘 드러내준다. 딱하게도 그 모습은 벌거벗은 초라한 모습이다.