통계광장조재근 | 경성대학교 수학응용통계학부 교수
통계 인문학과 만나다,
통계는 언제 과학적인 방법이 되었나
도서관에서 통계학 책 찾기
우리나라 대학에서 통계학 전공학과들은 이과대학이나 자연과학대학에 속해있기도 하고 상경대학이나 경영대학에 있기도 하다. 교과 과정을 비교해보면 서로 크게 다르지 않은 데도 그렇다. 도서관에 있는 통계학 책들 역시 마찬가지다. 어떤 통계학 책은 순수과학(KDC 분류 로는 400번대) 책으로 분류되어 수학, 물리학 책들 사이에 있는가 하면 또 어떤 책들은 사회과학(KDC 분류로 300번대) 책으로 분류되어 경제학 책들과 함께 있다. 이처럼 대학의 편제나 도서관의 책 분류를 보면 통계학은 정체가 애매해 보인다. 한편 통계학과 매우 가까운 관계인 데이터 분야의 책들, 또는 최근 각광을 받고 있는 데이터사이언스 분야의 책들은 어떨까? 도서관에서 그 책들은 주로 총류(KDC 분류로는 000번대) 분야의 서가에서 찾을 수 있다. 그렇다 보니 대학도서관 같이 큰 도서관에서 통계학과 데이터사이언스 책들을 찾으려면 제법 여러 층을 오르내리며 발품을 팔아야 한다. 숱한 학문 분야들 가운데 이런 분야가 또 있을까? 아마 매우 드물거나 아예 없을 것이다. 유독 통계학만 양쪽에 나뉘어 있는 이유가 무엇일까?
오늘날 대학에서 어엿한 학문 분야의 지위를 차지하고 있지만 역사를 돌이켜보면 통계학이 독자적인 학문으로 자리잡는 과정이 그리 간단하지만은 않았다. 지난 몇 세기 동안 데이터와 확률, 통계학은 때로 열광적으로 환영받기도 하고 때로 임시방편에 지나지 않는다고 비판받기도 했다. 통계학을 많이 활용하는 분야들 가운데 특히 의학은 그런 역사를 가장 잘 보여주는 분야이다. 19세기 의학의 역사를 살펴보면 의학이 과학이 되는 과정에서 통계학이 종종 등장한다. 그런데 당시 통계학은 그 자신부터가 아직 어설픈 상태였으므로 의학이 과학으로 발전해가는 역사는 통계학이 시행착오를 거쳐 나름의 정체성을 모색하는 과정이기도 했다.
프랑스는 왜 수천만 마리의 거머리를 수입했을까?
물이 많은 곳에 사는 생물 가운데 거머리라는 환형동물이 있다. 흡혈동물이므로 당연히 사람들이 기피하는 생물인데 프랑스에서는 1833년 단 한 해 동안 흡혈 거머리를 무려 4천 2백만 마리나 수입했다고 한다. 거머리의 용도는 환자의 몸에서 피를 빨아내는 질병치료용이었다. 사혈법(방혈법, bloodletting)이라고 불리는 이 치료법은 옛날 히포크라테스도 권장한 방법으로서 프랑스뿐 아니라 유럽에서 질병을 치료하는 방법으로 널리 쓰였다. 특히 19세기 전반기 유럽에서 가장 과학이 앞선 나라였던 프랑스에서는 ‘생리학적 의학’ 이론에 따라 사혈법이 폐렴을 비롯한 각종 염증을 치료하는 과학적인 방법으로 인정받고 있었다. 그러다가 1830년대에 루이(Louis, P.-C.-A., 1787-1872)라는 의학자가 사혈법이 효과적인 치료법이 아님을 밝혔는데 그가 내세운 주장의 근거가 다름 아닌 통계 데이터였다. ‘수치적 방법(numerical method)’이라고 불렸던 루이의 방법은 사혈법으로 치료한 환자들과 그렇지 않은 환자들의 사망률을 비교하는 것이었다. 루이는 통계데이터 덕분에 당시의 유력한 의학 이론을 반박할 수 있었던 것이다. 사혈법이 효과적인 치료법이 아님이 밝혀지면서 프랑스에서 수입하는 거머리의 양도 급격히 줄었음은 물론이다.
그런데 루이가 이용한 통계적 방법은 사실 매우 초보적인 것이었다. 물론 의학에서 데이터를 중시하게 된 것은 이전에 비해 커다란 진보였지만 그렇다고 해서 데이터만으로 온전한 과학이 될 수는 없었다. 루이 역시 통계 데이터만으로 의학연구가 충분하다고 주장한 것은 아니었다. 그는 다른 방법들과 더불어 자신의 수치적 방법을 활용한다면 의학이 사실에 바탕을 둔 더욱 과학적인 학문이 될 것이라고 주장했다. 루이의 방법은 데이터가 많으면 더 신뢰할 수 있는 방법이기는 했지만 확실한 인과관계나 불변의 과학적 법칙을 얻기 어려운 방법이었다. 루이의 연구가 나오고 나서 한 세대쯤 지나자 확률과 통계를 이용한 의학의 한계를 지적하는 목소리가 뚜렷하게 등장하는데 그 주인공은 실험의학의 대표자 베르나르(Claude Bernard, 1813-1878)였다.
통계학적 방법은 과학과 거리가 멀다고 주장한 베르나르
사실 근대과학과 의학의 관계는 단순하지 않았다. 물리학과 화학의 발달에도 불구하고 의학에서는 다른 분야의 성과와 연구방법을 적용하는 것이 매우 늦었다. 그 이전까지 의학 연구란 환자의 상태를 관찰하거나 사람이 죽은 뒤 시체 해부를 통해 질병에 대해 알아보는 정도에 머물러 있었다. 즉 생체에 대한 실험연구가 이루어지지 않았기 때문에 사람 몸속에서 어떤 일이 벌어지는지 탐구하는 생리학, 병이라는 것이 사람의 몸속에서 어떻게 진행되는지 탐구하는 병리학 등의 연구가 진전을 보기 어려웠던 것이다.
19세기 후반 의학의 역사에서 실험실 연구를 가장 강력하게 옹호한 베르나르는 사체 해부뿐 아니라 살아있는 생체를 대상으로 한 실험을 강조한 인물이었다. 비록 인간이 아닌 개와 같은 생물을 대상으로 한 것이었지만 그의 생체해부(vivisection) 방법은 당시에 이미 끔직한 동물학대라는 비판을 받기까지 했다. 그처럼 실험실 연구를 강조한 베르나르가 보기에 아무런 실험도 하지 않고 빈도를 비교하는 방식으로 이루어지는 통계적 의학은 제대로 된 과학과는 거리가 먼 것이었다. 그는 확률, 통계를 이용한 의학 연구를 다음과 같이 비판했는데 그의 주장에는 오늘날처럼 빅데이터가 종교가 된 시대에도 귀기울일 만한 내용이 들어있다.
1생물의 물리화학적 현상은 계산으로 환원될 수 없다.
섭취한 음식물의양과 배설한 양을 아무리 물리화학적으로 정밀하게 측정해 통계를 내더라도 생물체 내부에서 이루어지는 소화와 영양에 대해서는 아무 것도 알 수가 없듯, 생리학적 연구가 부족한 상태에서 하는 양적인 측정이나 계산은 무익하다.
2평균은 생물학적 현상을 왜곡한다.
평균값은 혈압이나 맥박이 공복, 소화, 운동, 휴식 등에 따라 계속 변화한다는 생물적 특징을 없애버린 값이다. 의사가 한 질병에 대해 아주 많은 개인들이 관찰해 평균을 낸 다음 그 결과로 각 개인 환자에 대한 처방을 내린다면 그 의사는 실재하지도 않는 환자에 대해 처방을 내린 셈이다.
3의학에서는 통계적 비교가 불가능하다.
통계학이 점점 널리 쓰이는 이유는 사실들과 비교할 수 있게 해주기 때문이다. 그런데 성, 연령, 기질 등이 완전히 닮은 환자를 찾을 수 없으 므로 의학에서 통계적 비교는 불가능한 일이다.
4큰 수의 법칙으로 과학적 법칙을 얻지 못한다.
통계학은 확실성 대신 확률만을 알려줄 뿐이다. 과학적 법칙은 확실성에서 더 나아가 절대적 결정론에 입각해야 하므로 통계학에서는 법칙이 나올 수 없다. 어떤 수술의 결과 몇 번 수술 가운데 몇 번 사망이라고 통계를 내는 것은 아무것도 알려주지 않는다. 결과가 생기게 된 원인을 정확하게 찾아야 올바른 예측이 가능한 과학적 법칙을 얻을 수 있다.
5결국 통계에 입각한 의학은 억측과학일 뿐이다.
의사에게 필요한 것은 아주 많은 경우에 대한 것이 아니고 환자 개인의 치유 여부이다. 하지만 통계는 개개의 경우에 대해서는 아무것도 가르쳐주지 않는다. 관찰의 나열에 불과한 통계학에 입각하고있는 한, 의학은 참다운 과학, 즉 확실한 과학이 못 되고 영구히 억측과학에 머물 것이다.
의사에게 필요한 것은 아주 많은 경우에 대한 것이 아니고 환자 개인의 치유 여부이다. 하지만 통계는 개개의 경우에 대해서는 아무것도 가르쳐주지 않는다. 관찰의 나열에 불과한 통계학에 입각하고있는 한, 의학은 참다운 과학, 즉 확실한 과학이 못 되고 영구히 억측과학에 머물 것이다.
이후 통계학이 더 과학적인 연구방법으로 자리 잡은 것은 20세기에 접어들고 나서의 일이었다. 특히 베르나르가 비판했던 의학 연구에서 확률과 통계학의 지위를 뚜렷이 부각시킨 것은 임상시험(clinical trial) 방법이었다. 이전의 단순 비교방법이 과학적인 것이 되기 위해서는 20세기의 정교한 수리통계학 이론이 필요했고, 1940년대가 되어서야 눈가림법, 랜덤화, 대조군 등이 포함된 임상시험 연구방법이 널리 인정받게 된다.
답을 찾고 새로운 질문을 만드는 역할을 통해 과학에 이바지
19세기 전반기 프랑스 의학에서 통계는 사혈법을 둘러싼 사변적인 의학 이론의 허구성을 드러내는 역할을 했다. 통계학의 역사에서 당시는 의학뿐 아니라 사회 연구에서도 데이터가 그 자체로 뚜렷한 역할을 했던 시대였기 때문에 데이터는 오늘날의 빅데이터 못지않게 높은 대접을 받았다. 데이터가 드러내는 규칙성이나 비교 분석 결과들은 기존의 이론을 허물거나 뒷받침하는 역할에 그치지 않고 새로운 이론을 만들어내는 역할까지 맡았다. 그런데 그 과정에서 통계학은 집단과 개인의 관계를 어떻게 볼 것인가라는 새롭고도 심오한 질문을 낳게 된다. 그 질문은 사회나 의학 연구에서만 중요한 것이 아니라 물리학자들의 상상력까지 자극하기에 이르는데, 알고보면 오늘날 빅데이터를 활용한 개인별 상품 추천이나 마이크로 타깃팅 광고 전략, 그리고 개인별 맞춤의학 연구 등이 모두 이 질문에 닿아있다.
한편 데이터에 대한 열광의 시대가 지나고 19세기 후반에 접어들자 데이터만으로는 한계가 있다는 주장이 설득력을 얻었다. 이후 통계학은 19세기 말과 20세기 초부터 이론과 방법 면에서 급성장함으로써 거의 모든 수량적인 과학연구를 아우르는 독자적인 지위를 얻게 된다. 이제 데이터나 확률은 엄밀한 과학연구 방법이 아직 없을 때 이용하는 임시방편에 지나지 않는다는 19세기적 사고를 다시 검토해야 하는 상황이 된 것이다. 당연히 그 과정에서 나올 수 밖에 없는 질문은 이런 것이다. 통계학은 실험실 연구 못지않게 궁극적인 성과를 얻을 수 있는 연구방법일까? 우연이나 임의성은 과연 아직 완전하지 못한 인간의 한계 때문인가, 아니면 우주의 본질인가? 이처럼 통계학은 많은 문제에 대해 나름의 이론과 방법으로 과학적으로 답하는 역할을 해왔을 뿐 아니라 새로운 질문을 제기하는 역할을 통해서도 과학에 크게 이바지해왔다.
다시 맨 처음에 우리가 던졌던 질문으로 돌아가보자. 역사를 통해 엿본 바에 따르면 통계학 책이 도서관 여러 곳에 흩어져 있는 것은 자연과학이든 사회과학이든 어느 특정 분야 안에 가두기 어려운 통계학만의 독특한 특성 때문인 것 같다. 그렇다면 통계학이나 데이터 사이언스처럼 융합적인 분야를 제대로 담아내기에는 오늘날의 학문 분류나 도서분류 방법이 너무 낡아버린 것인지도 모른다. 새로운 질문을 만드는 데 능통한 통계학이 기존 분류체계의 타당성을 묻는 질문을 제기하고 있는 셈이다. 분류는 통계분석과 빅데이터분석법 가운데 하나이므로 지금까지의 분류법 대신 새로운 분류기준을 마련하는일을 통계학이 맡게 될지도 모를 일이다.