통계광장조재근 | 경성대학교 수학응용통계학부 교수
데이터 시대,
데이터만 알면 헛똑똑이
헛똑똑이로 그려진 소설 속 통계전문가들의 모습
여름이 지나면 곧 대학입학 수시전형이 시작된다. 한여름 더위 속에서 입시 준비를 하고 있는 청소년들 가운데에는 통계학을 전공하고 싶어하는 학생들도 있을 것이다. 수험생들은 적성이나 일자리 전망도 중요하게 생각하겠지만 앞선 세대들의 삶도 참고해서 진로를 고를 것 같다. 그렇다면 과연 우리나라에서 통계학을 전공한 사람들의 삶은 어떤 모습일까? 그런 생각을 하다보면 20년쯤 전에 읽은 소설이 하나 떠오른다. 박정애라는 소설가가 쓴 작품인데 줄거리는 잊었지만 ‘계산통계학과’라는 학과 이름이 소설에 나오기 때문에 기억에 남았다. 잠시 그 부분만 찾아 읽어보자.
이 짧은 구절만으로도 소설가가 계산통계학과에서 공부한 사람들의 삶을 어떻게 생각하고 있는지 쉽게 짐작할 수 있다. 소설 속의 인물 상혁은 사회과학을 전공한 덕분에 정치와 사회의 모순들을 깨닫고 더 나은 세상을 꿈꾸게 되었을 것이다. 하지만 현실 세계의 높은 벽 앞에서 그의 이상은 좌절되고 그에게는 점점 불평불만만 쌓여간다. 그런데 계산통계학과에서 공부한 사람들은 그와 전혀 다르게 산다. 그들은 복잡하고 환멸 가득한 세상과 상관없는 똑 떨어지는 것을 공부한다. 그리고 전공 덕분에 안정적인 일자리를 얻어 소시민적 행복에 취해 산다. 사회 문제에 대해 고민하는 일이 없으니 당연히 좌절할 일도 없고 전공 선택을 후회할 일도 없다.
사실 지금 우리나라 대학에서 소설에 나오는 ‘계산통계학과’를 찾기는 어렵다. 그런 이름을 가진 학과가 1970년대와 1980년대에는 제법 있었지만 그 이후에 사라졌기 때문이다. 컴퓨터과학, 통계학 두 전공을 모아 한 학과를 만들었으니 일종의 융합학과였던 셈인데 그 학과가 오래 지속되지 못한 것을 보면 시대를 너무 앞섰던 모양이다.
국내 작품은 아니지만 지나칠 정도로 통계숫자를 좋아하는 사람을 주인공으로 삼은 소설도 있는데 1854년에 나온 찰스 디킨스의 <어려운 시절>이 그것이다. 소설은 주인공 토머스 그랫그라인더의 다음과 같은 말로 시작된다. “자, 내가 원하는 것은 사실뿐이오. 이 아이들에게 사실만을 가르치시오. 살아가는 데는 사실만이 필요한 거요.” 학교 교장인 그는 숫자와 산술만을 중요하게 생각하는 지독하게 현실적인 인간이자 사실과 계산의 인간으로 그려진다. 심지어 그는 외동딸의 결혼문제까지 수명분포 통계숫자를 바탕으로 결정하려 든다. 그의 삶이 행복할까? 디킨스는 그랫그라인더와 대비되는 인물로 어린 학생을 등장시킨다. 곡마단원으로 생계를 꾸려나가는 아버지를 둔 씨시 주프가 그 소설의 또 다른 주인공인데 다음 쪽의 인용문을 보면 그녀가 그랫그라인더와는 아주 다른 사람임을 알 수 있다.
그랫그라인더에게는 모든 사람을 똑같이 하나의 숫자로 추상화시켜 사망률을 정확하게 계산하는 것이 해난사고에 대해 가장 올바르게 파악하는 것이다. 하지만 씨시는 사고를 당한 사람의 가족, 친구들이 겪는 고통에 공감하지 못한다면 우리는 그 사고에 대해 제대로 모르고 있다고 생각한다. 물론 선생님의 질문에 그런 식으로 답한 씨시의 학교생활이 순탄했을 리는 없다. 디킨스의 <어려운 시절>은 유럽에서 통계조사가 성행하던 19세기 중반의 세태를 풍자한 소설인데 그 작품에서 디킨스는 씨시가 세계를 보는 방식을 적극적으로 옹호한다. 사람들은 똑같이 단순한 숫자로 환원될 수 없는 존재이며, 데이터에 바탕을 둔 정확한 계산이 모든 인생사를 설명하고 예측할 수는 없다는 것이다. 박정애의 작품에서와 마찬가지로 디킨스의 작품 속에서 사실과 숫자만 받드는 통계전문가 또는 데이터애호가는 세상 물정 모르는 철부지로서 조롱의 대상이다.
우리가 그리는 통계형 인간의 모습은
우리나라 대학에서 이름에 통계가 들어있는 학과들은 이미 반백년이 넘는 역사를 갖고 있다. 당연히 그 학과들이 배출한 졸업생도 무척 많을 테다. 과연 그 학과들, 그리고 거기서 공부한 사람들은 한국 사회에서 어떤 역할을 해왔을까? 통계전문가들에 대해 보통 사람들은 대략 어떤 인상을 갖고 있을까? 숫자와 계산에만 밝은 사람들일 것도 같고 세상만사 모든 것을 숫자로 바꿔 생각하는 습성을 가진 사람들일 것도 같다. 그런 사람을 일단 ‘통계형 인간’이라고 불러보자.
혹시 통계학과 공부가 사람들을 ‘통계형 인간’으로 만드는 것일까? 그럴지도 모른다. 가령 통계학과에서는 표본조사 기법을 비롯해서 조사연구에 필요한 이론과 방법들을 공부한다. 그런 조사 가운데 제일 잘 알려진 것이 인구조사일 텐데 통계학과에서는 오차를 줄이고 정확하게 헤아리는 방법은 공부하지만 인구라는 것을 왜 조사하는지 생각해볼 필요는 없다. 물론 역사를 거슬러 올라가서 인구조사에 포함되는 사람들이 시대마다 얼마나 달랐는지 생각할 필요도 없다. 여성은 아예 조사대상도 아니었던 시대도 있었고 노예는 인구가 아니라 재산으로 계산되던 시대도 있었는데 말이다. 알고 보면 인구의 정의 자체부터가 당대의 중요한 정치 문제였던 것이다. 실업률이나 빈곤율에서 정의하는 실업과 빈곤 등의 사회현상을 공식적인 통계와 다르게 정의할 수도 있으리라는 상상 역시 할 필요 없다.
그런데 19세기 통계학의 역사를 살펴보면 통계조사가 처음부터 그러지는 않았음을 금세 알 수 있다. 산업혁명 이후 발생한 새로운 정치와 사회 문제를 해결하려는 노력들, 민족국가를 세우기 위한 정치적 투쟁들, 그리고 새로운 지배방식을 찾으려는 시도들까지, 이 모든 것들이 통계조사와 촘촘한 관계를 맺고 있었다. 그런 시대적 배경 속에서 각국의 통계공무원과 통계활동가들이 만든 방대한 데이터는 체계적인 통치에 필수적이었을 뿐 아니라 다양한 분야의 학자들에게 새로운 연구과제와 연구방법을 제공하기까지 했다. 예컨대 사회학자 뒤르켐(1858-1917)이 쓴 책 <자살론>(1897)과 같은 명저는 상세한 자살통계가 없었다면 나올 수 없는 것이었다. 게다가 통계학 또한 사회학을 비롯한 여러 분야와의 교류를 통해 새로운 문제들을 끊임없이 제공 받고 더욱 풍성하게 성장할 수 있었다.
20세기 통계학의 역사에서도 그런 사례는 많다. 20세기 통계학자 중에서 가장 중요한 인물인 영국의 R. A. 피셔가 로담스테드(Rothamsted) 농업연구소에서 젊은 시절을 보내지 않았다면 실험계획법을 비롯한 그의 눈부신 연구 성과들도 나올 수 없었을 것이다. 역시 영국의 W. 고세트가 기네스맥주회사에서 평생 일하지 않았다면 지금 우리는 t-분포의 탄생을 다른 사람의 이름으로 기념하고 있을 테고. 이처럼 통계학의 역사는 수학자와 통계학자들의 연구실에서만 이루어진 것이 아니라 다른 분야와의 교류 덕분에 아주 풍성해졌다.
그런데 지금 우리가 쉽게 떠올리는 통계형 인간의 모습은 연구실이나 사무실을 떠나지 않고 컴퓨터와 씨름하는 모습이다. 필자는 지금도 생물학과를 비롯한 이웃 학과 학생들이 함께 어울려 현장답사를 떠나는 모습을 보면 무척 부럽다. 그런 학과 학생들은 닫힌 실험실이 아니라 자연 그대로의 현장을 살펴보기 위해 강으로, 바다로, 습지로, 산으로 달려가는데 오늘날 수학이나 통계학을 공부하는 사람들에게는 그럴 기회가 도통 없기 때문이다.
데이터전문가에서 시민 데이터 과학자로 거듭나야
입시면접 때 통계학과에 지원한 학생들을 만나 지원 동기나 장래희망을 물어보면 다들 빅데이터 전문가, 또는 데이터 과학자가 되고 싶다고 한다. 한해에 몇 차례씩 여러 지방에 있는 고등학교에 특강을 하러 가서도 “통계학 전공 학과에 가면 빅데이터 전문가가 될 수 있나요?”와 같은 질문을 자주 받는다. 고등학생들 역시 4차 산업혁명의 시대에 가장 유망한 직종 중 하나가 바로 데이터 전문가라고 알고 있는 것이다.
실제로 기업이나 연구기관 등에서 데이터 과학자의 몸값은 매우 높은 편인데, 찾는 곳은 많지만 능력을 갖춘 사람은 턱없이 적으며 앞으로도 그럴 것이기 때문이라고 한다. 이에 따라 최근 국내 대학에서도 통계학과의 데이터 교육을 강화하거나 데이터 과학을 전공하는 학과를 새로 만드는 곳들이 늘고 있다.
바야흐로 데이터의 시대가 온 것이다. 물론 이전에도 통계학은 많은 영역에서 중요한 역할을 담당해왔지만 ‘통계학의 시대’라는 말을 들을 수는 없었다. 그런데 오늘날 우리는 ‘데이터 혁명’, ‘데이터의 시대’와 같은 표현을 흔히 쓴다. 과거 통계학이 맡았던 역할보다 현재와 미래 세상에서 데이터와 데이터 과학이 훨씬 더 광범위한 영역에서 더 중요한 몫을 담당한다는 뜻이겠다.
그런데 사실 데이터 과학이 무엇이며 데이터 과학자가 하는 일이 무엇인지 묻는다면 속 시원히 답하기가 어렵다. 대학에 이미 자리 잡은 다른 분야들과 달리 데이터 과학은 아직 여러 면에서 틀이 잡히지 않은 새로운 분야이고 융합적인 분야이며 또 앞으로 굉장히 빠르게 변화할 분야라서 쉽게 규정짓기 어렵기 때문이다. 그런데도 벌써 인력이 많이 부족하다고 말하는 이유는 데이터 과학이 어떤 단일 전공만 공부해서 잘 할 수 있는 분야가 아니기 때문일 테다. 데이터 과학은 수학, 통계학, 컴퓨터과학 등 여러 분야에 대해 상당히 높은 수준의 공부가 필요한 분야인데 그런 사람을 찾기란 당연히 매우 어려울 것이다. 게다가 그런 사람을 단기간에 집중적인 교육을 통해 속성으로 많이 키워내는 건 아예 불가능한 노릇이고.
그렇다면 많은 일자리들이 급속히 사라진다는 4차 산업혁명의 와중에서도 데이터 분야의 일자리들은 대체되지 않고 오롯이 남을 수 있다는 말일까? 단순하고 반복적인 작업이 필요한 일자리뿐 아니라 약사, 의사, 변호사, 교사 등의 안정적인 일자리들까지 사람이 아닌 로봇이나 인공지능이 맡게 된다는 세상에서 데이터전문가는 장차 오래도록 유망한 일자리일까? 아쉽게도 장밋빛 전망만 있는 것은 아니다.
2020년이 되면 데이터과학자가 하는 일의 절반 가까이가 자동화될 것이라는 전문가의 예측이 이미 몇 년 전에 나온 바 있다. 그뿐만 아니라 영국의 어느 대학에서는 데이터 수집에서 분석과 보고서 만들기까지를 알아서 해내는 인공지능 시스템을 ‘자동화된 통계전문가(automated statistician)’라는 이름으로 개발하고 있다고 한다. 데이터전문가 역시 다른 직종들과 다름없이 자동화의 물결을 벗어나기 어려울 수 있다는 것이다. 그렇다면 미래를 살아갈 세대들이 할 일은 세상이 어떻게 되든 살아남을 드문 직종을 찾아 헤매는 대신 근본적으로 4차 산업혁명의 시대에 일이라는 것이 인간에게 과연 무엇일지를 묻는 것일지도 모른다.
그렇게 관점을 넓혀보면 이제 데이터라는 것을 일자리와 분리하고 데이터 전문가의 역할도 달리 생각해볼 수 있겠다. 최근 기업에서는 데이터 과학자에게 필요한 전문적인 지식은 충분하지 못하지만 현장 비즈니스 경험이 많은 사람으로서 자동화된 시스템과 경험을 적절히 활용하여 데이터과학자처럼 일하는 사람을 ‘시민 데이터 과학자(Citizen Data Scientist)’라 부른다고 한다. 그런데 과연 그런 사람이 기업에만 필요할까? 모든 것이 데이터가 되고 그런 데이터가 자원이자 자본이 되는 시대라면 데이터 문제가 곧 정치적, 사회적인 문제이고 기본적인 인권의 문제가 될 수밖에 없다.
그렇다면 데이터로 수익을 창출하는 기업뿐만 아니라 시민사회에서 시민을 위해 일하는 진정한 의미의 시민 데이터 과학자가 더 많이 필요하지 않을까? 나아가 데이터과학자로서의 전문성까지 갖춘 시민 데이터 과학자라면 이웃 시민들의 공익을 위해 더 많은 일을 할 수 있지 않을까?
앞으로 경제뿐 아니라 우리의 일상생활에서도 데이터가 중요해지는 만큼 데이터전문가의 사회적 책무도 점점 무거워질 수밖에 없을 것이다. 시대를 읽는 안목을 갖추지 못하고 그런 사회적 요구에 대해 눈감는다면 19세기와 20세기에 나온 소설에서 그랬듯 21세기의 작품 속에서 데이터전문가들은 또다시 조롱거리가 되어버릴지 모른다. 21세기를 데이터의 시대라고 부르는 이유도 제대로 알지 못하면서 데이터전문가를 자처한, 세상 물정 모르는 헛똑똑이들이라고.