통계광장조재근 | 경성대학교 수학응용통계학부 교수
통계광장
통계에 대한 비판,
그리고 비판에 대한 비판
알바생은 취업자일까 실업자일까
사회, 경제통계 강의실에서 “지금 우리나라의 실업률은 얼마쯤 될까요?”라는 질문을 던져보곤 하는데 학생들로부터 흔히 듣게 되는 답은 “30%, 40%, 50%” 등이다. 그 질문에 이어 저녁이나 주말마다 알바 일을 하고 있는 학생을 찾아 자신이 취업자라고 생각하는지 물어보기도 한다. 그러면 학생들은 무슨 말도 안 되는 질문을 하느냐는 표정을 짓거나 심지어 불쾌한 반응을 보이기까지 한다. 몇 년째 커피가게에서 일을 하거나 저녁마다 편의점에서 일하고 있다 하더라도 알바 일은 취업해서 하는 일과 전혀 다르다는 것이다. 학생들이 생각하는 실업률이란 일정한 연령 이상의 국민 가운데 이른바 정규직으로 일하지 않는 사람의 비율을 뜻하는 듯싶다. 그런 정의에 따르자면 알바 일을 하는 사람은 취업자보다는 실업자에 더 가까울 듯하다.
그런데 과연 통계청에서도 알바 학생을 그렇게 볼까? 전혀 아니다. 대학생이면서 알바 일을 하는 사람이라면 본인의 생각과 상관없이 고용통계에서 엄연한 취업자로 잡힌다. 게다가 실업률이라는 것이 오천만 국민 가운데 실업자의 수를 계산한 것도 아니다. 15세 이상인 사람 가운데 육아 또는 가사 활동을 하는 사람 그리고 학교나 학원 같은 데에서 공부만 하는 사람 등은 아예 경제활동을 하지 않는 인구로 간주된다. 즉 실업자도 아니고 취업자도 아닌 것이다.
경제활동인구란 일자리를 가진 사람과 일자리를 찾는 사람을 뜻하므로 취업자와 실업자를 합한 인구에 해당한다. 그런 분류에 따르자면 알바 일을 하는 학생은 고용통계에서 취업자가 된다. 실업자로 인정받으려면 일할 의사와 능력이 있어야 함은 물론 구직활동까지 해야 하니 공식 통계에서 실업자로 인정받기가 쉽지 않은 것이다. 결국 실업률은 실업자 수의 증감에 따라서만 변하는 것이 아니고 다양한 범주로 구성된 비경제활동인구의 변동에 따라서도 값이 달라질 수 있다.
통계의 객관성, 정확성이란 무엇인가
통계청에서는 표본 집단을 대상으로 그런 내용을 조사하기 때문에 실업률 값은 대개 학생들이 생각하는 값의 1/10 수준에 머문다. 그런 통계를 알고 나면 “통계청에서 실업률을 낮추려고 꼼수를 부려서 현실과 동떨어진 통계를 만들고 있는 것 같다”고 말하는 학생도 있다. 물론 그럴 리야 없다. 수입을 얻기 위해 일주일에 한 시간만 일하면 취업자로 보는 것은 우리나라 통계청이 마음대로 정한 것이 아니고 국제노동기구(ILO)의 규정을 따른 것이다. 그런데 국제노동기구는 왜 실업률을 그렇게 정의한 것일까? 그런 지표들이 현실을 제대로 반영하는 것일까? 혹시 다른 정의를 상상해볼 수는 없을까? 일에 대한 생각이나 노동시장의 사정이 나라마다 많이 다를 텐데 국제기준을 꼭 통일시켜야 할까?
학생들은 이렇게 해서 ‘통계의 객관성, 정확성이란 무엇인가?’라는 질문과 대면하게 된다. 측정하고 숫자를 헤아리기 전에 엄밀한 기준과 정의에 따른 세밀한 분류기준이 먼저 필요하다는 것, 그리고 세상사를 실업률처럼 단 하나의 통계 속에 가둘 수 없다는 것을 이해하고 나면 이제 통계를 공부할 준비가 된 것이다.
통계는 숫자가 아니고 정보이다
통계는 근대사회의 산물이다. 구미 각국에서 정부기관이나 민간단체들을 중심으로 각종 통계를 만들기 시작한 것은 19세기 전반기의 일이었다. 흔히 오늘날을 ‘빅데이터의 시대’라고 부르기도 하는데 데이터에 대한 열정을 생각해보면 19세기 전반기를 최초의 데이터시대라고 불러도 될 정도다. 무엇보다 당시는 산업혁명(1차 산업혁명)의 시기로서 정치, 산업 그리고 사람들의 생활 등 여러 면에서 급격한 변화가 일어난 때였다. 그 극심한 혼란의 와중에서 대중의 불만을 헤아리고 체제를 유지하기 위해서는 노동자들의 생활상, 도시빈민 문제, 그리고 범죄나 자살 등의 문제를 객관적으로 파악해서 적절한 대책을 마련하는 것이 시급했다. 인류 역사상 처음으로 다양한 통계데이터가 절실하게 필요한 시대가 온 것이다.
1830년대 영국에서 지역마다 민간이 주도하는 통계단체들이 생긴 것도 영국이 가장 먼저 산업혁명을 겪은 나라였기 때문이다. 그런 단체 중 하나가 1834년에 생긴 런던통계협회[오늘날의 왕립통계협회(Royal Statistical Society)의 전신]다. 그 단체를 만든 사람 가운데에는 『인구론』으로 유명한 맬서스, 프로그램이 가능한 컴퓨터라는 개념을 처음 제시한 배비지와 같은 당대의 명사들이 들어있었는데 그들의 면면을 살피는 것만으로도 통계에 대한 당시의 관심과 열정을 넉넉히 짐작할 수 있다.
처음에 그 협회는 밀 짚단을 묶은 그림을 상징으로 삼았는데 자세히 보면 그 밀 짚단을 묶은 끈에 “Aliis exterendum”이라는 라틴어 문장이 보인다. 영어로는 보통 “To be threshed out by others”라고 옮기고 “우리 단체는 자료를 모으기만 할 뿐 해석은 하지 않는다”라는 뜻으로 읽는다. 19세기 전반 사람들이 볼 때 통계의 생명은 최대한 현실을 있는 그대로 조사해서 데이터로 모으는 데에 있었기 때문이었다. 따라서 당시에는 이론이나 주장의 영향을 받지 않는 순수한 통계만이 객관적인 과학이라는 대접을 받을 수 있었고 데이터에 이론을 개입시키고 이런 저런 해석을 덧붙이는 것은 통계를 오염시키는 금기사항으로 간주되었다.
그런 순수성이 오래 지속되었을까? 당연히 얼마가지 못했다. 19세기 중반이 지나자 런던통계협회는 겨우 20년 만에 그들이 상징으로 삼았던 밀 짚단 그림을 살짝 바꾸게 된다. 밀 짚단을 묶은 끈에 적혀있던 라틴어 문장을 슬그머니 빼버린 것이다. 그 이유는 실제 조사활동을 통해 이론이 없는, 해석이 없는 통계란 불가능하다는 사실을 알게 되었기 때문일 것이다. 예나 지금이나 통계 조사원들이 조사를 나가면 실업자들이 ‘나는 실업자입니다’라고 써 붙이고 있는 게 아니다. ‘있는 그대로’ 헤아려달라고 기다리고 있는 순수하고 깨끗한 데이터는 어디서도 찾기 어려웠다. 누구를 실업자로 분류할 것인지, 무엇을 기준으로 삼아 빈곤을 측정할 것인지, 또 질병이나 사망원인을 어떻게 분류할 것인지 등등 사람들이 만드는 모든 통계에는 자못 치열한 이론적, 논쟁이 필요했고 타협이 필요했을 것이다. 그리고 국제적인 협력이 필요했을 것이다.
그리하여 굉장히 이른 시기인 1850년대부터 각국의 통계공무원들과 전문가들이 격년으로 국제통계회의(International Statistical Congress)를 열어 정보를 교환하고 국제적인 통계 기준을 마련하기 시작했던 것이다.
통계에 대한 신뢰와 불신
19세기가 지나는 동안 통계는 점점 중요해졌고 그에 따라 나라마다 통계 전담 정부 기관을 만들고 인력을 양성하는 등 국가 경영에 필요한 통계를 만드는 데 많은 노력을 기울이게 되었다. 그에 따라 다양하고 복잡한 통계들이 많아지면서 데이터에 대한 해석도 점점 까다로워졌다. 한때 단순해보이고 사실을 그대로 드러낸다고 여겨지던 통계라는 것이이제 많은 공부가 필요한 전문가의 일이 된 것이다. 그러다 보니 실업률처럼 일상을 사는 사람들이 생각하는 것과 꽤 달라 보이는 정의를 가진 통계들도 많이 생기게 되었고, 이런 까닭에 국가기관에서 만드는 통계 역시 열광과 신뢰의 대상이 되기도 하고 때로는 불신의 대상이 되기도 했다.
그 결과 오늘날까지도 우리는 대표적인 거짓말의 하나로 통계를 꼽아야 한다는 말을 자주 듣고 있다. 이런 상황이다 보니 각 나라들은 통계조사에 필요한 기법과 이론, 데이터 해석 방법 등을 개발하는 것은 물론 정부기관에서 만든 통계에 대한 신뢰를 얻기 위해서도 각별히 노력을 기울이게 되었다. 아무리 열심히 만들었다 한들 사람들이 믿어주지 않는다면 그 통계의 생명은 끝장이기 때문이다.
우리나라는 어땠을까? 한국에서 근대적인 인구조사가 처음 실시된 것은 1925년부터였다. 서양보다 백 몇 십 년 늦게 센서스가 실시되었는데 그마저도 우리가 준비해서 조사한 것이 아니고 조선총독부가 시작한 것이었다. 이후 식민지 시절, 그리고 해방과 전쟁을 거치는 동안 우리나라가 체계적인 통계를 생산할 인력을 키우고 조직을 갖추기는 어려웠을 테다. 그러다가 1990년대 초에 통계청이 만들어지고 얼마 뒤에 우리나라가 경제협력개발기구(OECD)의 회원국이 되면서 통계도 국제 기준에 맞추어 급성장하게 된다.
통계청이 승격 30주년을 맞는 오늘날 한국 통계는 다른 나라의 전문가들이 배우러 올 만큼 부쩍 성장했고 통계에 대한 신뢰도 크게 높아졌다.
그렇다면 이제 통계청은 누구나 언제든지 믿고 찾아보는 기관으로 성장했을까? 아쉽게도 아직 충분한 정도는 아닌 듯하다.
정부기관들이 만든 홈페이지를 찾아보면 다들 맨 앞에 보도 자료를 내는 창을 마련해 두고 있다. 그런데 유별나게도 통계청 홈페이지에는 보도 자료와 더불어 ‘해명 자료’를 보여주는 곳이 있다. 주로 신문, 방송, 정치권 등에서 통계청을 비판하는 주장을 내놓으면 그에 대해 해명하는 내용이 들어있다. 그곳에 등장하는 비판의 제목과 내용들을 훑어보자. “통계에 물 타는 통계청”, “통계에 대한 불신을 자초하는 통계청”, “정권의 눈치를 보는 통계청”, “엉터리 물가지수를 발표하는 통계청”...... 여전히 ‘통계란 조작하기 쉬운 것이므로 의심해볼 필요가 있다’는 생각이 사라지지 않고 있는 듯하다. 물론 사회나 경제통계는 원래 다양한 해석이 가능한 것이므로 언론이나 정치권의 날카로운 비판과 감시는 우리나라 통계와 통계청을 위해서도 당연히 필요할 것이다.
통계는 정치를 평가하는 하나의 도구이다
그런 비판에 대한 통계청의 ‘해명’은 대개 “통계청은 국제기준과 전문적인 판단에 따라 통계를 만들고 해석하고 있을 뿐 정치와는 무관하다”는 것이다.
혹시 있을지 모르는 외부의 입김을 막기 위해 통계청의 위상을 더 높이고, 전문성을 살릴 수 있도록 책임자의 임기를 보장하는 등의 정치적 독립은 물론 필요할 테다. 그러고 나면 통계가 정치로부터 자유로워질까? 그런데 통계청은 정말 그래야 할까? ‘정치적 독립’이란 과연 무슨 뜻일까?
우리는 5년마다 대통령을 뽑고 4년마다 국회의원 선거를 한다. 기후변화 문제를 심각하게 인식하고 대책을 마련하겠다는 공약을 내세운 후보나 정당이 선거에서 승리해 정권을 잡았다고 해보자. 마땅히 통계청은 기후변화와 관련된 통계를 더 정비하고 이전까지 만들지 않았던 새로운 통계도 개발해야 할 것이다. 사회적 약자들의 편에 서겠다고 약속한 후보가 대통령이 되어 정책을 펴면 통계청은 그 정책의 효과를 잴 수 있는 새롭고 정교한 지표를 만드는 것이 마땅할 테고. 따라서 통계의 기준은 변화를 주어야 하고 새로운 통계도 개발해야 한다. 시대변화를 반영하기 위해서는 물론이고 후보의 공약을 보고 인물을 선택한 국민의 의사를 받들고 권력자들이 공약을 제대로 이행하는지 감시하기 위해서도 통계가 필요하기 때문이다. 이런 의미에서 통계는 당연히 정치와 무관할 수 없다.
그런 까닭에 통계청에 대한 시민과 언론, 정치권의 비판도 업그레이드되어야 하지 않을까? 잠시 다른 정부기관과 비교해보자. 국가기관들 가운데 통계청처럼 사실을 비틀어 거짓말을 일삼는다고 욕을 먹는 곳이 또 있을까? 일기예보를 잘못했다고 가끔 기상청을 비난하는 경우가 있지만 이런 식은 아니었던 것 같다. 당연히 기상청 홈페이지에는 ‘해명 자료’를 따로 올려두는 곳조차 없다. 통계청을 비판하는 언론 기사나 정치권의 목소리는 대개 “통계청이 어떤 의도를 갖고 통계를 비틀거나 감춘다.”고 주장한다. 그런데 일기예보가 맞지 않으면 기상청이 어떤 이유에선가 ‘예측에 실패’했다고 하지 숨은 의도를 갖고 왜곡해서 예보했다고 비판하는 사람은 아무도 없다. 비판을 하더라도 적어도 기상청에서 일하는 사람들의 전문성은 인정하고 비판을 하는 셈이다. 그런데 통계청에 대한 비판에서는 그렇지 않다. 통계청 사람들은 종종 전문성은 물론 공직자로서의 직업윤리도, 시민의식도, 책임감도 없는 사람들 대접을 받는다.
이제 업그레이드된 비판이 필요할 때이다
물론 새삼 말할 필요도 없이 기상학은 과학이지만 통계는 과학이면서 또한 정치다. 그러므로 통계청의 통계에 대해 왜곡, 은폐, 누락, 눈치 보기 통계라고 비판하는 것도 통계청이 늘 새겨들어야 마땅할 것이다. 그런 비판 덕분에 통계는 맷집만 키운 것이 아니라 점점 과학적인 이론과 방법으로 무장하고 더욱 정교해졌기 때문이다. 하지만 언론 등으로부터 통계가 변함없이 거의 비슷한 비판만 받는 것은 아무래도 아쉽다.
지난 10월에 세계경제포럼(WEF)에서 발표한 국가경쟁력순위에 따르면 한국은 세계 140여 개 나라 가운데 열세 번째였다. 통계가 선진화되지 않고 이처럼 한국이 선진국 대열에 올라서는 것이 가능했을 리 없다. 만약 세계 여러 나라 통계청의 활동을 순위 매긴다면 우리나라 통계청의 순위가 국가순위보다 낮지는 않을 것이란 말이다. 지금쯤이면 이처럼 훌쩍 성장한 우리나라 통계와 통계청에 대한 보다 더 업그레이드된 비판을 기대할 때도 되지 않았을까?
최근 인공지능 기술은 거짓과 탈진실을 방조하거나 이를 강화하는 동영상 기법에 응용되면서, 가짜 이미지와 동영상 제조에 줄곧 쓰이고 있다. 가령, ‘딥 페이크’(deep fakes)와 ‘싸구려 페이크’(cheap fakes)가 무한 확대되는 현실을 보라. 싸구려 페이크는 말 그대로 포토샵 작업 등으로 실제가 아니라는 느낌이 남아있는 아마추어 이미지나 영상이라면, 딥 페이크는 인공지능의 딥러닝 기술을 활용해 실제 사람 얼굴의 일부를 변형하거나 합성해 만들어 가짜와 실제의 경계가 거의 사라진 경우다. 딥 페이크는 ‘진실보다 더 진실한’ 거짓 혹은 가짜의 고해상도 이미지나 영상인 경우가 흔하다. ‘펙트 체크’를 통한 가짜들의 공식 판별 방식은, 아직까진 인공지능 봇들에 의한 가짜 이미지와 영상의 자동 생성에 비하면 진실게임 싸움에서 양적으로 밀리고 질적 판단 능력에서 소박하기 그지없다.