2017 WINTER
김영진 | 한국통계진흥원 부장
사람에게도 저마나 다른 향기가 있듯이 책도 저마다의 향기를 가집니다. 몇 시간 동안이지만 서로 대화를 나누다 보면 그 향기의 잔상이 얼마동안 남아 있습니다. 잠시 차 한 잔을 마시며 그 향기에 대해서 얘기해보고자 합니다. 지금까지는 한권의 책을 골라 자세히 읽어나가는 느낌을 다루어 보았습니다. 이번호에서는 2017년에 나온 통계관련 책들 중에서 개인적으로 관심 있었던 책 몇 권에 대해서 다루어 보고자 합니다.
지금 이 글을 읽는 사람이면 통계에 관심이 있는 분이고 그런 분이면 서점에서 통계관련 책장 앞에 한번쯤 걸음을 멈추는 사람일테니요.
헬렌 피어슨 저 / 이영아 역 / 와이즈베리
아마 여러분들은 마시멜로 실험에 대해서 들어 보았을 것입니다. 몇 분 동안 마시멜로를 먹고 싶은 유혹을 이겨낸 아이가 나중 성인이 되었을 때 성공할 가능성이 높았다는 이야기죠. 그런데 이런 것을 어떻게 알 수 있었을까요. 지금 마시멜로 먹는 것을 참았다고 먼 훗날 벌어질 그 아이의 장래에 대해서 그렇게 주장하는 것이 너무 위험해 보입니다.
이런 주장을 가능하게 해주는 것이 바로 장기간동안 추적 조사하는 코호트연구 덕분입니다. 코호트 연구는 처음 조건이 주어진 집단(코호트) 에 대하여 경과와 결과를 알기위해 계속 추적 조사하는 방법입니다.
「무엇이 인생의 차이를 만드는가」 이런 부제목을 보고 이 책을 고른다면 실망 할지도 모릅니다. 인생의 차이는 무엇에서 오는 것일까에 대한 답을 찾기 위해 계속 책을 읽어 내려가지만 400쪽 가까이 되는 책의 대부분이 영국에서 진행 되었던 코호트 연구의 진행 과정에 대해서 주로 서술되고 있기 때문이죠. 책 마케팅에 대해서 살짝 짜증도 나긴했지만 통계에 관련된 일을 하는 사람으로서는 이런 책이 나온 것이 반갑습니다. 우리가 지금 상식적으로 알고 있는 사실들이 어떤 노력을 통해 이루어진 결과인지 알 수 있게 된 것 만으로도 의미 있는 책입니다.
개인적으로 이 책을 읽으면서 놀랐던 것은 영국의 첫 코호트 연구가 1946년에 약 1만 7천여 명의 아기들을 대상으로 시작하여 12년 마다 5차례 시행되었다는 것입니다. 1946년 우리나라 상황을 생각하면 영국이 얼마나 앞서 이러한 문제에 접근 했는지 새삼 놀라울 뿐입니다. 이렇게 1946년부터 출생정보, 건강 상태, 지능, 학교 성적, 직업, 소득, 신체 발달에 대해서 추적 조사를 함으로써 수많은 연구 업적을 이룰 수 있었습니다. 이러한 결과를 통해 요즘 임신부들은 엽산, 요오드를 복용하며 아이들의 건강을 지킬 수 있었고, 또 출생조건이나 아이의 성향이 어떻게 미래의 삶에 영향을 주는지 예측 가능하게 해주었습니다.
코호트 연구는 우리의 삶에 대해서 필요한 연결고리나 좀 더 나은 삶을 위한 조건을 찾아내 주는 역할을 해줍니다. 사람들은 지금의 행동이나 생각이 미래에 어떤 결과를 가져다줄지 알기 어렵고 그것을 느끼는 순간 되돌릴 수 없는 경우가 많기 때문입니다. 특히 건강이나 행복에 대한 부분은 이런 연구를 통해 많은 조언을 구할 수 있을 것 같습니다. 코호트 연구는 과정은 힘들지만 그 결과는 재미있습니다.
캐시 오닐 저 / 김정혜 역 / 흐름출판
자극적인 제목의 대량살상 수학무기라는 책은 제목은 수학무기이지만 목차를 보면 통계 모형에 관한 내용이라는 것을 알 수 있습니다.
통계가 수학이라는 범주에 속한다고 보면 이상할 것이 없지만 통계와 관련된 사람은 ‘대량살상 통계무기’라는 제목이었으면 좋았을 걸 하는 생각이 들긴 합니다.
이 책은 모형화 알고리즘에 따른 위험성을 경고하고 있습니다. 제목만 본다면 빅데이터의 위험성을 알리는 내용 같지만 읽어보면 오히려 앞으로 우리사회가 얼마나 데이터에 영향력에 놓이게 될지 짐작해볼 수 있습니다.
책 중간쯤까지 읽어 내려가면서 이런 모형에 대해서 이렇게 피해를 볼 수 있겠구나하는 생각하다가 문득 ‘어 이거 당연한 얘기 아니야’ 하는 생각이 들었습니다. 인간의 인식은 불완전하고 모형도 이러한 불완전성을 그대로 반영한 결과이기 때문이죠.
예를 들어 아주 객관적이고 합리적인 방법으로 대학교 평가 모형을 만들었다고 해봅시다.
전국 대학 평가에서 서울대 순위가 5위였다고 한다면 여러분은 이 결과를 받아들일 수 있을 런지요. 아마 대부분의 사람들이 이게 뭐야. 이거 뭐가 잘못된 게 아니냐하고 의심할 수밖에 없을 것입니다. 또 아무리 좋은 개념의 접근도 데이터를 확보하지 못하면 그 변수를 사용하지 못합니다. 이러한 제한성 때문에 다양한 가치를 고려하기보다 확률적 가능성을 효율적으로 판단하는 데 그 목적을 둘 수밖에 없습니다.
이 책의 재미있는 점은 이런 모형의 위험성을 알리는 대신 또 이용하는 방법도 알려줍니다. 모형이 어떤 변수로 이루어졌는지 알면 역이용이 가능하다는 팁을 알려줍니다.
미래에는 많은 부분에서 기계에게 평가 받는 사회에 살고 있을 거라는 생각이 듭니다. 데이터가 쌓이게 되고 하드웨어가 발전해 나가면 당연히 사람들은 이것저것 시도를 할 것입니다.
AI가 학생들에게 성적이나 입학 상담을 코치해 주고, 회사 입사에서도 AI가 면접 대상자를 골라 주고 업무 평가도 AI한테 받는 날이 그리 멀게 느껴지지 않습니다.
지금까지 우리는 빅데이터나, 사물 인터넷이 가져올 변화에 주목했습니다. 반면에 그런 변화가 몰고 올 그늘에 대해서는 크게 얘기하지 못했던 것 같습니다.
앞에서도 말씀드린 것처럼 이런 모형은 정보화가 발달함에 따라 생기는 새로운 문제는 아닙니다. 하지만 자신의 삶이 기계적 알고리즘으로 한 번에 판단되는 시대가 오면, 그 알고리즘의 사각 지대에 있는 사람은 새로운 신분제도처럼 넘을 수 없는 벽이 만들어지는 결과를 낳을 수 있을 것 같습니다. 과연 미래는 어떤 모습일까요.
케이스 데블린, 게리 로든 저 / 정경훈역 / 바다출판사
미드를 보면서 밤을 샌 적이 있으신지요. 저도 금요일 퇴근 시간 지하철에서 보기 시작한 미드에 주말까지 빠져들곤 했습니다. 그 중 통계에 관심 있는 사람이면 한번쯤 ‘어 이런 것도 있어’하는 미드가 있습니다. 바로 「넘버스」입니다. 시즌6까지 나온 것으로 알고 있는데 저는 시즌5의 중간까지 보았습니다.
넘버스는 수학을 교육하기 위해서 만든 드라마라기보다는 대중적인 재미를 위해 만들었습니다. 그렇다 보니 수학을 깊이 있게 다루기보다는 스토리상 문제 해결의 열쇠로 들어가는 형식을 취하고 있습니다.
우리가 홈즈시리즈에 매료된 것처럼 범인을 추적해가는 과정은 흥미진진합니다. 그래서 수사물형태의 미드가 많이 있습니다. 뼈를 가지고 수사하는 ‘본즈’, 심리 수사인 ‘멘탈리스트’, 프로파일링 수사기법의 ‘크리미널 마인드’, 과학 수사물 ‘CSI’ 등이 있습니다.
CSI는 증거 기반의 추리입니다. 새로운 증거가 발견될 때마다 사건의 실체가 하나씩 벗겨지는 방식입니다. 전혀 예상하지 못한 곳에서 범인이 남기고간 단서를 잡아서 범인을 추적하는 재미가 있습니다. 크리미널 마인드는 범인의 프로파일을 추적해나가면서 범인 리스트에서 그 범위를 좁혀가는 방식입니다.
예를 들어 이런 사건은 50대 중반에 백인으로서 어렸을 때 가정 학대를 받았고 비슷한 사건으로 교도소에 간적이 있으며 전기관련 업종에 종사하고 있을 것이다라고 계속 범위를 좁혀가는 방식입니다.
넘버스는 패턴 추적에 가깝습니다. 범행이 지속됨에 따라 범인은 어떠한 발자취를 남깁니다. 그런 흔적에서 패턴을 읽고 추적하는 방식입니다.
이 책은 사건 해결에 실마리로 사용될 수학이나 통계이론에 초점을 맞추었습니다. 그래서 드라마적인 요소를 기대한 독자는 실망할 수도 있을 것 같네요. 하지만 수학이나 통계 이론에 관심이 있다면 이것이 사건해결에서 어떤 힌트로 작용할 수 있는지 아는 것은 매력적으로 다가올 수 있습니다.
제가 드라마에서 인상 깊게 본 장면이 이 책에서도 첫 장으로 다루고 있습니다. 드라마 속에서 찰리는(수학천재) 앞으로 일어날 범죄 지점을 예측하려고 하지만 번번이 실패하고 맙니다. 절망감에 빠져 있던 찰리는 스프링클러에서 떨어지는 물을 보고 새로운 접근 방법을 생각해 냅니다. 다음 사건이 어디서 일어나는지 예측하기는 힘들지만 범인이 어디쯤 살고 있는지 추정은 가능하다는 것이죠.
수사 물을 좋아하는 사람이면 수사 물에도 공포물처럼 몇 가지 법칙이 있는 것을 알 수 있습니다. 범인은 범죄현장에 다시 나타난다거나, 범인이 잘 아는 장소에 시체를 유기한다거나, 또 자신의 위치가 발각되는 것이 두려워 자신의 거주지에서 일정거리를 두고 범행을 저지른다는 것들입니다. 이런 점에서 보면 스프링클러에서 떨어지는 물을 보고 수학적으로 범인의 거주지를 예측하는 것은 재미있는 접근법으로 다가옵니다.
개인적으로 이 책에서 아쉬운 점은 사건의 해결포인트가 되는 수학이나 통계이론으로 구성했으면 더 재미있지 않았을까하는 생각이 들었습니다. 게임이론, 카지노, 암호 등을 같이 다루다 보니 이 책만이 가질 수 있는 장점이 희석된 느낌도 들었습니다. 이런 개념들이 일반적인 통계관련 서적에서 많이 다루어지는 내용들이다보니 이 책만의 개성이 약해진 느낌이 들었습니다.
뉴 사이언티스트 편집 / 마이클 브룩스 엮음 / 김성훈 옮김 / 반니
개인적으로 통계관련 서적 중 재미있게 읽는 주제는 「우연」입니다. 우리는 본능적으로 어떤 일이 일어나면 원인을 분석하는 데 익숙하죠.
우리 주변에서 일어나는 다양한 일들을 우연의 관점에서도 해석이 가능합니다. 우연의 관점에서 바라보면 세상의 다양한 일들이 새롭게 해석되어지고 다른 방향으로 해결점이 생각나기도 합니다. 이런 얘기가 생각납니다. 임진왜란이 일어나지 않았다면 우리는 이순신 장군에 대해 알 수 있었을까. 반대로 생각하면 어느 시대나 이순신 장군 같은 인물은 존재하지만 그런 인물을 나오게 하는 환경이나 사건이 만들어지지 않는 한 부각될 수 없을 거라고요. 어쩌면 우리가 아는 인물이 로또를 몇 번 맞은 사람처럼 통계적으로 최극단치에 존재하는 인물이 아닐까하는 생각도 듭니다.
이 책은 주제별로 23인의 전문가가 쓴 칼럼을 묶어서 한 권의 책으로 엮었습니다. 그렇다보니 책 내용이 어려운 부분이 좀 있습니다. 하지만 2장 「우연이 뇌에 미치는 영향」은 누구나 재미있게 읽을 수 있는 부분 같습니다.
「행운의 조건」은 행운을 자주 발견하는 사람들에 대한 특징에 대한 연구 결과를 다루고 있습니다. 행운을 자주 만나는 사람들은 인적 네트워크를 잘 형성하고 삶을 편안한 시각에서 바라보고 기회를 포착하는 능력이 뛰어나다고 합니다.
이런 예는 「가위바위보」 편에서 더 잘 이해 할 수 있습니다. 가위 바위 보 게임에서 이길 가능성을 1/3로보고 임한다면 승률이 별로 좋지 않다고 합니다. 왜냐하면 가위바위보 게임을 대할 때 사람들은 나름 어떤 생각을 가집니다. 예를 들어 ‘바위를 두 번 냈으니까 다음에는 바위가 아닐 거야’ ‘저 친구는 초반에 가위를 내는 경향이 높아’와 같이 사람들은 어떤 패턴을 예측하려는 경향이 강하다는 것입니다. 이런 단순한 게임에서도 이기는 행운은 랜덤하게 주어지기 보다는 기술이 필요하다는 것을 보여줍니다.
이 책은 6개의 많은 얘기들을 들려주고 있습니다. 개인적으로 마지막 부분에 들려주는 얘기가 인상 깊게 남습니다. 「길을 잃어 보는 것도 좋아」
우리는 GPS기능 덕분에 이제 길을 잃는 경험을 하지 못할 지도 모릅니다. 휴대폰만 켜면 지금의 위치를 알 수 있기 때문이죠. 우리는 낯선 곳을 여행한다고 흥분하지만 결국 누군가 소개한 장소에만 방문하고 누군가 추천한 물건을 구매합니다. 그리고 우리는 새로운 경험을 했다고 얘기합니다. 세상에 데이터가 많이 쌓일수록 우리는 정보가 인도해준 선택을 할 가능성이 높아 보입니다. 사람들은 불확실성을 좋아하지 않기 때문입니다. 하지만 불확실성은 새로운 즐거움을 안겨주기도 합니다.
저는 그런 경험을 한 적이 있습니다. 월드컵 축구 경기가 있던 날 새벽에 일어나 인터넷으로 경기를 관람했습니다. 그런데 인터넷 중계 장면이 지상파 TV중계보다 몇 초가 늦었습니다. 상대편으로 공을 몰고 가는데 그 순간 아파트에서 ‘아아아’ 하는 탄식이 흘러나옵니다. 몇 초 뒤 상대편이 공을 가로채어 버립니다. ‘오’ 하는 소리가 나고 몇 초가 지나면 공이 골대를 살짝 비켜서 날아갑니다. ‘와’ 소리가 나고 몇 초가 지나면 득점을 합니다. 그때 그런 생각이 들었습니다. 미래를 아는 초능력이 있다면 그것은 축복이 아니라 불행일 거라고요. 우연은 세상을 재미있게 만들어줍니다.
통계를 아는 것은 새로운 즐거움과 행운을 부르는 방법일까요. 궁금하시면 이 책에 한 번 도전해 보시길 바랍니다.