통계광장조재근 | 경성대학교 수학응용통계학부 교수

디지털시대 생존법,
데이터 리터러시부터 갖춰라

데이터 해석 능력이 생존을 가른다

‘카메라’라는 말을 들으면 무엇이 떠오르는가? 이런 질문을 받으면 아마도 필름카메라가 아니라 디지털카메라가 생각날 것이다. 필름, 인화 등과 같은 단어를 사용하지 않은 지 꽤 오래된 느낌이 들지 않는가? 밀레니얼세대는 기억이 나지 않고, Z세대는 본적도 없는 제품이 필름카메라다. 사회 전반에 영향을 미치는 인구구조가 바뀌고 있으니 어쩌면 디지털카메라가 아니라 그냥 카메라인 것이 당연한 것인지도 모르겠다. 기업은 디지털 트렌스포메이션으로 새로운 세상을 준비하기에 여념이 없다.

이미 주요 국가들에서 디지털 마케팅이라는 용어가 사라지고 있다. 이제 디지털카메라가 아니라 그냥 카메라 이듯이 마케팅이라고 하면 그냥 디지털을 기반으로 하는 마케팅이 되고 있다. 과거와 현재 그리고 미래의 차이점은 모든 것이 디지털화 되었는가에 따라 달라질 것으로 보인다. 어느 순간 우리의 생활 깊숙이 디지털이 들어와 있기 때문에 공기나 물과 같이 느끼지 못하다가 문제가 생기면 그 중요성과 소중함을 느낀다. 2018년 11월 KT 아현지사 통신구 화재를 통해 우리는 ‘디지털 원시시대’의 모습을 일부나마 체험할 수 있었다. 그리고 스마트폰 없이 살아보기, 전자기기 없이 살아보기 등과 같은 프로그램들이 등장하는 것으로도 충분히 짐작이 된다. 이미 우리는 디지털을 기반으로 하는 세상에 살고 있다.

우리의 일상에서 일어나는 모든 내용이 디지털로 기록되고 있다. 아날로그 시대에는 개인들 머릿속에 기록되고 오로지 혼자만 이용했다. 그런데 디지털 시대에는 컴퓨터에 데이터로 저장되어 필요로 하는 모든 사람이 이용할 수도 있는 세상이 되었다. 이제 데이터를 다룰 줄 아는 사람과 그렇지 못한 사람으로 구분할 수 있다. 새로운 디지털 세상에서 누가 살아남을까? 누가 경쟁력을 발휘할 수 있을까?

데이터를 다루는 것이 이제는 선택이 아니라 필수가 되고 있다. 데이터를 제대로 보고 읽을 줄 아는 능력을 데이터 리터러시(data literacy)라고 한다. 데이터 리터러시는 데이터를 목적에 맞게 활용하는 데이터 해석 능력 즉 문해력이다. 데이터에 담겨있는 의미를 파악해 내는 능력이야말로 디지털 세상에서 살아가는 필수 능력이다. 디지털 세상을 살아가는 우리 모두에게 필요한 능력이다.

데이터는 팩트가 아니라 경향이다

최근(2019.5.9)에 어떤 단체에서 발표한 4대강 보 해체 방안에 대한 여론조사 결과에 대해 갑론을박이 있었다. 문제가 된 설문 항목의 원문을 살펴보자.

이 질문에 대해 어떤 결과가 나왔을까? 발표된 결과는 ‘동의한다’가 무려 81.8%이다. 이 결과에 대해 일부 언론은 <국민 82% “정부의 4대강 보 처리 찬성”>, <국민 82% “금강·영산강 보 해체 동의”>, <정부가 내놓은 4대강 보 처리안 국민 81% “동의”> 등으로 보도했다.

대다수 사람은 위의 여론조사 결과를 보고 국민의 대부분이 4대강 보 해체에 동의하는 것으로 인식할 수 있다. 그런데 좀 이상하지 않는가? 문제가 무엇일까? 만약 이 질문에 대해 ‘동의하지 않는다’의 백분율이 높게 나온다면 오히려 이상할 수밖에 없는 질문이다. 먼저 조사방법 측면에서 살펴보자. 이런 질문 문항을 유도질문이라고 한다. 조사자가 원하는 답을 얻기 위해 의도적으로 유도하는 질문을 유도질문이라고 한다. 왜 유도질문을 작성할까? 그 결과를 이용하여 다른 어떤 이득을 보고자 하지 않는다면 유도질문을 할 이유가 없다. 그렇기 때문에 조사방법에서는 절대로 유도질문을 해서는 안 된다는 원칙을 세우고 있다.

설문조사의 결과로 어떤 이득을 얻는다면 이미 그 조사는 현상을 반영하지 못하는 왜곡된 사실일 뿐이다. 그런데 언론조차도 조사 설계와 질문 문항에 대한 검토 없이 결과만 놓고 해석을 하고 있다. 데이터 리터러시를 의심하게 하는 부분이다. 바로 2차 왜곡으로 증폭되는 과정이다. 데이터와 통계를 팩트로 호도하여 정치적 이득을 보기 위한 목적이 아니라면 어떻게 질문을 했어야 할까? 정치적 이득을 얻기 위해 그 근거가 될 수도 있는 여론조사를 보다 정확하게 하여 진짜 국민의 생각을 들었다면 설득논리를 펴는 데 더 쉬웠을 텐데 하는 아쉬움이 있는 질문 문항이다.

누가 봐도 객관적이고 편향되지 않은 질문으로 바꾸어 질문을 했어야 한다. 위 질문에서 ‘그 근거로 ~밝혔습니다.’ 문장을 빼면 간단하게 객관적인 질문이 된다. 또는 ‘그 근거로 ~밝혔습니다.’ 외에 추가로 반대의 주장인 보를 유지했을 때 얻을 수 있는 이점을 함께 제시했다면 4대강 보에 대한 객관적인 판단을 할 수 있었지 않았을까 생각된다.

그런데 여기서 더 중요한 문제가 있다. 바로 이런 조사의 왜곡, 데이터의 왜곡을 미연에 방지할 수 있는 전문가들이 문제를 방조한 게 아닌가 하는 의심을 하게 만든다. 보고서의 전문을 내려받아 살펴봤다. 조사 설계에서 전국의 만 19세 이상의 국민을 대상으로 했다. 얼핏 보면 여론조사이니 당연한 것으로 보이지만 과연 4대강 보의 해체에 일반 국민이 동의와 비동의를 객관적으로 판단할 수 있을까 하는 의심이 든다. 보를 건설하고 해체하는 것을 여론조사로 의견을 취합해야 하는 것일까부터 고민해야 하지 않을까? 국민의 생각을 들을 수는 있겠지만 경제적 판단과 정치적 결정을 여론으로 떠넘기고 또 여론의 힘을 빌리고자 하는 목적이 있었다면 이 조사 자체가 문제가 있는 것이다.

이 여론조사는 모 학회에서 발주하고 모 조사기관에서 조사를 했다. 학회의 전문성과 조사기관의 윤리를 의심하게 하는 부분이다. 그리고 분명 조사결과 보고서에는 동의함에 81.8%로 소개하면서 원형도표에는 81.1%로 표시하고 있다. 이 보고서가 나온 지 40여 일이 되었음에도 불구하고 아직도 수정되지 않고 그대로 있는 것을 보면 이 사실조차 인지하지 못하고 있구나 하는 생각이 든다. 사회적 이슈가 된 보고서 자체에 오류가 있는데도 불구하고 조사기관과 조사를 의뢰한 학회와 단체, 관련 국가기관, 그리고 언론까지 모를 수 있는지 알 수가 없다.

데이터는 팩트가 아니라 경향을 나타내기 때문에 그 경향이 의사결정이 되는 것이 아니라 의사결정에 참고하는 자료가 되어야 한다. 어쩌면 당연한 이야기인데 이것을 이해하지 못하는 데이터 리터러시로 인해 입맛에 맞는 조사와 데이터가 남용되고 사회와 시장을 흐리게 하고 있다. 데이터가 세상을 이롭게 할 수 있는 디지털의 시대에 역설적이게도 왜곡된 데이터가 세상을 어지럽게 할 수도 있다. 그럴수록 데이터를 읽고 이해하는 능력을 개인들이 갖추어야 할 필요성은 더욱 높아진다.

데이터 리터러시 역량을 갖춰라

데이터 리터러시를 높이기 위해 필요한 역량은 데이터를 수집하고 정제하고 분석하는 능력과 아울러 데이터를 기획하고 시각화할 수 있는 능력도 필요하다. 빅데이터 시대를 살아가게 되는 우리는 스스로 데이터를 통해 삶의 질을 높이고 생존력을 높일 수 있는 기회를 가지게 되었다. 과거와는 달리 데이터의 수집과 분석을 위한 도구는 이미 우리의 일상에 들어와 있기 때문이다. 한때 운전면허증과 컴퓨터 활용능력이 특별한 능력으로 취급되었었다.

이제는 일상의 필수 능력이 되었고 이것 없이 생활하기 어려운 상황이다. 기존의 데스크톱 컴퓨터보다도 성능이 뛰어난 휴대용 컴퓨터(스마트폰)를 주머니에 하나씩 넣고 다니지 않는가. 데이터 리터러시도 어느 순간 이런 상황이 될 것이다. 누군가가 만들어 놓은 데이터를 활용할 수도 있고 필요하다면 내가 직접 데이터를 수집하고 분석하여 활용하는 데 거의 비용을 들이지 않고도 할 수 있는 시대로 접어들고 있다.

만약 설문조사를 하고 싶다면 구글에서 제공하는 문서 양식으로 설문지를 만들고 이를 이메일이나 문자로 또는 소셜미디어에 올려 응답을 요청할 수 있다. 응답받은 자료는 스프레드시트 형식으로 실시간 저장되고 통계분석은 간단하게 구글에서 제공해 준다. 보다 전문적인 통계분석을 하고 싶다면 엑셀 파일로 저장하여 엑셀에서 데이터 분석을 할 수 있다. 만약 좀 더 전문적인 분석을 하고 싶다면 SPSS나 SAS 같은 전문 통계패키지를 이용할 수도 있다.

이 소프트웨어는 유료이기 때문에 부담이 된다면 R이나 파이썬 같은 무료 소프트웨어를 사용할 수도 있다. 비록 무료로 갈수록 공부의 난이도가 높아지기는 하지만 어느 순간이 되면 우리가 자동차의 구조공학을 몰라도 운전을 하듯이 통계분석 알고리즘을 몰라도 쉽게 분석할 수 있는 그런 날이 곧 올 것이다.

시각화 역시 마찬가지다. 간단한 워드클라우드 분석뿐만 아니라 엑셀의 피벗테이블을 통해 간단하게 시각화 할 수 있다. 그리고 좀 더 전문적으로 시각화하고자 한다면 마이크로소프트에서 제공하는 파워 BI를 통해 무료로 만들 수 있다. 만약 트렌드를 알고 싶다면, 구글트렌드 분석을 통해 관심 있는 키워드의 버즈량을 분석할 수 있다. 시간 흐름에 따른 관심도 변화, 하위 지역별 관심도, 관련 주제어, 관련 검색어 등도 알 수 있다. 물론 무료이다. 이미 우리 사회에는 무료로 이용할 수 있는 도구들로 인해 거의 모든 데이터의 수집과 분석, 그리고 시각화가 가능하다. 나만의 데이터 리터러시 역량을 지금 갖추면 생존 역량이 될 수 있지만 모두가 갖춘 능력이 되는 시점이 되면 더 이상 역량이라고 할 수 없다. 바로 지금부터 나의 데이터 리터러시 역량을 높이는 노력이 필요하다.

데이터 마인드로 데이터 시대를 대비하라

무릇 관심을 가지고 유심히 들여다보면 보이지 않던 많은 것이 보인다. 관심이 있으면 관찰하게 되고 관찰하다 보면 관계를 맺게 되고 어느 순간 나만의 관점이 생긴다. 통찰은 이때 발생한다. 모두가 데이터 분석 전문가가 될 필요는 없다. 현실적으로 그렇게 되기도 힘들다. 데이터 분석보다 먼저 고민해야 할 내용은 바로 데이터를 통해 무엇을 할 것인가 하는 것이다. 데이터로 새로운 비즈니스를 만들 수도 있고, 데이터를 보고 삶의 방향을 바꿀 수도 있다.

데이터의 주인이 될 것인가 아니면 종이 될 것인가 하는 것은 마음먹기에 달려있다. 데이터를 바로 보는 나만의 시각을 갖는 마인드를 갖춘다면 내가 데이터의 주인이 될 수 있다. 바로 실천해 보자. 간단하다. 예를 들어 다이어트에 관심이 있다면 매일 몸무게를 측정한 다음 이를 스마트폰 앱에 등록하면 주간, 월간, 연간 기록 추적(트래킹)으로 그 변화를 체감할 수 있다. 이제 데이터가 인텔리전스가 되는 순간이다.

최근 당뇨병 분야 국제 학술지인 ‘당뇨병 관리’에 실린 논문에 의하면, 당뇨병 환자의 자가 관리를 돕는 스마트폰 당뇨병 관리 애플리케이션(앱)이 실제 환자의 혈당관리에 도움이 된다고 한다. 스마트폰 앱을 이용한 환자의 당화혈색소는 평균 0.40% 떨어진 반면 수기기록을 한 환자의 감소치는 평균 0.06%에 그쳤다고 한다. 디지털 데이터와 아날로그 데이터의 차이다. 디지털로 데이터를 관리할 때 보다 쉽게 인텔리전스를 얻을 수 있다.

이제 개인이든, 기업이든, 국가이든 데이터를 제대로 활용하는 사람과 그렇지 못하는 사람으로 구분되는 시대로 접어들고 있다. 디지털 기반의 빅데이터로 움직이는 시대를 살아가는 우리는 어쩔 수 없이 데이터의 홍수 속에 있다. 이를 헤쳐 나아가는 데이터 리터러시 능력을 갖출 것인가 아닌가는 생존의 문제이다. 두려워하지 말고 어떻게 데이터로 나의 삶의 질을 높일 수 있을지 생각해야 하는 시점이다.

(35220) 대전광역시 서구 한밭대로 713(월평동) 통계센터 통계교육원 | E-mail : stimaster@korea.kr
Copyright(c)2014 Staticstis Training Institute. All Rights Reserved.