통계광장박헌진 | 인하대학교 통계학과 교수
4차산업 시대에 필수 능력,
데이터 리터러시(data literacy)
데이터 활용 능력(data literacy)은 국가경쟁력
1960년대 이후 반도체와 데이터베이스의 발달로 데이터의 저장이 가능하게 되었고 기업과 정부는 운영의 효율성을 위해 데이터를 저장하고 처리해 왔다. 그 이후 데이터의 양이 증가하고 수집하는 데이터도 다양해지면서 데이터 분석에 대한 니즈가 증가해 1990년대 데이터마이닝이 부각되었다. 우리나라에서도 1990년대 후반 데이터마이닝과 고객관계관리(CRM)가 도입되면서 기업을 중심으로 데이터 분석에 대한 투자가 이루어졌다. 이 시기에는 데이터 분석이라는것은 모든 사람이 알아야 하는 것이 아니라 분석 전문가들의 영역으로 인식되었다.
최근에는 쇼셜네트워크서비스(SNS), 사물인터넷(IoT),클라우드 컴퓨팅 등으로 저장되는 데이터의 양이 폭발적으로 증가하고 있고 앞으로 더 빠른 속도로 증가할 것으로 예상된다. 또한 IT의 발달로 데이터 접근 및 분석 도구가 일반화됨에 따라 일반인들도 과거보다 쉽게 데이터를 수집하고 분석할 수 있게 되었다. 이러한 상황에서 데이터 이용의 중요성이 더 높아졌고 데이터 분석이 전문가의 영역이라기보다는 모든 사람이 알아야 될 수단으로 인식되면서 데이터 활용 능력(data literacy)이 국가경쟁력을 높이기 위한 중요한 항목으로 되었다. 선진국을 중심으로 국민들의 데이터 활용 능력을 높이기 위해 많은 투자가 이루어지고 있는데 미국, 영국 등에서는 초등학교부터 데이터 분석 교육을 강화하고 있다. 최근 우리나라에서도 초·중·고등학교 교과과정에서 통계교육이 강화되고 있고 사회에서도 앞으로 늘어날 분석 인력 수요를 충족하기 위해 여러 통계 또는 빅데이터 강좌가 열리고 있어 대중적으로 큰 관심을 모으고 있으나 데이터 활용 능력을 키우기 위해서는 데이터 분석 과정에 대한 이해와 데이터 활용 능력 교육에 대한 올바른 방향 설정이 필요하다.
빅데이터 분석 과정(Big data analytics)
(1) 기술 분석(descriptive analytics)은 가장 간단한 형태의 분석으로 원시 데이터를 기술하거나 요약하여 이해할 수 있는 정보로 정리해 과거에 어떤 일이 일어났는지를 파악할 수 있도록 한다. 기술분석은 막대그래프, 원그래프 같은 그림, 분할표 같은 표, 평균, 중앙값, 표준편차 같은 기술 통계(descriptive statistics)로 데이터를 요약해 과거의사실을 파악하고 이해한다. 예를 들어 과거 수년 동안 월별 매출, 이익, 재고, 반품 등을 월별 추이에 대한 추세 그래프, 막대그래프 원별 통계에 대한 표 등을 통해 알아보는 것이 기술분석에 속한다.
(2) 진단 분석(diagnostic)은 기술 분석의 산출물에 대해 그 이유를 파안한다. 필요에 따라 상세 분석(drill-down analysis)을 하기도 한다. 이 단계에서는 특성 간 연관성 또는 상관관계를 인식하거나 패턴을 파악해 데이터로부터 통찰력(insight)을 얻는다. 그 후 얻어진 통찰력을 통계적으로 검증하기도 한다. 예를 들어, 월별 매출에 대한 추이, 계절성 여부, 매출과 재고, 반품 등과의 관계를 파악해 통찰력을 얻을 수있고 이를 통계적으로 검증할 수 있다.
(3) 예측 분석(predictive analytics)은 기술 분석과 진단 분석의 결과를 사용해 경향, 클러스터 및 이상치를 탐지하고 무슨 일이 발생할지 예측하거나 추정한다. 예측 분석에는 모델의 구축 및 검증이 포함된다. 이러한 모델을 구축하기 위해 데이터 과학자 또는 기계 학습 전문가가 필요하고 이 전문가들은 통계, 데이터마이닝, 기계학습(machine learning) 등의 기법과 R, 파이썬(Python), SAS 등의 도구를 이용해 예측 모형을 구축한다. 여기서 주의할 것은 예측 분석은 기존 데이터를 기반으로 미래 발생을 추정하는 것이다. 따라서 과거에 나타나지 않은 상황에 대해 예측모형은 잘 기능하지 못할 가능성이 높고 과거와 같은 상황이라 하더라도 예측 모형에 의한 추정이 항상 맞는 것은 아니다. 보통 예측 모형에서는 예측에 대한 정확도를 제공한다.
(4) 처방 분석(Prescriptive Analytics)은 최적의 결과를 얻기 위한 방법을 처방하는 최첨단의 분석이다. 처방 분석의 목적은 문제의 발생 가능성을 최소화하거나 미래의 이익을 최대화하는 것이다. 처방 분석은 최첨단 분석으로 기계학습, 비즈니스 규칙 및 알고리즘과 같은 복잡한 도구와 기술을 사용하므로 정교한 시스템 구현 및 관리가 필요하다. 알파고가 이세돌 9단과의 대국에서 사용한 분석이 처방 분석에 속한다고 할 수 있다. 처방 분석은 가장 부가가치가 높으나 아직 신생 단계에 있다.
우리나라에서의 통계교육은 기술분석을 위한 여러 도구를 학습하고 이를 가지고 진단 분석을 하도록 교육하는 데 중점을 두고 있다.
데이터 분석 과정과 데이터 활용 능력
데이터 분석 과정은 주제의 설정, 데이터 수집, 데이터 분석, 정보의 도출, 스토리텔링의 5단계로 이루어져 있다고 할 수 있다.
위와 같은 분석 과정을 적용한 예로 세종의 공법(貢法) 즉, 토지세 개혁을 들 수 있다. 세종은 국가재정의 안정을 위해 1430년(세종 12년) 토지의 질이나 농사의 풍작 여부에 관계 없이 똑같은 세금을 내도록 하는 새로운 세법인 ‘공법(貢法)’ 실시에 대한 여론조사를 실시했다. 즉, 새로운 공법에 대한 백성들의 선호라는 분석 주제를 가지고 분석을 시작했다.
이 조사는 호조에서 5개월간 전·현직 중앙관리와 각 도의 관리와 백성을 대상으로 총 172,806명을 조사했는데 당시 세종실록지리지에 기록된 조선의 인구가 692,477명인 것을 감안하면 인구의 4분의 1을 조사한 대단위 조사라고 할 수 있다. 조사결과 찬성이 98,657명이었고 반대는 74,149명이었다고 한다. 찬성하는사람의 수가 반대하는사람보다 2만여 명이나 더 많으므로 공법을 시행할 것 같은데 세종은 그렇게 하지 않았다. 다음의 표는 지역별 조사 결과이다.
위의 결과를 보면 경기도, 전라도, 경상도, 충청도에서는 찬성이 압도적으로 높은 반면 평안도, 황해도, 함길도, 강원도에서는 반대가 압도적으로 높은 것을 알 수있다. 세종은 이러한 지역의 차이를 데이터를 통해 인식했고 공법의 실시를 유보했다. 향후 여러 수정 과정을 거쳐 세종 19년 찬성이 높은 경상도와 전라도에서 먼저 공법을 실시했고 세종 23년에 충청도에서, 세종 26년에 전국적으로 공법을 시행하게 되었다. 이러한 작업을 통해 얻은 토지세 징수 제도는 향후 190년이라는 오랜 세월 동안 실시되는데 이렇게 오랜 세월 동안 토지세 제도를 유지할 수 있었던 것은 데이터에 기반을 둬 제도를 입법한 세종대왕의 데이터 기반 국가 경영에 기인한 것이 아닌가 생각된다.
데이터 활용에서 스토리텔링의 중요성을 보여준 나이팅게일
데이터 분석 과정을 통해 데이터 활용 능력을 보여준 또 다른 역사적인 예는 플로렌스 나이팅게일을 들 수 있다. 많은 사람이 나이팅게일을 백의의 천사인 간호사의 표상으로 기억하고 있지만 사실 나이팅게일은 데이터 분석 과정으로 많은 사람의 목숨을 구한 데이터 분석가의 좋은 예라고 할 수 있다. 1854년 나이팅게일은 크림전쟁에서 군인들을 간호하는 임무를 맡았을 때 그녀는 병사들이 전쟁으로 죽기보다는 영양실조, 빈약한 위생으로 불필요하게 죽어가고 있음을 알게 되었다. 그녀는 군대의 위생 여건 개선을 위해 노력했으며, 환자 복지의 중요성에 대한 증거로서 병원의 사망자 수를 세심히 기록해 다음과 같은 데이터를 얻을 수 있었다.
그녀는 이 데이터를 효율적으로 보여주기 위해 장미(rose) 또는 속눈썹(coxcomb) 형태의 다이어그램(diagram)을 만들어 사람들을 설득했다. 다음은 나이팅게일이 사용했던 장미 다이어그램(rose diagram)이다.
나이팅게일의 또 다른 장점은 그녀가 다재다능한 작가였다는 것이다. 나이팅게일은 이해하기 쉬운 그림과 설득력 있는 글로 군인들이 전쟁보다 위생의 열악함으로 죽어가고 있다는 것을 사람들에게 알렸다. 이에 영국 정보는 조립식 위생병동을 제작해 전장으로 보냈다. 또한 홍보로 인해 많은 기부금이 들어왔고 이 기부금으로 나이팅게일 기금을 설립하고 후에 세계 최초의 간호학교를 설립했다. 이러한 업적이 이루기 위해서는 사망원인 분석이라는 주제를 위해 데이터를 수집하고 이를 분석해 그 결과를 그림과 글로 설득력 있게 스토리텔링 하는 성공적인 데이터 분석과정이 있었다고 할 수 있다.
데이터 활용 능력을 기르기 위한 새로운 통계교육 체계 필요
우리나라에서는 오랫동안 수학에서 통계 교육을 초등학교부터 실시해 왔고 근래에는 통계 분석능력을 기르기 위해 사회, 경제 등의 과목에서 데이터 분석을 다루고 있다. 심지어 수능의 영어 교과에 데이터를 이용한 문제가 제시되기도 한다. 이렇게 오랜 기간 통계 교육을 받았지만 국민들의 데이터 활용 능력은 선진국에 비해 많이 떨어지는 것이 현실이다. 국민들의 통계 활용 능력을 높이기 위해서는 분석 도구나 통계 이론에 대한 교육보다는 통계를 실제 활용하는 교육이 필요하다. 불행히도 현재 우리나라에서는 통계교육이 개개의 분석 방법이나 분석 도구에 대한 교육 위주로 이루어져 있다. 특히 대학이나 사회인에 대한 통계교육의 경우 가트너의 분석 단계에서 기술분석이나 진단분석을 데이터 분석 과정에 적용하여 실제 데이터를 분석하는 교육보다는 예측분석이나 처방분석에 필요한 통계나 기계학습에 대한 교육에 집중되고 있다. 실제로 대학생들이나 일반인들을 위한 교육에서는 R과 하둡(Hadoop)과 같은 도구 교육과 빅데이터 전문가가 되기 위한 학부 통계학과 수준 이상의 통계 및 기계학습 교육이 대부분이다. 물론, 국가 경쟁력을 위하여 심도 있는 데이터 과학자나 분석가의 양성도 필요하지만 일반인의 데이터 활용 능력을 높이는 것도 중요하다고 생각된다. 우리나라의 데이터 활용 능력을 통한 국가경쟁력을 높이기 위해서는 투 트랙 전략이 필요한 것으로 보인다.
빅데이터 시대에 처방 분석을 할 수 있는 수준 높은 전문가를 키우는 심도학습 과정도 필요하다. 또한 일반인을 위한 분야별 데이터 분석 교육과 실습까지 아우르는 학습 과정이 절실하다. 통계청이나 각 부서에서는 심도 있는 분석을 할 수 있는 소수의 분석 공무원을 양성하고 더불어 대다수의 공무원도 진단 분석을 이용한 데이터 분석 과정을 할 수 있어야 한다. 데이터 분석 과정을 위한 통계 교육은 분석 도구나 분석 방법에 대한 교육보다는 분석 과정에 대한 교육을 집중해야 한다. 각 기업에는 특정한 주제를 심도 깊게 분석하는 데이터 분석가가 필요하지만 일반 직원들도 고등교육에서 받은 통계 분석 방법을 데이터 분석 과정에 적용해 데이터 기반의 검증과 이를 통한 통찰력을 기르는 것이 필요하다. 예를 들어 보험회사의 경우 고급분석 전문가를 통해 사기 방지 모형을 도출하고 사기 유형에 대한 이해와사기 방지를 통한 이익의 극대화를 추구하는 한편 일반 영업 사원이 고객을 대하면서 느낀 노하우를 기술 분석, 진단 분석 같은 데이터 분석 과정으로 일반화해 이를 현장에 어떻게 적용할 수 있는지를 도출할 수 있어야 한다.
소수에 대한 심도 학습과 다수에 대한 확장 학습을 통해 우리나라의 데이터 활용능력 향상을 통한 국가경쟁력 증대를 기대해 본다.