통계의 창 2020 겨울호

데이터가 풍부한 세상이 되었다. 내가 원하든 원하지 않든 우리 앞에는 이미 수많은 데이터가 있다. “앞으로는 석유나 금이 아니라 데이터가 지구상에서 가장 값진 자산이 될 것이다”라고 트렌드 분석가인 마크 펜은 『마이크로트렌드X』에서 주장한 바 있다. 우리 속담에 ‘구슬이 서 말이라도 꿰어야 보배’라는 말도 있다. 아무리 좋은 재료가 많이 있어도 다듬고 정리하지 않으면 가치가 없다는 것을 비유적으로 한 말이다. 널려 있는 데이터를 쓸모 있도록 만들어 보배가 되도록 하려면 무엇을 어떻게 해야 할까? 먼저 데이터를 수집하고 정리하고 분석하여 해석하면 된다. 구슬을 꿰듯이 데이터 분석을 통해 새로운 가치를 만들면 가장 값진 자산이 된다. 이 일을 누가 해야 할까?

2015년 가트너(Gartner, Inc.)에서 발표한 「신기술 하이프 사이클(Hype Cycle)」에서 ‘시민 데이터 과학(Citizen Data Science)’이 처음 등장한 후 데이터 분석에 대한 현실적인 관심이 높아지기 시작했다.

전문 데이터 과학은 과학적 방법, 프로세스, 알고리즘 및 시스템을 이용하여 데이터에서 가치를 도출한다. 데이터 과학자는 데이터 분석을 위한 전략 개발, 데이터 준비, 데이터 탐색, 분석 및 시각화, R 및 파이썬(Python)과 같은 프로그래밍 언어를 사용하여 모델을 구축한다. 이런 전문 데이터 과학은 전문적인 학습과 숙련이 되지 않은 현업 실무자가 할 수 있는 업무가 아니다.

하지만 현업에서는 수시로 데이터를 활용해야 하는 이슈가 등장한다. 이럴 때마다 전문 데이터 과학자에게 요청하고 결과를 기다리는 데 많은 한계가 노출되면서 ‘시민 데이터 과학자(Citizen Data Scientist)’에 대한 관심이 높아지고 있다. 이는 수학 또는 통계에 대한 깊은 지식은 없지만 내가 속한 업(domain, field, 산업)에 대한 지식을 바탕으로 데이터 과학의 원리를 일부 적용하여 업무를 하는 사용자를 지칭한다. 가트너는 수년간 시민 데이터 과학자 수가 정규 데이터 과학자보다 5배가량 빠르게 증가할 것으로 전망했다.

전문가가 분석하던 업무 중 일부를 현업 실무자가 스스로 분석하는 시대에 접어든 것이다. 현업에 있는 우리는 모두 데이터 과학자까지는 아니더라도 적어도 데이터 분석가는 되어야 한다. 국내 상황에 맞추어 표현하면, 현업에서 구술을 꿰어 보배로 만드는 ‘현업 데이터 분석가’가 절실히 요구되는 시점이다. 현업에서 스스로 데이터 분석을 통해 통찰을 얻고 바로 실행에 옮기는 실무자들이다. 이것이 가능하게 된 것은 셀프서비스 분석 도구들이 많이 등장했기 때문이다.

데이터를 읽고 쓰는 리터러시 능력, 즉 데이터를 다루는 힘을 기르는 가장 빠른 방법은 데이터 분석을 통해 스스로 경험을 쌓는 것이다. 운전 연습을 많이 하면 할수록 운전 실력이 향상되는 이치와 같다. 현업 실무자의 셀프서비스 데이터 분석이 필요한 이유다. 현업 실무자 모두가 데이터 분석가가 될 수 있다. 운전면허증만 있으면 모두가 운전을 할 수 있듯이, 컴퓨터만 사용할 수 있다면 모두가 데이터를 분석할 수 있는 것이다.

빅 데이터의 시대가 되면서 데이터 분석은 셀프서비스로 진화하고 있다. 어느 순간 물이 셀프서비스가 되었듯이 데이터 분석도 셀프서비스가 되고 있다.

어떤 지역으로 이동하려면 자동차가 필요하듯이 데이터 분석을 하려면 분석 도구가 필요하다. 데이터 분석을 전문적으로 해보지 않았던 현업 실무자는 목적에 맞는 현명한 분석 도구를 선택하기 어려울 수 있다. 아무거나 선택한다면 서울에서 대전을 가는 데 승용차가 아니라 트럭을 잘못 선택하여 고생하는 꼴이 될 수 있다.

만약 서베이를 통해 수집한 데이터를 단순 집계한다면 엑셀로도 충분하다. 굳이 R을 사용할 이 유가 없다. 그러나 빅 데이터를 수집하고 처리하고 모델링을 해야 한다면 R이나 파이썬을 다룰 수 있어야 한다.

목적에 맞는 분석 도구의 선택은 셀프서비스 데이터 분석에서 특히 더 중요하다. 업무를 효율 적으로 해야 하는데 잘못 선택하면 오히려 비효율이 될 수 있기 때문이다. 가장 대표적인 도구 몇 가지를 살펴보자.

첫째, 검색 플랫폼에서 제공하는 데이터 분석 도구를 이용하면 손쉽게 데이터 분석을 할 수 있다. 구글의 구글트렌드, 네이버의 데이터랩, 바이브(다음소프트)의 썸트렌드, 그리고 빅카인즈 등이 대표적이다.

구글트렌드와 데이터랩은 특정 검색어가 얼마나 많이 검색되었는지 확인할 때 유용한 도구다. 글로벌 트렌드를 알고 싶다면 구글트렌드를, 국내 트렌드를 알고 싶다면 데이터랩이 더 유용할 수 있다.

썸트렌드는 온라인 데이터를 통해 키워드분석, 평판분석, 비교분석을 제공한다. 무료로 이용할 수 있으며 고급 분석은 유료 서비스를 받아야 한다.

빅카인즈는 신문, 방송 등 국내 54개 주요 언론사의 6천 5백만 건 뉴스를 축적하고 있는 국내 최대의 공공 뉴스 아카이브다. 빅카인즈 내에서 뉴스 검색, 연관어 등 다양한 빅 데이터 분석을 쉽고 간단하게 할 수 있다. 무료 회원가입으로 분석한 내용을 다운로드해서 다른 분석 도구에서 추가 분석을 할 수도 있다. 특히 텍스트 마이닝으로 뉴스에 언급된 키워드의 빈도와 연관어를 분 석할 수 있다.

둘째, 마이크로소프트의 엑셀은 가장 보편적으로 사용하는 데이터 분석 도구다. 엑셀은 데이터가 테이블 형태로 되어 있어서 직관적으로 데이터를 관리할 수 있다. 여기에 파워 쿼리나 피벗 기능을 이용하면 쉽게 데이터를 정리하고 시각화할 수 있다.

파워 쿼리는 분석 요구에 부합하도록 데이터 원본을 검색, 연결, 결합 또는 구체화할 수 있게 해주는 데이터 연결 기술이다. 파워 피벗은 데이터 모델을 만들고, 관계를 설정하고, 계산을 만 들 수 있는 데이터 모델링 기술이다. 그리고 파워 BI와 연동이 되기 때문에 비즈니스 인텔리전스 (BI)까지 구현할 수 있다.

정품 사용자라면 추가적인 비용 부담 없이 이런 모든 기능을 사용할 수 있다. 다만 처리용량이 나 고급 통계분석기능, 그리고 자동화 측면에서 한계를 가지고 있다. 엑셀은 데이터 과학을 처음 접하는 현업 데이터 분석가에게 유용한 도구로 모자람이 없다.

셋째, 전문적인 통계 패키지로 SPSS와 SAS가 있다. SPSS는 어느 정도의 진입장벽이 있긴 하 지만 그래픽 사용자 인터페이스(GUI)로 되어 있어서 초보자도 쉽게 사용할 수 있다. 엑셀과 같 은 메뉴 구조로 되어 있다. 깊이 있는 혹은 추가적인 분석을 위해 프로그래밍이 필요한 경우도 있 지만, 대다수는 기본 기능으로 고급통계분석, 데이터 마이닝까지 가능하다.

SAS는 프로그래밍해야 되기 때문에 어느 정도 전문성이 요구되는 분석 도구다. 강력한 통계분 석 기능을 제공하고 있으며, 시각화 및 비즈니스 인텔리전스 기능이 추가되고 있다. 두 패키지 모두 유료이고 시험판을 일정 기간 사용할 수 있다. 만약 통계와 프로그래밍에 대한 이해가 약하다 면 SPSS를 사용하는 편이 훨씬 스트레스를 줄일 수 있다.

넷째, R과 파이썬과 같은 오픈소스 프로그래밍 언어가 있다. R은 통계 분석과 그래픽을 위한 프 로그래밍 언어이자 다양한 패키지의 집합으로 구성된 데이터 분석 도구다. 워크시트 대신에 입 력창만이 존재하기 때문에 통계와 프로그래밍에 대한 기본적인 이해가 있어야 사용할 수 있다.

R을 포함한 모든 프로그래밍 언어에서는 변수라는 개념을 사용하는데 이런 변수는 작업공간 에 존재하지만 고정된 위치를 갖지는 않으며, 벡터, 행렬, 테이블 등 고유의 자료형을 갖는다.

파이썬은 보다 빠르게 작업하고 시스템을 보다 효과적으로 통합할 수 있는 프로그래밍 언어이 며 개발도구다. 두 언어 모두 통계분석이 가능하지만, R은 통계분석에 특화된 언어이고, 파이썬 은 개발에 특화되어 있다. 그 쓰임새에 따라 선택적으로 사용할 필요가 있다. 무료라는 장점이 있 는 반면에 언어를 익혀야 하는 어려움이 있다

다섯째, 래피드마이너(RapidMiner)와 나임(Knime) 같은 오픈소스 플랫폼도 있다. 드래그 앤 드롭만으로 프로그래밍 없이 분류와 패턴 발견 등의 복잡한 분석을 할 수 있다. 현업 실무자인 초 보 데이터 분석가부터 전문 분석가까지 이용할 수 있는 데이터 분석 플랫폼이다

래피드마이너는 GUI 방식으로 데이터 마이닝을 할 수 있는 분석 도구다. 나임은 Work-Flow 기반으로 데이터 분석을 수행할 수 있으며, 코딩 기반의 다른 데이터 분석 프로그램보다 코딩에 대한 기능 요구도가 낮고, 분석 과정을 시각화하여 볼 수 있다.

마지막으로 비즈니스 인텔리전스 도구로 파워 BI와 태블로 등도 있다. 모든 데이터 분석은 분석 결과를 해석하여 통찰을 얻어야 하는데 그 중심에 시각화 분석이 있다. 데이터 시각화는 데이 터를 수집 및 처리하여 시각적으로 도식화하는 기법으로 아이디어를 탐구하고 정보를 전달할 수 있는 빠르고 효과적인 방법이며, 비즈니스 인텔리전스를 위한 대시보드 역할을 한다.

대시보드를 만들게 되면 한눈에 동태적으로 데이터 분석의 결과를 실시간으로 볼 수 있고 결 과물을 공유할 수 있기 때문에 매우 유용한 통찰을 제공할 수 있다.

파워 BI는 엑셀 데이터를 그대로 사용할 수 있고 무료로 이용할 수 있어서 초보자에게 유용한 도구다. 태블로는 강력한 시각화 도구이지만 유료이기 때문에 전사적으로 조직에서 도입할 때 유용하다. 현업 실무자로서 대시보드에서 데이터를 자유롭게 분석할 수 있어야 한다.

이 외에도 다양한 데이터 분석 도구들이 있다. 중요한 것은 도구 자체가 아니다. 어떤 도구를 사용하느냐는 해결하고자 하는 문제 및 데이터의 특성에 따라 달라질 수 있다. 목적에 맞는 도구 를 선택하는 것 역시 현업 실무자들이 고민해야 한다. 현업 실무자로서 데이터 분석을 하고자 한 다면 먼저 엑셀과 검색플랫폼에서 필요한 분석을 하면서 데이터 분석을 하는 습관을 기를 필요 가 있다.

좀 더 깊이 있는 분석을 하고자 한다면 SPSS와 같은 통계 패키지를 사용하고, 전문적인 데이터 분석 및 시각화 분석을 하고자 한다면 R과 같은 프로그래밍 언어를 익혀야 한다. 코딩에 자신이 없다면 래피드마이너와 같은 분석 플랫폼으로 데이터 마이닝 및 예측분석을 할 수 있다.

현업 실무자는 모든 분석 도구와 방법을 익히는 것이 아니라 나의 업무에 필요한 분석 도구와 방법만 집중적으로 학습할 것을 권장한다. 무료이면서도 초보자가 사용할 수 있는 분석 도구로 텍스트 마이닝은 검색플랫폼을, 집계 및 요약 등 기초적인 기술 통계와 가설검정 등은 엑셀을, 그 리고 예측 분석 및 데이터 마이닝은 래피드마이너를 분석 도구로 추천한다. R이나 파이썬 같은 프로그래밍 언어를 사용하지 않아도 셀프서비스로 데이터 분석을 할 수 있다.

데이터 분석은 통계를 기반으로 하고 있다. 통계학을 몰라도 데이터 분석을 할 수 있지만, 통 계를 이해하면 분석 결과의 의미를 깊이 있게 파악할 수 있다. 과거에는 주로 표본을 추출하여 서베이를 했기 때문에 통계분석을 통해 구한 통계량으로 모수를 추정하여 모집단의 특성을 파 악했었다.

빅 데이터 시대가 도래하면서 표본이 아닌 모집단의 데이터 수집이 가능해졌다. 추정을 할 필 요가 없어지면서 일부 통계 무용론이 제기되기도 했지만, 이는 오해라고 할 수 있다. 아직 대다수 의 데이터 분석은 전체가 아닌 일부의 데이터를 사용하고 있으며, 예측하거나 모델링을 하는 데 통계량을 기반으로 하고 있다. 분석의 결과를 통계적으로 유의미한지 살펴보고 해석하기 위해서 는 통계의 벽을 넘어야 한다.

첫째, 데이터 분석을 위한 기초 통계 및 기술 통계로 최소한 빈도 분포에 대해 이해하고 있어야 한다. 빈도 분포는 모든 분석에서 가장 기본적이면서도 매우 중요한 개념이다.

빈도 분포의 통계량은 위치와 변동성, 왜도와 첨도가 대표적이다. 집중하는 경향을 측정하는 위치 통계량은 평균이다. 일반적으로 평균값(mean)이라고 하면 산술평균을 말한다. 그러나 산 술평균은 극단치(outlier)가 있는 경우에 변수의 특성을 왜곡할 가능성이 있다.

예를 들어, 국회의원의 평균재산이 22억 원이라고 할 때 특정의 1인이 2,311억 원의 재산을 가지고 있다면 평균의 의미가 무의미해진다. 이때 최빈값(mode)과 중앙값(median)을 함께 살 펴봐야 한다. 소득분포를 볼 때 특히 평균값에 유의해야 한다. 변동성 측정 방법으로 범위, 4분위 범위, 분산과 표준편차, 변동계수 등이 있다. 분산은 어떤 변수의 평균을 중심으로 흩어진 정도를 나타낸다.

분산이 크다는 것은 데이터들이 많이 퍼 져 있다는 것을 의미한다. 형태를 측정하 는 첨도는 분포의 모양이 중심점에서 뾰 족한가를 나타내는 통계량이고, 왜도는 분 포의 모양이 얼마나 좌우대칭인지를 나타 내는 통계량이다. 이런 통계량으로 변수의 특성을 이해하게 된다.

둘째, 가설검정은 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표 본을 사용하여 검토하는 통계적인 추론 방 법이다. 가설을 설정하고, 유의수준을 설 정하고, 검정 통계량을 산출한 다음, 가설 에 대해 기각 및 채택을 판단하게 된다. 가 설은 연구자가 관심을 두고 있는 현상이나 요인에 관한 증명되지 않은 진술이나 제안으로 차이가 없거나 영향이 없다는 것을 의미하는 귀무가설과 어떤 견해나 행동에 변화를 유발 할 수 있음을 의미하는 대립가설을 설정한다.

예를 들어, ‘성별에 따라 소득수준에 차이가 없다’라는 귀무가설을 설정하고, 유의수준을 0.05(신뢰수준 95%)로 설정했다면, P값이 유의수준 값보다 작게 되면(p〈0.05) 귀무가설을 기 각하고 대립가설을 채택하게 된다. 즉, 유의수준 5%(신뢰수준 95%)에서 성별에 따른 추천 의향 에 차이가 있다고 해석한다.

셋째, 변수와 변수 간의 관계에 대한 인과관계와 상관관계를 이해해야 한다. 인과관계(causation)는 원인과 결과의 관계로 원인이 선행되고 그에 따라 결과로 나타나는 관계다. 실험 및 시 계열 데이터를 수집하여 회귀분석을 통해 파악할 수 있다. 상관관계(correlation)는 두 변수 중 에서 어떤 변수가 원인이고 어떤 변수가 결과인지 알 수 없지만 두 변수 간에는 관계가 있는 것을 말한다. 설문조사나 소셜데이터를 수집하여 상관분석으로 상관계수를 구해서 파악한다.

예를 들어, 무더위로 인해 아이스크림 판매량이 증가했다면 인과관계가 있다. 무더위로 인해 익사자 수가 증가했다면 역시 인과관계가 있다. 하지만 아이스크림 판매량과 익사자 수의 증가 간에는 인과관계를 알 수 없으며 단지 상관관계(?)가 있을 따름이다. 단, 이 상관관계는 통계적 으로는 의미가 있을지언정 현실에서는 무의미한 상관이다. 어떤 변수 간에 상관관계가 강하다고 해서 그사이에 인과관계가 있다고 단정하면 오류나 왜곡이 일어날 가능성이 매우 높다는 점을 유의해야 한다. 제대로 된 데이터 분석을 하려면 조사방법론에 대한 이해와 분석적 사고가 필요 하다.

데이터 분석은 요리와 비슷하다. 신선한 식재료를 구하고 적절한 조리도구를 사용해서 조리할 때 맛있는 음식이 된다. 마찬가지로 좋은 분석 결과물을 얻기 위해서는 재료인 데이터를 수집하 고 적절한 분석 도구를 선택하여 분석해야 한다. 그리고 데이터 분석을 제대로 하려면 데이터 수 집이 잘돼야 하고, 데이터를 잘 수집하려면 분석의 목적이 분명해야 한다. 즉, 데이터 분석의 목적 과 수집과 분석은 일련의 연결된 프로세스로 인식하고 분석 업무를 해야 한다.

데이터에는 정형 데이터(고객 수, 판매량 등)와 비정형 데이터(텍스트, 위치 정보, 사진, 동영상 등)가 있다. 데이터의 유형에 따라 데이터 분석 방법도 정형 데이터 분석(빈도분석, 회귀분석, 데 이터 마이닝 등)과 비정형 데이터 분석(텍스트 마이닝, 소셜 분석 등)이 있다.

분석 과정에서 통찰을 얻고 통찰의 결과를 바탕으로 실행에 옮길 때 새로운 가치를 만들 수 있 다. 데이터 분석을 통해 매출 증가, 수요 예측, 리스크 경감, 평판 개선, 신제품 개발, 이직률 개선 등 다양한 분야에서 가치를 창출할 수 있다.

데이터 분석에도 수준이 있다.

첫 번째 수준은 문제의 중요도 인식을 위한 분석으로 탐색 혹은 기술 분석(Descriptive Analysis)이다. 어떤 문제가 일어났는지, 일어나고 있는지, 또는 일어날 것인지, 그리고 그 문제 가 정말로 살펴봐야 할 문제인지 등을 탐구하는 분석 단계다.

두 번째 수준은 문제 전개 과정의 규명으로 인과 혹은 예측 분석(Predictive Analysis)이다. 왜, 어떻게 문제가 일어났는지, 일어나고 있는지, 일어날 것인지, 그리고 그 문제의 원인-결과는 어떻게 되는지를 파악하는 분석 단계다.

세 번째 수준은 문제 처리 방안의 도출을 위한 분석으로 최적 혹은 처방 분석(Prescriptive Analysis)이다. 어떻게 문제를 변화시킬 것인지, 문제를 원하는 결과로 변화시키는 조건 혹은 조치는 무엇인지를 밝히는 분석 단계다.

현업 실무자는 셀프서비스 데이터 분석으로 최소한 첫 번째 수준인 탐색 혹은 기술 분석까지 는 기본적으로 분석할 수 있어야 한다. 그리고 두 번째 수준인 인과 혹은 예측 분석을 할 수 있도 록 노력해야 한다. 세 번째 수준인 최적 혹은 처방 분석에 도전하기 위해서는 전문적인 학습과 연 습이 필요하다.

셀프서비스로 데이터 분석의 기술을 익히려면,

첫째, 많은 숫자 속에서 원인과 결과를 찾아내는 것에 관심을 가져야 한다.

둘째, 변수와 변수 간의 연관성을 찾아내야 한다.

셋째, 데이터 홍수 속에서 진짜 의미를 찾아내기 위한 과감한 도전이 있어야 한다.

넷째, 현명한 의사결정 정보를 얻기 위해 항상 문제를 먼저 정의하고 분석적 사고를 해야 하며 나의 가설을 지지할 데이터를 갖고 있어야 한다.

마지막으로 데이터를 현명하게 활용하기 위해서는 생각하고, 생각하고, 또 생각해야 한다. 그 리고 연습하고, 연습하고, 또 연습해야 한다.

데이터 리터러시:셀프서비스로 데이터 분석하기

데이터 리터러시:
셀프서비스로 데이터 분석하기