통계광장이강봉 | 통계의 창 객원기자
21세기 통계 개념이
변하고 있다
‘어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자로 나타낸 것’이 통계이다(네이버 국어사전 참조). 통계를 이용하면 인간 삶, 자연현상 등 다양한 분야에서 통찰력 넘치는 놀라운 결과를 도출할 수 있다. 예를 들어 어떤 도시에 사는 사람들의 평균 수명을 알고 있다면 이 데이터를 통해 미래 인구 추이를 뽑아낼 수 있다. 또한 그 예측에 따라 그 국가에 알맞은 인구 정책을 펴나갈 수 있고 개인적으로는 건강관리를 해 나갈 수 있다.
그동안 인류는 통계적인 개념을 기반으로 크고 작은 역사를 기록해왔다. 또한 다른 동물들이 상상할 수 없는 놀라운 문명을 창출해왔다. 그리고 인류 역사와 함께 발전해 온 통계학이 대도약의 시기를 맞고 있다.
통계학이 데이터사이언스 포용해야
지난 4월 20일 매사추세츠 공과대학교(Massachusetts Institute of Technology, MIT) 통계 및 데이터사이언스 센터는 ‘SDSCon 2018’ 행사를 개최했다. 이 자리에는 대학 연구진을 비롯해 구글 브레인, 페이스북 등에서 데이터사이언스를 담당하는 실무진, 그리고 수학, 공학, 경제학 등 관련 분야 전문가들이 다수 참석했다.
이 자리에서 MIT 센터 소장이면서 컴퓨터과학자인 디바브렛 샤(Devavrat Shah) 교수는 “최근 통계학이 전통적인 개념의 통계(statistics), 확률(probability)에 컴퓨테이션(computation), 데이터 분석(data analysis) 등 기술적인 측면을 대폭 받아들이고 있다.”고 말했다.
MIT 과학캠퍼스의마이클 시프서(Michael Sipser) 학장은 “통계학은 수리과학의 한 분야이지만 수학과 다른 목표와 문화를 지니고 있다.”고 말했다. 통계의 효율적인 활용을 통해 인간 삶을 풍요하게 발전시켜나갈 수 있다는 것이다.
또 “최근 통계는 빅데이터, 인공지능, 사물인터넷 등 첨단 기술 도입으로 새롭게 변화하고 있다.”고 말했다. 그는 시대 조류에 맞춰 통계학과 함께 데이터사이언스를 함께 포용해야 성공적인 결과를 도출할 수 있을 것으로 내다봤다.
행사 기간 중에 참석자들은 과학에서부터 교육, 예술, 정치, 경제학에 이르기까지 다양한 분야에 걸쳐 새롭게 적용되고 있는 통계학에 대해 깊은 관심을 표명했다. 또한 새로운 통계 방식에 대해 사례 발표와 함께 평가 및 토론, 협의 등이 이어졌다.
대중이 쉽게 이해할 수 있는 통계 개발 필요
컬럼비아 대학의 컴퓨터과학자 캐틀린 맥커운(Kathleen McKeown) 교수는 “사회과학과 관련된 매우 중요한 자료들을 트위터와 같은 SNS를 통해 도출할 수 있다.”고 말했다. 트위터상에 나타나는 발언 수위를 종합해 미래 폭력사건을 예측할 수 있다는 것이다. 또 스탠퍼드 대학의 공학자 스티븐 보이드(Stephen Boyd) 교수는 새로운 통계방식을 재정분야에 적용할 수 있다고 말했다. 수많은 거래, 특히 무역 사례를 모델화해 시뮬레이션화한 후 미래 리스크와 함께 거래 성사 가능성을 예측할 수 있다고 밝혔다.
기술적인 문제도 거론됐다. 미시건 대학의 매튜 케이(Matthew kay) 교수는 “외부에서 보기에 불확실한 부분을 명확히 보여줄 수 있는 통계를 영상화해 명확한 이미지를 보여줄 수 있는 기술이 개발돼야 한다.”고 주장하며 지난 2016년 미국 대통령 선거 사례를 들었다. “당시 일반 대중이 쉽게 이해할 수 없는 영상기술 부족으로 많은 유권자들이 혼란을 겪었으며, 이로 인해 공명한 선거 분위기를 해치고, 결과적으로 혼란을 유발했다.” 고 말했다.
이에 구글 브레인의 마르틴 바텐버그(Martin Wattenberg) 기술책임자는 “통계학자들과 협의해 다양한 상황의 통계를 영상화하는 방안을 협의 중에 있으며 기술적인 과정에서 학술적 도움이 필요하다.”며 통계학자들의 도움을 요청했다.
첨단기술과 접목을 통한 신 통계방식 도입
의료공학자이면서 물리학자인 MIT의 레오니드 미르니(Leonid Mirny) 교수는 “새로운 방식의 통계분석을 통해 인간 유전체 (genome)를 단백질의 3D 구조로 보기 시작했으며, 이 기준을 다른 연구에 적용하는 방안을 모색하고 있다.”고 밝혔다.
MIT 뇌인지과학과의 조시 테넨바움(Josh Tenenbaum) 교수는 “인공지능을 활용, 사람의 사고과정을 데이터화해 뇌 기능을 분석 중에 있다.”고 말했다.
MIT 컴퓨터공학과 교수인 표트르 인디크(Piotr Indyk) 교수는 빅데이터 문제를 알고리듬 설계자 관점에서 풀어갔다. 통계를 다루는 사람들에게 매우흥미로운 시대가 열리고 있고 엄청난 양의 데이터가 연일생산되고 있으며, 그만큼 할 일도 늘어나고 있다면서 “빠르게 규모를 키워가는 빅데이터를 소화해낼 수 있는 알고리듬을 서둘러 개발해야 한다.”고 주장했다.
사회과학에 어떤 통계방식을 적용해야 할지를 놓고 다양한 토론이 이어졌다. 하버드대학 경제학부의 센딜 멀레이너선(Sendhil Mullainathan) 교수는 “경제학 연구 과정에서 머신러닝(machine learning)이 그릇된 통계로 인해 발생하는 편견·오류를 줄이고 있다.”고 말하며 의료와 관련된 사례를 들었다. 성인병, 심장질환 등 치명적 질환으로 많은 사람들이 비싼 비용을 지불하는 가운데 머신러닝을 활용함으로써 환자 개개인의 사례를 새로운 방식으로 통계화해 균형 있는 진료비 지출을 유도해나갈 수 있었다고 말했다.
5G 도입하면 데이터 속도 280배 빨라져
빅데이터 확산을 가속화하고 있는 것은 5G 기술이다. 5G란 ‘5th generation mobile communications’의 약자다. ‘5G 이동통신’이라 번역하고 있다. 2GHz 이하의 주파수를 사용하는 4G와 달리, 5G는 28GHz의 초고대역 주파수를 사용한다.
과거 2000년대 상용화한 3G 통신 방식인 ‘IMT-2000’을 계승해서 2020년 상용화를 목표로 삼는 모바일 국제 표준 기술이다. 국제전기통신연합(ITU)이 내린 정의에 따르면 5G는 최대 다운로드 속도가 20Gbps, 최저 다운로드 속도는 100Mbps이 돼야 한다.
또한 1㎢ 반경 안의 100만 개 기기에 사물인터넷(IoT) 서비스를 제공할 수 있고, 시속 500km 고속열차에서도 자유로운 통신이 가능하다. 이에 따라 5G로 통신을하게 되면 다운로드 속도가 현재 이동통신 속도인 300Mbps에 비해 70배 이상 빨라진다.
일반 LTE에 비해선 280배 빠른 수준이다. IT 관계자들은 1GB 용량의 영화 한 편을 10초 안에 내려받을 수 있는 속도라고 설명하고 있다. 최근 국제전기전자기술자협회(IEEE)에서 발간하는 잡지 ‘IEEE 스펙트럼’은 5G 기술이 어떻게 개발되고 있는지 그 현장을 소개했다.
미국을 대표하는 통신회사인 버라이즌(Verizon)은 미국 캘리포니아 주 새크라멘토에서, 중국을 대표하는 화웨이(Huawei)는 880만 명의 스마트폰 가입자를 대상으로 5G망을 상용화를 위한 실험을 진행하고 있다고 밝혔다.
2017년 11월 안전요원없는 완전 자율주행(Full Self-Driving) 운행에 성공해 관심을 모았던 한국의 SK텔레콤은 2019년 고속도로 적용이 가능한 5G 네트워크를 선보일 계획이다.이는 도로와 차량, 차량과 차량 간의 긴밀한 정보교환을 통해 자율운행을 가능케 하는 기술이다.
이외에 ZTE는 5G를 위한 클라우드 기반의 예측 기술을, 퀄컴은 5G 환경에 맞춘 스냅드래곤(Snapdragon) X50 모뎀을, 보다폰은 세계 최초의 5G 통화기술을 개발 중이다. 캐나다는 지방정부 차원에서 퀘백과 온타리오를 연결하는 5G망 ‘ENCQOR’을 구축하고 있다.
실시간 데이터 분석이 가능한 모바일 엣지 컴퓨팅 및 인공위성 도입
시장조사기관인 ‘리서치앤마켓(ResearchandMarkets)’은 지난 6월 7일 데이터 기술과 관련해 ‘빅데이터 분석, 모바일 엣지 컴퓨팅, 실시간 데이터: 기술, 해결책, 시장 전망 2018-2023(Big Data Analytics, Mobile Edge Computing, and Real-time Data: Technologies, Solutions, and Market Outlook 2018-2023)’란 제목의 시장전망 보고서를 발표했다.
보고서는 빅데이터가 기업 현장에서 어떻게 활용되고 있는지 다양한 사례들을 분석하고 있다. 또한 오는 2023년이 되면 대다수 기업이 움직이는 상황에서 실시간 데이터 분석이 가능한 모바일 엣지 컴퓨팅(Mobile Edge Computing)을 도입하게 될 것이라고 보고 있다.
보통 MEC로 표기하는 모바일 엣지 컴퓨팅은 서버를 통신 서비스 사용자와 가까운 곳에 설치한 후 사용자의 데이터를 그때그때 처리하는 기술을 말한다. 사용자가 언제든지 모바일 네트워크가 전송하는 데이터에 접근할 수 있어 포그(Fog) 컴퓨팅이라고도 한다. 데이터 처리망이 안개처럼 분산돼 퍼져 있다는 의미이다. MEC가 적용되면데이터 전송 시간이 비약적으로 단축되는 것은 물론 맞춤형 서비스가 가능해진다. 예를 들어 고속도로에서 MEC를 적용할 경우 중앙서버와 데이터를 주고받지 않고서도 교통정보 분석 및 활용이 가능하다.
또 보고서에서는 오는 7년 후인 2025년이 되면 64%의 산업 분야에서 사물인터넷(IoT)과 연결된 MEC 망을 갖추게 될 것으로 전망하고 있다. 주요 기업 대다수가 모바일 엣지 컴퓨팅을 통해 수집한 데이터를 즉시처리하면서 빅데이터 망을 구축할 것으로 보고 있다.
빅데이터 시대 맞아 신 통계개념 정립해야
통계와 빅데이터 사이의 긴밀한 관계가 있다는 것에 이의를 제기할 사람은 없을 것이다. 그러나 둘 사이의 어떤 관계를 어떻게 정립해야 할지에 대해서는 확실한 결론이 나와 있지 않은 상황이다. 기존의 통계학을 기반으로 해야 하는지에 대해서도 논란이 제기되고 있다.
21세기 빅데이터라는 개념 속에는 데이터량이 매우 크다는 의미가 들어 있지만 정부나 기업 등 사용자 입장에서 보았을 때 ‘저렴한 비용 으로 엄청난 데이터를 효과적으로 처리해 활용할 수 있다는’ 의미도 포함돼 있다.
비정형 데이터를 분석할 수 있는 자연어처리 기술과 텍스트 분석, 하둡 등과 같은 기술이 뜨면서 기업은 과거 대용량 데이터 처리에 들었던 비용과는 비교가 안 될 정도로 저렴한 비용으로 복잡한 데이터에서 필요한 정보를 추출해 활용할 수 있는 길이 열렸다.
어떻게 보면기존의 통계의 개념을 지금의 빅데이터 기술이 압도하고 있다고 해도 과언이 아니다. 이런 상황에서 통계학 측면의 개념 정립이 시급한 상황이다. 데이터를 취급하는 통계는 인류 역사와 함께 시작된 개념이다. 쏟아져 나오는 데이터를 어떻게 관리할 것인지, 또한 이를 관리하고 분석할 줄 아는 통계학적인 인재들을 어떻게 육성할 것인지, 더 나아가 머신러닝, 챗봇, 사물인터넷과 같은 첨단 기술을 어떻게 적용해야 할지 관계 정립이 이루어져야 할 것으로 보인다.