김선일 | 빅헤브솔루션(주) 대표이사

FOCUS

빅데이터와 AI시대에 살고 있는 우리들에게
절실히 필요한 직관력 및 상상력, 독서량

필자는 보통 아침 6시30분쯤 집을 나서 자가용으로 출근한다. 운전석에 앉은 후 스마트폰으로 전날 유럽 및 미국에서 일어난 경제 뉴스를 듣기 위해 유튜브를 실행한다. 이때 똑똑한 유튜브는 빅데이터 분석을 통해 내가 매일 같은 시간대에 보는 ‘한국경제TV #당잠사’를 상단에 표시해 준다. 이미 유튜브 백엔드(backend)에서는 필자의 행동 패턴을 빅데이터 분석 완료했고, ‘추천 컨텐츠’를 제공한 것이다. 이는 참으로 편리하면서도 무서운 세상인 듯하다.

‘한국경제TV #당잠사’가 상단에 표시되는 것을 기술적으로 분석해 보면, 유튜브는 필자의 행동 패턴 데이터를 일정수준 쌓은 후, 이 데이터를 정제 및 분석한 다음, 분석 결과 정보에 기초해서 필자의 행동을 예상하고 선택 가능성이 높은 컨텐츠를 우선적으로 제공해 준 것이다. 그리고 그 예측이 맞다면, 가중치를 더해 다음 시간대에도 동일한 컨텐츠를 제공할 것이다.

데이터와 정보, 그리고 잘못된 데이터의 실패 사례

‘정보(情報, information)’는 수집한 자료(데이터, data)를 실질적으로 도움이 되도록 정제한 유의미한 지식 결과물이라 할 수 있다. 다르게 말하면, 원시(raw) 데이터로부터 일련의 과정을 거쳐 얻은 결과물이 ‘정보’라 할 수 있다. 그렇다면 자료(데이터)를 수집하고 정제하고 시각화하는 과정을 왜 하는 것일까? 이러한 지루한 빅데이터 분석 작업을 수행하는 최종 목표는 지금보다 더 나은 결과물을 도출하기 위한 의사결정을 내리기 위함이다. 그러나 반대로 잘못된 데이터나 정보가 주어진다면, 잘못된 의사결정을 불러올 수 있다.

실제로 구글에서 데이터를 잘 못 활용해, 실패한 사례가 있다. 구글의 온라인 전염병 관리·예방 시스템인 ‘구글플루(Google Flu)’는, 감기에 걸린 환자가 입력한 검색어로 독감 확산을 예방하는 서비스였다. 하지만 ‘구글플루’의 예측 정확도는 구글의 주장과 달리 높지 않았다. ‘구글플루’가 독감과 관련하여 수집한 빅데이터가 실제 독감 전염과 관련성이 적었기 때문에 이러한 오류가 발생했다고 많은 전문가들이 지적했다. 결국 구글은 2015년 ‘구글플루’ 서비스를 중단할 수 밖에 없었다.

데이터 기반 비즈니스 경영

이번에는 비즈니스 경영 분야에서 빅데이터 성공 신화로 널리 알려진 사례를 살펴보자. 2011년 개봉한 영화 『머니볼』을 기억하는 독자가 많을 것이다. 이 영화는 대표적인 데이터 기반 비즈니스의 성공 사례로 볼 수 있는 메이저리그 야구 구단의 성공 신화를 다루고 있다. 영화 『머니볼』 의 스토리 핵심은 다음과 같다. 자본이 충분하지 않은 최하위 야구 구단(오클랜드 애슬레틱스)에서 예일대 경제학과 출신 통계 전문가를 고용한다. 이 전문가는 선수들의 기록 통계 가운데, 다른 사람들이 잘 알지 못했던 ‘출루율’이 중요한 요소임을 깨닫고, 출루율이 높지만 저평가된 선수들을 영입한다. 구단 고위 임원들은 자신들의 전통적인 방식과 다른 데이터 기반 의사결정에 초기에는 반대했으나, 결국 이를 수용하게 되고, 이로써 2002년 메이저리그에서 20연승을 달성하게 된다.

또한, IT 대기업 가운데 빅데이터 분석으로 큰 성장 모멘텀을 만든 회사는 어디일까? 십중팔구 미국 아마존(Amazon)을 떠올릴 것이다. 아마존은 데이터 분석 기술에 기초한 ‘구매 추천 서비스’, ‘재고 관리 시스템’, ‘예측 배송 시스템’을 구현해 매출이 급증할 수 있었고, 아마존의 데이터 기술 활용 성공 사례는 여러 IT 대기업에 큰 자극을 주었다고 해도 과언이 아닐 것이다.

과거 데이터가 부족한 시대에는, 기업에서 주요 의사결정이 고위직 임원들의 직관력(감)이나 경험, 연륜에 의지하는 경우가 많았다. 그러나 최근에는 데이터를 수집하고 정제한 후, 의사결정하는 것이 주류가 되었으며, 기업 고위직 임원들도 데이터 기반 의사결정에 반박하기 쉽지 않다. 데이터가 비즈니스 경영의 중요한 기준이 되었다. 다만 데이터 수집량이 부족하거나 데이터 해석이 어려운 경우에는 초인적인 직관력과 통찰력, 경험, 연륜이 요구된다. 특히 이는 학습하지 않은 낯선 데이터를 다룰 때 더욱 그렇다.

디지털 헬스케어 기술 현황 및 향후 전망

2008년 핏비트(fitbit) 출현 이후, 디지털 헬스케어 시장이 개화되었다. 핏비트는 스마트 밴드로부터 얻은 디지털 헬스케어 정보에 기초해, 사용자의 건강, 운동량, 수면 패턴 등을 분석하여 서비스를 제공한다. 이 가치를 인정한 구글은 핏비트를 2.1억 달러에 인수했다.
이후 핏비트를 시작으로 수많은 디지털 헬스케어 기업이 등장하고 있다. 대표적으로는 △웨어러블 디바이스로 애플워치, 갤럭시워치를 비롯한 스마트 워치와 밴드, 스마트 벨트를 생산하는 웰트, △매개형 디바이스로 일론 머스크가 2016년 설립한 뉴럴링크(Neuralink)와 같은 BCI(Brain Computer Interface, 뇌 컴퓨터 인터페이스)칩, △삽입형 디바이스로는 전자태그(RFID)를 내장한 작은 마이크로 칩이 있으며, 이는 주로 사람보다는 동물 특히 애완견 체내에 삽입되어 관리되고 있다. △섭취형 디바이스로는 의료용 캡슐 내시경인 필캠(PillCam)을 들 수 있는데, 필캠은 10시간 동안 초당 35프레임으로 촬영 및 전송이 가능하다. △그 외로는 수면분석에 특화된 슬리프 사이클(Sleep Cycle), 솜즈(Somzz), 사이렌케어(SirenCare) 등이 있다.

필자가 개발한 「사이렌케어」는 레이다(Radar) 센서를 활용하여 사람의 움직임과 운동량을 측정하고, 이를 빅데이터 분석하여 ‘낙상 감지’ 및 ‘수면 패턴 분석’ 서비스를 제공한다. 사이렌케어는 웨어러블의 불편함을 해소하는 차별화된 기술을 제공한다. 빅데이터 분석은 주로 Python pandas와 scikit-learn로 활용하며, 파일 내용의 정제 등은 awk, bash, perl 등을 사용한다. 데이터 시각화는 주로 matplotlib을 사용하며, 지도 시각화에는 Folium 라이브러리를 사용한다. 그리고 올해부터는 기존의 빅데이터 분석 기반 낙상 감지 및 수면 패턴 판별 알고리즘을 기계 학습(Machine Learning, 머신러닝)을 활용한 AI모델로 대체하는 시도가 진행 중이다.

[그림1] 사이렌케어 앱에서의 수면 패턴 타임라인

[그림2] 사이렌케어 앱에서의 수면상태 누적 차트

[그림3] 사이렌케어 레이다 센서로
사람의 위치 및 낙상, 움직임 정도 판별

최근 불면증환자가 급증하여, 헬스케어 빅데이터 분석 기술이 수면 분석에 많이 활용되고 있는데, 우선 수면의 특징에 대해서 살펴보자. 수면은 포유류와 조류에서 확인되며, 특히 인간의 수면은 논렘(NON-REM)수면과 렘(REM)수면이 약 90분 간격으로 4 ~ 5회 정도 반복한 후 잠에서 깨어난다. 그래서 흔히 논렘수면을 깊은 잠, 렘수면을 얕은 잠이라고 부른다. 수면의 75%는 논렘수면이며, 나머지 25%는 렘수면이다.
그리고 우리들은 ‘꿈’을 렘수면 동안에만 꾼다고 알려져 있다. 정확히 말하면 ‘꿈은 렘수면 중에 뇌가 활동하기 위해 일어나는 일종의 환각’이라 할 수 있으며, 이때 우리 몸이 완전히 이완되어 있지 않기에 종종 움직임이 발생한다. 또한, 논렘수면 중에 뇌의 노폐물이 처리된다고 하니, 잠을 잘 자는 것이 건강과 일상생활에 꼭 필요한 활동임을 잊지 말자. 한편 몽유병은 3 ~ 4단계 논렘수면에서 발생하는데, 논렘수면은 전술한 바와 같이, 꿈을 꾸지 않기 때문에 꿈과는 상관없다.
수면은 뇌의 기능을 회복하는 작용이 있다. 평균적으로 7시간 수면을 취하는 사람이 가장 장수한다고 알려져 있으며, 최근 국내에서도 불면증 환자가 110만명에 달할 정도로 급증하고 있는데, 특히 60대 환자(약 25만명)가 차지하는 비중이 높다. 이는 생리적인 요인 뿐만 아니라 경제적 요인도 큰 원인으로 지목된다. 참고로 신생아의 수면시간은 16 ~ 18시간, 사춘기 때는 약 8시간, 60대 이후가 되면 4단계 깊은 논렘수면이 거의 사라진다고 알려져 있다<참조: 수면의 과학, 사쿠라이 다케시>.

필자가 개발한 수면 패턴 빅데이터 분석을 통해 확인할 수 있는 점은 다음과 같다. 특정 개인의 수면 데이터를 분석하면 일정한 패턴이 나타나는데, 일정한 시간에 수면을 취하고 기상을 하며, 일정한 뒤척임 움직임량과 패턴이 분석된다. 그리고 이러한 패턴은 보통 일정한 범위 내에 수렴되는 경향이 있으며, 게다가 빅데이터 분석을 통해 이러한 경향이 연령별이나 거주지역별로도 유사성을 띄는 것으로 확인되었다. 물론 더 상세한 개인정보를 얻을 경우, 더 세밀한 그룹화와 범주화가 가능할 것으로 생각된다.
이와 같이 건강의 기초가 되는 수면 패턴을 빅데이터 분석을 통해 분석한다면, 건강 지표와 대체 방안을 마련할 수 있으며, 더 건강한 일상생활을 유지할 수 있을 것으로 기대된다. 또한, 낮에 신체와 뇌를 많이 사용할수록, 해당 영역의 뇌가 깊은 수면을 취한다고 한다. 그러므로 불면증이 있다면, 술, 담배, 카페인을 피하고 낮에 활동을 많이 하는 것을 추천한다.
의료 기술과 AI 기술의 발전으로 기대 수명이 증가하면서 노인 인구의 점진적인 증가와 노인 인구 비율 증가는 피할 수 없는 현실이 되었다. 디지털 헬스케어 빅데이터 기술과 AI 기술은 이러한 상황을 지혜롭게 대처하는 훌륭한 수단으로 기대받고 있다. 그러나 유럽과 미국과는 달리 일본과 특히 한국은 노인 빈곤율이 높아 노년층에서 헬스케어에 투자하는 비율이 낮다. 예를 들어, 사이렌케어의 낙상 감지 센서 제품은 북·서유럽에선 이미 3만대 이상 판매되었는데, 이는 많은 노년층이 자신의 건강과 안전을 위해 헬스케어 제품 도입에 적극적이라는 점을 보여준다. 한편 일본 및 한국에서는 판매량이 아직까지 낮은 편이다. 이는 북·서유럽의 이민법 강화로 인한 인건비 상승 및 일손 부족 등의 요인에 따라 헬스케어 제품 및 서비스의 필요성을 인식하는 데 차이가 있기 때문일 것으로 보인다. 특히 아시아 시장에서는 노년층의 경제적 요인이 큰 역할을 하는 것으로 판단된다. 하지만 이 문제 또한 점진적으로 일손 부족, 인식 개선, 소비력 향상과 함께 차츰 해결될 것으로 기대된다. 미국의 401K 연금 제도와 같이 혁신적인 은퇴 자금 마련 제도가 국내에도 하루빨리 마련되어야 할 것이다.
또한 최근 흥미로운 점은 AI 기술이 신약 개발에도 활용되고 있으며, 전문가들은 이를 통해 신약 개발 시간을 획기적으로 단축시킬 수 있을 것으로 예상하고 있다. 의료 분야에서는 또한 협동 로봇 및 온디바이스 AI의 확산으로 의료 질이 향상되고 있어, 이는 인간의 수명 연장에 큰 기여를 할 것으로 예상된다.
위와 같이 빅데이터 분석 기술과 AI 기술의 발전으로, 디지털 헬스케어 기술은 점진적으로 발전할 것으로 예상되며, 이에 따라 인간의 건강 증진과 수명 연장이 기대된다. 또한, BCI 기술과 로봇 기술 발전으로 SF영화에서처럼 인체 일부를 기계로 대체할 수 있는 날이 멀지 않을 것으로 예상된다.

피할 수 없는 AI시대

마크 저커버그 메타 CEO는 2022년 11월 4일 메타 주가가 90.78달러로 최저점을 찍은 이후, 효율성을 강화하기 위해 약 1년간 2만명 정도의 대규모 해고를 실시했고, 그 비용을 AI에 집중적으로 투자한 결과, 매출이 두 자릿수로 증가하고 순이익은 69% 증가했다. 이는 다른 기업들에도 강한 영향을 미쳐 M7(애플·마이크로소프트·알파벳·아마존·테슬라·엔비디아·메타)를 위시한 주요 대기업에서도 인력 구조 조정을 실시해, AI로 대체함으로써 비용을 절감하고 매출을 증가시켰다.
한편 최근 AI분야에서 가장 핫한 회사인 엔비디아의 젠슨 황 CEO는 “AGI(인공일반지능; 인간과 유사한 다양한 작업을 수행할 수 있는 AI)가 5년 내에 실현될 것으로 예상된다”고 발언한 바 있다. 이는 곧 사람과 AI가 서로 협조하고 경쟁하는 세상이 도래할 것으로 예상되며, 앞으로 데이터 수집과 의사결정이 더욱 가치있는 일이 될 것임을 시사한다. 특히 기업 경영진과 정부 고위 관료들은 반드시 이러한 능력을 갖추는 데 도전해야 할 것이다.
AGI가 출현하더라도 분명한 사실은 인간만이 가진 ‘상상력’, ‘직관력’, ‘무의식’, ‘잠재의식’ 등의 능력을 AGI가 완벽하게 실현할 것으로는 생각되지 않는다. 그리고 아직 우리 인간은 ‘꿈’과 ‘무의식’의 본질에 대해 정확하게 이해하지 못하고 있으므로, 당분간은 분석가의 ‘상상력’, ‘직관력’, ‘잠재의식’, ‘인지력’, ‘예지력’ 등의 능력은 시장에서 필요로 할 것이다.

수확체감의 법칙

보통 사람들은 ‘미루는 버릇’이 있으며, 특정한 상황에서 무엇을 해야 할 지 결정하지 못할 때, 흔히 데이터를 추가로 수집하려는 경향이 있다. 그러나 데이터가 지나치게 많아지면 ‘과적합’ 문제가 발생할 수 있으며, 이는 또 다른 기회비용을 낭비하게 된다. 따라서 데이터 분석을 진행하면서 일정한 윤곽이 드러나고 의사결정이 확실해진다면, 굳이 추가 데이터를 수집할 필요는 없을 것이다.
기계 학습(Machine Learning, 머신러닝)에서도 이와 유사한 문제가 발생한다. 데이터가 부족하면 제대로 학습하지 못해 ‘과소적합(underfitting)’ 현상이 나타나고, 반대로 데이터가 과다하거나 오류가 많으면 너무 편향되어 ‘과대적합(overfitting)’ 현상이 발생한다. 따라서 이 두 현상의 중간인 ‘최적적합’을 찾아야 한다.

경제학에서 ‘수확체감의 법칙(law of diminishing returns)’이라는 이론이 있다. 이론에 따르면 반드시 수많은 데이터를 수집한 이후에 행한 데이터 분석이 최상이고 가장 경제적이라고 할 수는 없다. 대다수 사람들은 타인의 비난을 의식해 완벽한 결정을 내리는 일에만 집착한 나머지, 스스로 압도당해 의사결정을 내리지 못하는 경우가 많다. 미국 아마존에서는 제품 기획 단계에서 80% 정도 기획안이 준비되면 사업화를 추진하는 경향이 있다. 나머지는 일을 추진하면서 임기응변으로 문제를 해결하는데, 이는 ‘수확체감의 법칙’을 경험 등으로부터 깨달은 결과이다. 콜린 파월 전 미국 국무장관 또한 “100퍼센트 확신이 느껴지기에 충분한 정보가 모일 때까지 기다리지 마라. 그때 즈음이면 항상 너무 늦기 때문이다. 40 ~ 70 퍼센트의 정보를 가지고, 직감(instinct)을 믿고 나아가라”라고 말 한 바 있다. <참조:https://govleaders.org/powell.htm>

모든 의사 결정은 불완전한 정보를 기반으로 이루어지지만, 올바른 의사결정을 내릴 수 있는 어느 정도 충분한 정보만 수집하고 결정을 내린 후 나아가고, 또 다른 문제에 직면하게 될 때에는 침착하게 상황을 파악하고, 임기응변으로 그 상황에 맞게 올바른 의사결정을 하면 될 것이다. 손자병법에서도 완벽한 계략의 지구전보다는 졸속이어도 속전속결로 승부를 보는 것을 권장하고 있지 않은가?<참조:손자병법 작전편>.

또한 세상에는 이상적인 데이터만 있는 것이 아니라, 일정량의 잡음(noise) 데이터가 반드시 혼재한다. 따라서 데이터의 특징과 경향이 충분히 드러나고 의사결정이 가능한 단계에 이르렀다면, 분석 과정을 종료할지 추가 데이터를 수집할지 결정해야 한다. 위와 같이, 데이터 수집 및 정제, 분석, 의사결정은 ‘종합 예술 기술’에 가까운 까다로운 작업이라 할 수 있으며, 이를 위해서는 다양한 분야의 배경지식과 도메인 지식, 경험이 반드시 필요하다. 또한, 데이터 분석 과정에서 어려움을 겪는다면, 망설이지 말고 전문가의 도움을 받는 것을 강력히 권장한다. 합리적인 비용으로 시간을 절약하고 고충을 손쉽게 해결할 수 있다. 또한, 가능한 한 혼자보다는 다양한 지식과 경험이 있는 분석가로 구성된 팀으로 분석 작업을 진행하는 것이 좋다. 필자는 팀으로 분석 작업을 해서 뜻밖의 큰 성과를 이뤘던 경험이 있다.

데이터 리터러시와 독서의 중요성

최근 「데이터 리터러시(literacy, 문해력)」라는 용어가 유행하고 있다. 데이터 리터러시는 단어 그대로 데이터를 읽고 이해하는 것에 기초해 분석 결과를 다른 사람에게 잘 전달하는 능력을 의미한다. 데이터 리터러시를 향상시키기 위해서는 해결하고자 하는 문제를 명확히 정의할 수 있어야 하며, ‘생각, 질문, 추론하는 능력’이 반드시 필요하다. 따라서 이러한 능력을 키우기 위해서는 많은 독서량이 뒷받침되어야 한다.
故찰리 멍거, 워렌 버핏, 일론 머스크, 빌 게이츠, 사티아 나델라를 필두로 국내외 주요 CEO 및 부자들 중에 독서광이 참 많다. 이문열 작가는 대학 입학할 즈음에 이미 1만권의 책을 읽었다고 하며, 빌 게이츠는 90년대부터 매년 몇 차례 워싱턴주 후드 운하 근처 작은 오두막에서 일주일 동안 독서와 사색에만 집중하는 시간(생각 주간)을 가졌을 정도로 독서광이다(유튜브에서 관련 동영상을 쉽게 찾을 수 있다). 부자들은 대부분의 일을 다른 사람에게 맡기지만, 유일하게 ‘독서’만큼은 남에게 맡길 수 없기에 스스로 많이 읽게 되었으며, 그 결과 지식과 사리에 더 밝아져 더 큰 부자가 되었다. 또한, 독서 시간을 통해 부자들은 자신의 지식, 사고력, 창의력, 상상력을 키워 나가고 있다.
숙련된 독서가의 뇌와 초보 독서가의 뇌를 비교해 보면, 당연히 숙련된 독서가의 뇌의 각회, 전두엽 등이 더 활발히 활동하는 것을 관찰할 수 있다<참조 :「책 읽는 뇌」, 매리언 울프>. 따라서 폭넓고 깊은 지식, 사고력, 경험은 우수한 데이터 분석 및 의사 결정의 밑바탕이 된다는 점을 명심하자. AI 시대에서 살고 있는 우리들의 부와 미래를 위해, 오늘부터라도 매주 한 권의 종이책을 읽는 것은 어떨까?

본고를 요약하면 아래와 같다.

  1. ① 데이터 기반 비즈니스 경영 사례 알아보기
  2. ② 디지털 헬스케어 기술 및 빅데이터 분석 기술 그리고 AI 기술 진보로, 인간의 수명 연장이 기대된다.
  3. ③ ‘수확체감의 법칙’을 토대로 의사결정하라.
  4. ④ 우리는 늘 부족한 정보에 기초해서, 분석 및 의사결정할 수 밖에 없다.
  5. ⑤ 도움이 필요하다면, 전문가의 도움을 받으라.
  6. ⑥ 가능한 한 혼자보다는 다양한 구성원으로 형성된 팀으로 분석 작업을 진행하라.
  7. ⑦ 더 좋은 분석 결과와 의사결정을 위해, 꾸준한 학습과 많은 독서를 하라.