비정형 데이터가 말하는 시그널에 주목하라

2017 WINTER

이 슈

최재원 | 다음소프트 이사

비정형 데이터가 말하는
시그널에 주목하라

빅데이터가 이제 막 관심을 끌던 시기 정부가 주관한 빅데이터 경진대회 심사위원을 맡은 적이 있다. 초창기 심사하면서 관심 있게 보았던 부분은 참가한 학생들의 전공이었다. 전산학, 통계학, 문헌정보학, 신문방송학 등 전공들이 다양했다. 심사 전에는 비정형 데이터 분석을 위한 텍스트마이닝 기술을 사용할 줄 아는 전산학이나 추출된 데이터를 기반으로 상관성을 찾아내는 통계학 전공자들이 유리할 것이라는 생각을 갖고 심사했다.
하지만 나의 예상을 깨고 대상은 문헌정보학과 학생 들이 차지했다. 초기 빅데이터는 기존에 데이터로 인식 되지 못했던 것들이 데이터화 되면서 빅데이터라는 개념 이 나오듯, 굳이 비유하자면 사람들 사이에서 말로만 전 해지던 것들이 글로 표현되어 그 책이 도서관에 보관 되면서 빅데이터라는 거대한 멀티미디어 도서관이 만들어진 것이다. 초창기가 빅데이터와 연관성을 갖는 이유에 대한 답은 분류에 있었다.

그 후에 치러진 경진대회에서 한 동안 수상자의 전공은 통계학과 출신으로 바뀌게 되었다. 정형데이터를 분석에 활용하면서 다양한 통계 기법을 통한 예측이 주요하게 작용됐지 때문이다. 하지만 최근 수상자는 통계학과 출신에서 사회학과나 심리학과 같은 인문학 출신자들이 수상하는 사례가 점점 많아지고 있다.

데이터는 시그널이다

최근 데이터 분석의 가치가 높아지면서, 빅데이터를 포함한 데이터 과학(Data Science)에 대한 관심이 크다. 데이터 과학은 전문가를 위한 영역이라고 생각하지만, 원래는 가설을 세우고 검정하여 의미 있는 현상을 뽑아내는 과정 전체를 아우르는 말이다.
물론 이전부터 데이터가 쓰이지 않았던 적은 없다. 그러나 지금 부르는 데이터 과학이 단순히 엑셀 파일에 있는 숫자들을 그래프로 표현하는 걸 의미하진 않는다. 데이터를 단순히 분류하거나 분석하는 것 말고 데이터 속에 담긴 패턴이나 미래 예측에 도움이 되는 신호를 찾는 것 등을 아우르는 것이 데이터 과학인 것이다.

전문가뿐만 아니라 비전문가도 데이터 과학으로 의미 있는 결과와 예측을 하는 것이 불가능한 일은 아니라는 것이다.
이 가운데 스몰 데이터는 개인의 취향이나 필요, 건강 상태, 생활양식 등 사소한 행동에서 나오는 정보들을 말한다. 스몰 데이터는 비정형 데이터가 많다. 개인에 대한 관찰을 통해 정확한 추리를 해내는 명탐정 셜록 홈즈는 뛰어난 스몰데이터 분석가라고 할 수 있다.

야구에서 왜 희생번트를 고집할까

데이터를 많이 활용하는 스포츠 종목인 야구의 경우, 데이터만 놓고 보면 희생번트 작전은 득점 보다 점수를 희생하는 작전이다. 이닝당 점수를 비교했을 때 무사 1루에서 희생번트를 했을 경우에는 0.75점, 하지 않았을 경우에는 0.93점이 나왔다는 것이다. 그러자 이에 많은 감독들이 반발했다. 박빙 승부에서 1점은 낸다는 의미를 통계학자는 알 수 없다는 것이다.

야구선수가 희생번트를 하는 장면©뉴스줌

그런데 박빙 승부에서 1점을 낼 확률은 희생 번트를 했을 때 0.417, 하지 않았을 때는 0.4로 매우 근소했다는 것이다. 솔직히 통계적으로는 득점 확률이 낮지만 심리적으로 감독에게 부여된 작전기회에 희생번트 작전을 쓰지 않아 병살이 됐을 때 받을 비난을 의식하지 않을 수 없었을 것이다. 희생번트는 전적으로 데이터로 설명할 수 없는 작전 중 하나라고 볼 수 있다. 양 팀이 똑같이 27개의 아웃카운트를 갖고 시작하는 야구에서 1아웃의 가치와 1베이스 진루의 가치를 상황에 따라 달라질 수 있다. 통계적인 의미로 판단하기 보다는 주어진 데이터가 처해진 상황에서 어떻게 활용하고 해석하느냐에 따라 경기 결과를 좌우할 수 있다.

홍대와 가로수길의 차이를 데이터는 알고 있다

빅데이터는 이미 다양한 곳에서 그 위력을 과시하고 있다. 빠르게 변하는 산업 환경에 적응하기 위해서는 데이터 분석에 근거한 의사 결정이 필수적이라는 말이다. 빅데이터는 주로 인과성(causality)보다 상관성(correlation)을 보여준다. 때문에 그 동안은 어떻게 데이터를 저장하고, 어떻게 접근할 것인가에 초점을 맞추면서 단순히 언급량에 의한 데이터의 상관성을 중심으로 분석하는 경우가 대부분이었다. 하지만 최근에는 인과성에 의한 왜(why)를 찾고자 하는 목적으로 데이터를 이해하는 경우가 많아지고 있다. 예를 들어 보면 홍대와 가로수 길에 있는 똑같은 여성 의류 전문 매장에서 할인행사를 했다. 똑같은 제품에, 똑같은 할인 폭이었지만 결과는 전혀 달랐다. 홍대 매장은 매출이 급등한 반면, 가로수 길 매장은 평소와 큰 차이가 없었다. 왜 그럴까? 답을 찾기 위해 두 매장의 신용카드 구매 기록 데이터를 분석해보면 흥미로운 결과가 나와 있다. 홍대 매장에서는 대부분 여성의 카드가 사용되었지만, 가로수 길 매장에서는 남성의 카드로 결제하는 경우가 많았던 것이다. 즉 홍대에서는 자신의 돈으로 옷을 사 입는 여성고객이 대부분이라 할인율이 구매에 큰 영향을 줄 수 있었지만, 가로수길 매장에서는 남성의 카드, 즉 남자친구가 사주는 경우가 많아 할인율이 구매에 큰 영향을 주지 않을 수도 있다는 해석을 할 수 있다. SNS에 올라오는 비정형데이터를 분석해 보면 가로수길은 오빠가 사준 신발이나 남자 친구가 사준 옷 등 선물에 대한 글과 사진이 많이 올라오고 있는 지역이었다. 남자들은 데이트할 때 피해야 될 지역 중에 하나가 바로 가로수길이다.

또한 실제로 실리콘밸리 기업들은 빅데이터를 신용평가에 활용하는 다양한 알고리즘을 실험하고 있다. 미국 하버드 대학의 아심 크와자 교수는 ‘맞춤법을 틀리지 않는 대출자는 틀리는 대출자에 비해 평균 15% 정도 덜 연체한다’는 연구결과를 바탕으로 신용평가 모델을 개발하기도 했다. 또 미국 핀테크 스타트업 렌도는 대출 희망자의 동의를 받은 뒤 SNS 계정에서 친구 목록, 결혼·연애 상태, 생년월일, 경력·학력, 출신지, 관심사 등 정보를 바탕으로 0~1000점까지 고객 신용 점수를 도출한다. 온라인 평판과 교우 관계가 대출 신용평가 점수에 반영이 되는 것이다.

압구정동 가로수길 ©aljuarez

최근에는 웨어러블 기술 발달로 운동습관, 심장 박동수 등 건강상태에 대한 정보를 수집, 활용하는 기업들이 생겨나면서 이들의 정보를 대출 실행 정보로 활용하는 방법도 논의되고 있다.

시그널을 파악하는 촉각은 분석 기술보다 해석이다

이처럼 빅데이터는 데이터를 추출하고 그 데이터에서 패턴을 찾아내는 분석의 과정과 그 패턴에서 의미를 찾아서 가치를 덧붙이는 해석의 과정으로 이뤄져 있다. 여기에서 분석과정은 기술이나 통계 기법으로 해결 되지만 해석 과정은 기술로 해결되지 않는다. 해석 과정에서 인간이나 사회에 대한 이해가 필요한 경우가 많기 때문이다. 어떻게 보면 빅데이터는 분석 기술 보다 해석 과정이 더 중요하다고도 볼 수 있다. 빅데이터에 대해 많은 분들이 오해하는 부분이 있다. 빅데이터(Big Data)는 이름처럼 큰 데이터만을 의미하는 것은 아니다.
물론 여러 가지 특징을 갖춘 데이터가 되려면 결과적으로 사이즈가 커질 수밖에 없겠지만 데이터 사이즈가 작더라도 소비자의 작은 행동 하나 하나 까지 파악해 그 무엇인가를 찾아 낼 수 있다면 그것도 빅데이터라 볼 수 있다. 빅데이터의 BIG은 Volume 보다 Value에 더 가까울 수 있다는 것이다. “건물이 무너졌다”는 트윗 백만 개 보다 “건물이 무너질 것 같다”는 트윗 하나가 재난 분야에 있어서는 훨씬 더 의미가 있는 스마트 데이터가 될 수 있는 것이다.

빅데이터의 토대는 바로 디지털이다. 기계에서 생성 되는 각종 로그 데이터나 시그널 데이터 등과 같은 머신 데이터와 소셜 미디어나 온라인 포털 등 인간이 디지털에 남긴 흔적들이 모인 휴먼데이터가 빅데이터의 재료가 된다. 때문에 잘 해석된 빅데이터는 사회의 흐름이나 대중의 심리, 소비 트렌드 등을 파악할 수 있는 하나의 신호가 될 수 있다. 빅데이터로 찾아낸 ‘시그널’들은 우리가 새로운 비즈니스의 기회를 포착하는데 아주 중요한 길잡이가 될 수도 있다. 패턴 분석과 미래 전망은 물론 빠른 의사결정과 실시간 대응 지원, 트렌드 변화 분석을 통한 제품 경쟁력 확보, 타 분야와의 결합을 통한 새로운 가치창출이 가능해진다.
이제 빅데이터는 분석적 영역을 넘어 사회전반에 주어진 과제로 다가온 느낌이다. 누가 얼마나 많은 데이터를 분석하느냐보다 누가 먼저 데이터의 시그널을 잡느냐에 따라 모든 운명은 결정될 것이다.