2017 WINTER
김장현 | 성균관대학교 인터랙션사이언스학과 교수
비정형 데이터라는 말에서 ‘비정형’은 ‘unstructured’라는 영어 표현의 번역이다. 사실 여전히 지배적으로 사용되는 데이터의 형식은 소위 구조화된 데이터 또는 정형화된 데이터라고 불리우는 변수와 응답자(케이스)가 각각 열과 행을 이루는 스프레드시트 형태이다. 이러한 형태 안에는 주로 수치로 표기된 데이터가 존재하고, 그러한 데이터가 정보의 인출, 탐색, 분석, 의사결정에 이르는 제반 과정을 거치며 회귀분석, 분산분석, 컨조인트 분석 등 다양한 통계적 기법에 의해 다루어지기 마련이다.
그런데 텍스트로 이뤄진 데이터의 경우 사전에 정의된 방식 또는 구조로 배열되지 않는 경우가 많다. 텍스트 안에서는 단어와 숫자, 기호들이 전혀 예측할 수 없어 보이는 방식으로 배열되며 이런 무작위성 때문에 비구조화 또는 비정형 데이터라고 불린다. 물론 언어에 문법과 어법이 있지만 모든 이가 동일한 상황을 동일하게 묘사하는 것도 아니고 의견을 표시하는 방식도 제각각이기 때문에 말이든 글이든 비정형 데이터라고 불리우게 된 것이다.
하지만, 비정형 데이터라고 해서 반드시 예측 불가한 방식으로 구성되는 것은 아니다. 한 단어가 등장했을 때 다음 단어가 무엇이 될지는 확률적으로 계산이 가능하며, 이러한 계산을 통해 자동으로 다음 단어를 제안해주는 방식은 검색엔진 등에서 이미 널리 활용되고 있다. 이런 확률론적 관점에서는 사실 비정형처럼 보이는 데이터에도 숨은 정형(구조)이 있기 때문에 엄격한 의미에서 비정형 데이터는 거의 없다고 주장하기도 한다.
음악, 소리, 사진이나 동영상 역시 종종 비정형 데이터로 간주되는데, 사진에 포함된 색상이나 채도의 분포로 그 사진을 찍은 사람의 성격을 알아내고자 하는 시도나 그림에 등장하는 색상과 명도 등을 분석하여 그 그림이 어느 시대의 화풍을 반영하는지 자동으로 알아내려는 연구가 등장하는걸 보면 이런 데이터들 역시 그 속에 일정한 패턴과 구조가 내재되어 있음을 알 수 있다.
그렇다면 비정형 데이터들은 그동안 어떻게 연구되어 왔을까? 먼저 가장 오랜 역사를 가진 텍스트에 관한 연구전통부터 살펴보자. 학계에서는 전통적으로 ‘내용분석’이나 ‘담론분석’이 사용되었다. 전자의 경우 보통 세 명 이상의 코더(코딩하는 사람)가 주어진 텍스트를 읽고 그 텍스트의 주된 특질이 사실 또는 사건의 건조한 전달인지 아니면 주장이나 관점인지 분석하는 경우가 일반적이다. 그리고 이러한 분석의 결과에 따라 저자가 어떤 특이한 틀을 갖고 글에서 다루는 대상을 바라보는지 도출해 내기도 하며, 이런 종류의 내용분석을 ‘프레이밍 분석’ 또는 ‘프레임 분석’이라 지칭하기도 한다.
그런데 프레이밍 분석이 가질 수도 있는 단점은 연구에 참여한 복수의 코더들이 사실은 해당분야 교수 또는 박사후 연구원과 그 연구실의 구성원, 또는 그러한 사람들에게 강의를 들은 학생인 경우가 적지 않다는 점이다. 특정 교수 밑에서 학문적 관점과 세계관을 습득한 연구원들이 거의 동질화된 관점에서 텍스트를 코딩하니, 아무리 코더간 일치도를 계산해봤자 높게 나올 수밖에 없다. 마치 강의를 열심히 들은 학생일 수록 교수의 가치관을 빨리 파악하기 마련이고, 그 학생이 좋은 점수를 받기 위해 자기 자신보다는 교수의 관점에 기반한 보고서를 내는 경우와 마찬가지이다.
주로 ‘양적 분석’으로 분류되는 내용분석과 달리 단어와 문장들이 주제의식을 구성하는 글이라는 그릇의 구성물이라는 전제에서 글에 숨어있는 이데올로기와 가치관을 해석해내고자 하는 ‘질적 분석’이 바로 담론분석이다. 담론분석의 관심사는 수치화된 텍스트의 특질이라기보다는 오히려 텍스트 안에 감춰진 권력, 서열, 지배욕, 그리고 투쟁이다. 때문에 주로 비판이론가들이나 인류학자들이 많이 사용해왔다. 이러한 질적 분석은 단순히 단어의 등장 빈도나 등장 확률에 관심이 있기 보다는 텍스트에서 드러나는 주체와 객체, 그리고 권력자와 피권력자의 의도와 통제를 읽는다. 어쩌면 인간 사회에 대한 이해가 부족한 컴퓨터가 아직 따라잡기 어려운 영역이 바로 질적 분석이 아닐까 생각한다.
그런데 내용 분석에서도 컴퓨터를 활용해 차츰 깊이를 추구하는 경향이 등장하고 있다. 바로 ‘감성분석(sentiment analysis)’이라고 불리우는, 텍스트 전반에 드러나는 감정의 색조를 분석하는 경우다. 영문 데이터의 경우, 각 감정별로 해당하는 단어들의 리스트가 사전(dictionary) 형태로 공개되어 있어 텍스트 전반 또는 일부에서 드러나는 감정을 잡아내는 게 점점 더 용이해지고 있다. 한국어의 경우 조사와 어미가 발달한 교착어인 데다가, 한자어에서 유래한 말과 고유한 우리말이 혼재되어 있어서 이러한 감성사전의 단계에 이르는 리스트는 찾아보기가 쉽지 않다.
비정형 데이터에 대한 가장 쉬운 접근은 텍스트를 하나의 단어주머니(bag of words)로 간주해서 단어순서나 언어적 구조를 무시한 채, 텍스트 안에 한 가지 원소(단어)가 여러 번 등장할 수 있는 일종의 수학적 집합으로 보는 접근이다. 문서에 특정 단어가 있으면 1 없으면 0으로 표기하는 방식이 많이 사용된다.
한 발짝 더 나아간 접근은 단어빈도(Term Frequency)에 주목하는 방식이다. 일반적으로는 텍스트 안에 단어가 여러 번 등장할수록 중요하다고 간주되는데, 그 이유는 아무리 긴 텍스트라도 소수의 자주 등장하는 단어들이 결국 전체 등장횟수의 상당부분을 점유한다는 사실이 알려져 있기 때문이다. 다만, 영어의 ‘a’ 나 ‘the’ 처럼 횟수로는 가장 많은 부분을 차지하지만 의미가 별로 없는 경우는 분석에서 배제한다. 그런데 개별 단어보다 문장이 중요한 경우에는 단어들을 1개씩부터 n개씩까지 차츰 묶어보면서 단어쌍들간의 관계에 주목하는 방식도 있다. 이것을 N-그램 순열이라고 한다. 아무래도 개별 단어로 쪼개서 분석하는 것보다 그 연결 패턴에 주목하기 때문에 더 깊은 관찰이 가능하다.
지난 1970년대부터 소개되어 최근에도 널리 사용되는 시멘틱 네트워크(의미망) 분석은 이러한 단어쌍들간의 거리와 동시출현 빈도를 바탕으로 텍스트를 단어기반의 네트워크로 표현하는 분석이다. 신문기사나 인터넷 댓글을 분석했을 때 특정 단어를 중심으로 지배적인 세력이 의미망 상에 등장하면 우리는 그것을 그 단어가 들어간 텍스트의 핵심주제로 받아들인다.
주어진 텍스트 데이터에 몇 개의 주제가 잠복해 있으며, 각 주제는 몇 개의 단어만 찾아내면 감지해낼 수 있다는 전제에서 출발하는 LDA(잠재디리크리할당) 라는 주제모델(Topic Modeling)기법도 있다. 단어들의 연계성에 그치지 않고 그 연계성에 숨어있는 주제들까지 뽑아내는 단계에 이른 것이다. 이러한 주제모델은 텍스트의 시간적 변화까지 추적할 수 있는 동적 주제모델(Dynamic Topic Modeling)로까지 발전해 있다. 또한 최근에는 다양한 인공지능 알고리즘을 통해 텍스트를 분석하는 기법도 많이 사용된다.
그렇다면 비정형 데이터에 주목하는 이유는 무엇인지로 다시 돌아가 보자. 지금까지 수치화, 정형화된 데이터의 분석기법은 많이 발전해 왔으나 말로 이뤄진 데이터는 사람이 직접 읽고 판단하는 방식 외에는 뾰족한 수가 없었다. 매일같이 늘어나는 데이터의 상당 부분은 텍스트 또는 대화이고, 첨단 기술을 이용한 미디어들은 그러한 텍스트를 기반으로 서비스를 해야 하는 상황에 이르렀다. 최근 유행하는 AI 스피커(인공지능 스피커) 역시 이용자와 스피커에 연결된 서버간 대화를 통해 이용자의 의도를 찾아내고 거기에 맞춰서 서비스를 제공해야 하는 것이다. 또한 항공권을 예약하는 사이트들이 이용자와 자동으로 채팅을 통해 발권까지 해주는 기능을 채용하고 있으며 이때 사용자와 사이트 간에 오가는 데이터역시 비정규 데이터들이다. 또한 노인이나 환자들을 대상으로 정서적 안정감과 책읽어주기 등 다양한 서비스를 제공하는 휴머노이드 로봇들 역시, 인간과의 대화를 통해 소비자 만족을 달성한다. 여기에 또 비정규 데이터가 등장한다.
인간과 기술사이의 인터페이스는 결국 0(OFF)과 1(ON)로 표현되는 디지털 숫자면 충분했다. 하지만 이제는 인간이 마치 다른 인간과 소통하듯 스마트미디어를 대하고 있으며 이런 과정에서 쏟아지는 엄청난 비정규데이터들이야 말로 ‘21세기의 석유’라고 불리우는 빅데이터의 주축을 이루게 되었다. 아직은 초보단계인 비정규데이터 분석의 발달은 곧 인공지능에 연결되며, 인공지능은 인간의 삶을 바꿔놓을 또 하나의 산업혁명이 될 공산이 크다. 인공지능이 비정규데이터에 익숙해져 가면 갈수록, 우리 스스로도 모르는 인간의 욕구와 비밀이 차츰 고개를 내밀게 될 것이다. 그러한 변화에 우리가, 그리고 우리의 아이들이 어떻게 적응해 나아갈지 기대도 되고, 고민도 되는 시점이다.