통계광장이광석 | 서울과학기술대학교 IT정책대학원 교수
빅데이터 알고리즘
분석의 논점들
서구에서 ‘자기수량화(Quantified Self)’ 운동이 하나의 신체관리 기제로 자리잡고 있다. 여기서 자기수량화란 누군가의 몸에서 흘러나온 모든 물질대사와 정서, 표현 등을 데이터로 치환해 계측한 수치값에 해당한다. 그렇다면, 자기수량화 ‘운동’은 알고리즘적 데이터 수량화를 통해서 완벽한 자기 이해에 도달하고 과학적 신체 제어나 통제가 가능하도록 하겠다는 현대 인간 욕망을 반영한다. 이는 인간 신체의 데이터 알고리즘적 측정을 통해 효율성과 편리를 얻으려는, 즉 데이터 사회를 예찬하는 경향에 해당한다.
자기수량화 운동은 오늘날 빅데이터 기술혁명에 크게 빚지고 있다. 이른바 ‘빅데이터’는 잘 알려진 것처럼 정형 데이터와 비정형 데이터를 포괄해 일컫는 용어이다. 구체적으로 주민등록번호, 주거, 교육, 건강, 신용 정보 등이 정형 데이터에, 스마트미디어 속 생체 리듬, 감정, 정서, 정동 등이 비정형 ‘부스러기/배설 데이터(exhausted data)’에 속한다. 자기수량화 운동의 핵심에는 정형 데이터보단 주로 후자의 비정형 데이터를 응용한 인간 신체 통제력의 욕망이 깔려있다고 볼 수 있다. 가령 인간의 몸에 장착된 스마트시계나 전자심박계 등은 우리의 질병 예방을 위해 생체리듬과 심박수 등 건강정보의 수집 장치 역할을 한다. 이로부터 수집된 생체 데이터는 실시간 알고리즘 분석을 위해 특정 관리 회사의 클라우드 서버로 집적될 것이다. 이 건강 데이터들은 상시적이고 실시간으로 자동 알고리즘 분석을 통해서 관리되며 이상 징후가 발견되거나 할 때 적절히 처방과 응급조치까지 취하는 구조를 갖는다.
문제는 빅데이터의 자기수량화 운동이 항상 이처럼 사회에 긍정적으로만 기능할까 하는 것이다. 빅데이터는 인간의 기술 지능을 확장하는 가능성의 테크놀로지로만 등장할까? 빅데이터를 분석하기 위한 명령어 체계로서 알고리즘과 이의 자동화 국면인 인공지능 알고리즘이 우리 사회에 어떤 의미를 지니고 있는가? 단순 통계적으로도 빅데이터 알고리즘 분석의 본질적 문제는 없을까? 이 글은 거칠게나마 이 같은 논점들에 대해 잠시 생각해볼 시간을 마련하는 데 있다.
빅데이터 분석의 가능성들
빅데이터 분석 방법이 도래하기 전까지만 하더라도 우리는 사물과 사건의 상호 연관성을 파악하는 데 물리적으로 상당히 제약이 있었다. 그래서 관찰 대상을 일부 표집하거나 아주 적은 양을 심층적으로 읽는 일을 택했다. 데이터 볼륨(양)의 이런 물리적 제약과 함께 데이터 분석 기술의 한계 때문에도 더욱 그러했다. 분석 대상으로 수백 권의 전자책을 보는 것과 몇몇 아날로그 책으로부터 특정의 사안을 분석하는 경우를 대조해보자. 이미 우리는 이 둘의 분석 방법을 구분해, 전자는 대량의 ‘표층데이터’를 활용하는 학문으로 보고 후자는 ‘심층데이터’ 활용 학문으로 나누고 있다. 즉 사회학, 경제학, 정치학, 커뮤니케이션학, 마케팅연구 등을 주로 대규모 표본을 갖고 행하는 표층데이터 연구로 본다면, 인류학, 민속학, 심리학, 사회학 일부, 문화연구 등은 아주 적은 양의 샘플을 갖고 행하는 심층데이터 연구 분야로 파악하고 있다. 더불어 이 표층과 심층 데이터의 중간 지점의 연구 방법으로 우리는 통계와 샘플링 분석법을 사용해왔다.
하지만 오늘날 소셜미디어의 등장과 대량처리 빅데이터 소프트웨어 컴퓨터 분석틀의 등장은 표층과 심층 분석의 구분법을 사실상 무위화한다. 특히 데이터 알고리즘 분석 기법은 인류가 축적한 거의 모든 역사적 사료를 분석의 대상으로 삼을 수 있는, 빅데이터 정보처리 능력을 갖춘 대규모 연구 환경을 제공하고 있다. 가령 빅데이터 처리 ‘소셜 컴퓨팅’이 등장하면서 수십 수백만 권의 전자책들을 모집단 삼아 ‘표층-심층 데이터’의 질적 인문학 분석을 동시에 수행하는 일이 쉽게 가능해지고 있다. 적은 양의 책들 속 문장과 개념들로부터 심층 추론하고 인과 관계를 추측하고 진단하는 질적 분석 방법을 넘어서고 있는 것이다. 이를테면 이제까지 한 번에 파악할 수 없었던 특정 시기 수십만 권의 책들을 먼저 디지털 전환하고 이들 속 단어와 문장 패턴을 데이터 분석해 그 결과 해석을 다시 인문학적 해석틀로 가져오는, 소위 빅데이터 ‘문화분석학(Cultural Analytics)’ 혹은 ‘컬처로믹스(Culturomics)’의 새로운 연구 지평이 열리고 있는 것이다.
빅데이터 분석이 지닌 또 다른 장점은 비정형 데이터라고 부르는 현대 스마트 대중의 디지털 정서 혹은 정동(affection)의 표현들, 즉 온라인 ‘떼’ 정서의 포착을 더 쉽게 할 수 있다는 데 있다. 이는 국내 상황에서 보자면 2010년대 이후 스마트 환경의 출현과 함께 이 같은 분석에 급속도의 진척이 이뤄졌다고 볼 수 있다.
스마트 앱을 통해 좋아요, 최고예요, 슬퍼요, 화나요 등 감정을 표현하고 댓글 달고 응대하는 대중들의 감정 행위들은 디지털 격자망에 쉽게 각인되기 때문이다. 수많은 정서 데이터에 기초해 대중의 감정 상태와 사회의식의 관계망을 파악하는 일이 예전에 비해 한결 가시화되고 분석의 대상이 되고 있는 것이다. 이 같은 대중 ‘떼’ 정서의 전자 기록들은 점차 역사 사료로서의 가치로까지 크게 제고되고 있기도 하다.
결국 빅데이터의 능력은 실시간으로 인간들의 감정, 행위, 생체 데이터를 분석해 미래 패턴과 향후 예측 진단력을 높이는 데 있다. 빅데이터 이전 분석 방법인 데이터마이닝(채굴) 기술에서는 ‘가두리 치고 고정된(stock)’ 특정의 정보값을 찾아내는 것에 주안점이 있었다면, 빅데이터 알고리즘 분석은 이용자의 ‘끊임없이 유동하는(flow)’ 신체 활동 데이터 수집을 근간으로 그들의 소비나 판단 행동을 예측하고 이에 맞춤형 정보를 추천하는 데 보다 강조점을 둔다. 예컨대 가입자 콘텐츠 서비스 업체인 넷플릭스가 사용하는 알고리즘인 ‘넷플릭스 양자 이론(Netflix Quantum Theory)’에 의거하면 가입 이용자들은 제작 알고리즘 분류틀에 맞춰져 그들 모두가 수십만 개의 성향과 취향들로 나눠지고 이에 맞춤형 콘텐츠를 최적화해 소비하는 것으로 잘 알려져 있다.
빅데이터의 부상하는 딜레마들
빅데이터 분석과 유사하다는 연유로 과학기술 진영에서 ‘복잡계’ 현상에 대한 논의가 재점화 될 정도로 오늘날 빅데이터 분석 기법은 특정 사회 변인들이나 사건에 얽힌 요인들 사이 상호 연결 관계망을 이해하는 데 큰 도움을 주고 있다. 하지만 동시에 빅데이터 분석 방법에 대한 초기 열광과 달리 최근 빅데이터의 문제점들이 하나둘 불거지고 있기도 하다.
우선 관계성의 밀도를 측정하는 데이터 과학에 대한 열광만큼이나 그와 같은 분석의 장점에 대한 불신이 크게 증가하고 있다는 사실이다. 사건들의 복잡다기한 관계망들의 횡단적 층위를 살피는 장점에 비해 빅데이터 분석은 특정 사안들과 사건들의 관계성을 인과적으로 설명하는데 대단히 취약하다. 물론 누군가 빅데이터 분석으로부터 사안과 사건의 인과성을 추측할 수는 있다고 하더라도 그것이 과학적으로 설명 가능한지는 항상 유보적 상태에 놓이게 되는 딜레마에 처한다. 이는 심층 데이터 연구 방법론에서 주로 펼치는 인문사회학적 질적 접근법들, 예컨대 역사적, 사회문화사적, 인문학적 맥락을 드러내는 작업의 유효성을 다시 한 번 방증한다고 볼 수 있다. 빅데이터 과학의 이와 같은 인과론적 설명 불능 상태는 결국 빅데이터 분석 기법으로 사안을 온전하게 설명하기 위해서라도 좀 더 인문사회학적 비판 방법론과 접목하는 방식을 도모해야 한다는 점을 우리에게 일깨운다.
둘째, 우리가 이미 받아들이고 있는 사회 질서에 대한 ‘확증편향’이 빅데이터 분석에서도 문제점으로 제기되고 있다. 확증편향은 이미 사회문화적으로 받아들여지는 상식, 전제, 편견 등이 빅데이터 설계와 분석을 통해 재차 확인되는 것을 뜻한다. 빅데이터 알고리즘 분석과 이의 설계 적용은 사회적 편견을 인공지능으로 자동화하고 확대한다는 점에서 꽤 심각한 문제로 보인다. 예를 들어 사회적 관습처럼 받아들여지는 경제적 빈자, 성적 소수자, 사회적 타자 등에 대한 사회 불평등한 조건과 시선들이 기계 언어인 데이터 알고리즘으로 ‘자동화’할 때, 일반인들은 이 기계적 알고리즘 질서로부터 어떤 오류나 문제점을 인식하기조차 어렵다. 이런 상황에서 빅데이터 개발자나 연구자는 빅데이터 기술이 지니는 기능적 효율성과 함께 그것의 사회적 감수성을 함께 읽는 법을 익혀야 한다.
셋째, ‘납작해지는’ 취향도 큰 문제다. 앞서 넷플릭스 양자이론은 이용자의 데이터 소비 취향을 맞춤형으로 추천하는 빅데이터 알고리즘의 세계를 선사하기도 하지만, 달리 보면 누군가에게 취향의 큰 변화보다는 매우 납작하고 지정된 취향 범위 내의 선택된 세계만을 선사할 확률이 높다. 이런 빅데이터의 세계에서는 추천의 디테일이 촘촘해지면서 서로 간에 부딪힐 없이 각기 유리 용기(silos) 속에 머물면서 각자 얇은 취향의 방 속에 갇혀 지낼 공산이 크다. 소비나 이용의 장르적 널뛰기가 서로 이뤄지기가 어렵다는 얘기다. 오로지 빅데이터 분석에 기초해 데이터 이용자의 세밀한 취향에 맞춰 예측 서비스를 제공하는 능력의 탁월성이, 정반대로 누군가의 보이지 않는 알고리즘 취향의 던전(게임 속 지하감옥) 안에 갇히는 결과를 초래할 수 있다는 점이다. 자동화된 알고리즘 취향과 선택이 주는 딜레마다.
넷째, 데이터 수집과 인공지능 학습 오류의 문제 또한 존재한다. 빅데이터 분석이 인공지능과 결합하면서 ‘머신러닝’이라는 자동 알고리즘의 기법이 최근 크게 각광을 받고 있는 것이 사실이다. 몇 년 전 구글 알파고와 이세돌 대국에서도 소개된 것처럼 머신러닝은 지능기계에 수많은 바둑 기보 정보와 실전 대국을 치르며 얻은 데이터 값을 꾸준히 학습 입력시켜 더욱더 똑똑해지는 기계 지능을 가능케 한다. 문제는 머신러닝을 위한 데이터 모집단 학습의 근거나 출처가 무엇이냐에 따라 빅데이터 알고리즘 분석이나 예측값이 크게 달라진다는 점에 있다. 최근 마이크로소프트의 소셜 채팅봇 테이의 작동 오류에서처럼 사회 혐오적 발언들이 주로 이뤄지는 모집단에서 데이터를 수집해 그에 학습 동기화하면 당연히 인공지능 편견의 문제를 일으킬 확률이 높아질 것이다. 데이터 학습의 출처와 모집단에 따라 의미값이 크게 달라질 수 있다고 본다면, 인공지능의 빅데이터 수집과 학습 오류의 관계를 사회적으로 좀 더 면밀히 따져봐야 한다.
마지막으로 ‘자기수량화’나 ‘알고리즘 주체’를 초래하는 구조적 현실에 대한 사회적 대비책이 요구된다. 이 개념들은 결국 동시대 자본주의가 개별 주체를 ‘가분체로(in-dividuals)’ 찢거나 분할해 인간의 신체 활동 빅데이터를 기업 이윤과 권력 통제 기제로 흡수하는 현실에 기초한다. 루크 도멜(Luke Dormehl)이 ‘알고리즘적 자아(algorithmic self)’란 개념을 쓴 것처럼 우리는 점점 가분체로 분할된 자아 주체로 살아갈 공산이 크다. 즉 “완전히 디지털적인, 그래서 측정할 수 있는 평면으로 이동한 정체성”이 알고리즘적 자아라 본다면 우리 대부분이 동시대 테크노-권력의 분석 대상이자 원료로 취급되는 것이다. 기술사회 연구자인 주보프(Shoshana Zuboff) 또한 최근 ‘감시 자본주의(surveillance capitalism)’란 용어를 쓰면서 동시대 자본주의 특성이 결국 현대인들에 대한 보다 최첨단의 촘촘한 데이터 감시 기제에 기댄다는 점을 강조하고 있다. 물론 이 감시는 강제적이라기보다는 자발적이고 참여적이고 놀이적인 성격이 짙다. 누군가에게 끊임없이 계측되고 통제되는 신체적 조건에 그 어떤 강제성이 부재하다는 점은 동시대 감시 자본주의의 가장 중대한 특징 중 하나일 것이다. 이렇듯 빅데이터 분석은 그저 학술적 연구의 방법론으로서 파악되기보다는 현존하는 자본주의의 구조적 질서와 함께 구성된다는 점에서 좀 더 사회 비판적 의미를 담을 수밖에 없다.
종합해보면 빅데이터는 인공지능 기술과 결합하면서 좀 더 인간 사회를 분석하기 위해 과학적 방법론의 밀도를 한층 높일 수 있는 반면, 빅데이터 자동화 사회의 구축으로 인해 의도치 않은 편견과 편향의 사물 질서를 낳을 수 있다. 후자의 경우는 권력을 지닌 이들이 좀 더 핵심적 빅데이터를 독점하면서 알고리즘 권력을 행사할 수 있는 문제점까지 지닌다는 점에서 우려할 만하다. 이는 단순히 개별적인 자기수량화 운동으로 해결할 수 없는, 데이터 정보인권의 문제와 연결돼 있다. 빅데이터 분석이 방법론의 차원을 넘어서야 하는 이유다.