보건·의료계에서 불어오는 빅데이터 혁명

2017 WINTER

통계광장

이강봉 | 통계의 창 객원기자

보건·의료계에서
불어오는 빅데이터 혁명


인체 유전자 정보, 핵심 통계 데이터로 떠올라

데이터를 통해 신종플루의 대비책을 진단하다

지난 2009년 봄 멕시코와 미국 등지에서 신종 바이러스 ‘H1N1/09’가 발생해 빠른 속도로 확산되기 시작했다. 사람·돼지·조류 인플루엔자 바이러스의 유전물질이 혼합돼 있는 새로운 형태의 바이러스였다.
처음에는 ‘돼지인플루엔자(돼지플루)’ 또는 ‘돼지독감’이란 명칭을 사용했다. 그러나 돼지와 관련이 있다는 증거가 없다는 주장이 잇따라 제기되면서 세계보건기구(WHO) 실무자들은 ‘신종 인플루엔자A(H1N1)’로 호칭을 바꾸었다. ‘신종플루’의 기세는 무서웠다. 전 세계로 확산되기 시작했다. 공포에 질린 WHO 실무자들은 최악의 사태를 생각해야 했다. 마지막 대비책에는 세계 주요 공항 폐쇄라는 극단적인 대책이 들어 있었다. 그러나 신종플루에 대한 대비책은 두 명의 이탈리아 과학자로 인해 큰 반발에 부딪혔다. 이들은 공항을 폐쇄한 후 신종플루 확산을 몇 주 정도 유보시킬 수는 있으나 근본적인 대책이 될 수 없다고 말했다. 오히려 경제적 혼란을 가져오고 세계를 더 큰 혼란에 몰아넣을 것이라고 주장했다.
이런 예측을 한 사람들은 의사들이 아니었다. 물리학자들이었다. 이들은 구글, 페이스북, 미국가안전국(NSA)과 같은 빅데이터 기업에서 일하는 연구원들처럼 수학을 효율적으로 활용해 신종플루 확산이 어떻게 이루어지고 있는지 그 상황을 정확히 예측할 수 있었다. 거기서 나온 데이터를 기반으로 WHO의 신종플루 대책이 현실과 맞지 않는 허황된 계획임을 정확히 짚어내고 있었다.

빅데이터로 비타민B의 비밀 밝혀내

이후 8년이 지났다. 그리고 지금 유전자 연구는 물론 에너지, 무역, 농업, 고고학 등 빅데이터를 적용하는 분야가 끝없이 확산되고 있다. 또한 이를 통해 그동안 수수께끼에 싸여 있던 미지의 세계들이 하나둘 그 실체를 드러내고 있다. 최근 들어 가장 큰 주목을 받고 있는 곳이 의료 분야다. 지난 8월 미국 오하이오주립대에서 놀라운 연구 결과를 내놓았다. 건강보조제로 자주 찾는 비타민 B6와 B12를 과다 복용할 경우 담배를 피우는 남성의 폐암 발병률이 4배 까지 높아진다는 것. 비타민 B6는 단백질 대사에 중요한 효소 구성 성분이고, B12는 핵산 합성과 조혈 작용에 관여하는 매우 중요한 영양소였다. 환자를 대상으로 축적한 빅테이터 분석을 통해 그 위험성이 밝혀진 것이다.

연구책임자 테오도르 브래스키(Theodore Brasky) 교수는 이 건강보조제를 10년 동안 다량으로 복용한 모든 남성의 폐암 발병 위험이 2배 정도 높았다고 밝혔다. 또 흡연자의 경우 위험이 3~4배 더 높아졌다고 경고했다.
이번 연구가 빅데이터 분석을 통해 이루어진데 대해 세계 의료계가 큰 놀라움을 표시했다. 지난 10년간 흡연자, 비타민 B 과다복용자, 폐암 환자 간의 상관관계를 추적해 이루어낸 데이터 사이언스의 개가였다.

흥미로운 사실은 이 연구에 ‘SEER(Surveillance, Epidemiology and End Results)’란 데이터베이스 시스템이 적용됐다는 사실이다. ‘SEER’란 환자의 병기(illness, 病氣) 체험을 데이터화한 ‘요약병기(Summary Stage)’란 분류 방식을 말한다. 데이터베이스를 통해 암 환자 관련 데이터를 수집하기 시작한 것은 1973년이다. 그리고 최근 디지털, 빅데이터 분석 기술이 발전하면서 데이터베이스에 있는 기본 자료를 활용해 다양한 패턴의 연구를 수행하는 일이 가능해졌다.
실제로 미국국립암연구소(NCI)에서는 ‘SEER’를 통해 암이 발생한 장기로부터 암 증상이 어느 정도 진행됐는지를 데이터화하고 있었고, 오하이오주립대 연구진은 이 시스템을 활용해 비타민 B6와 B12의 비밀을 밝혀낼 수 있었다.

제약사들, 처방전 분석으로 신약 개발

주목할 점은 앞으로 빅데이터를 이용한 이런 유형의 연구가 확대될 것이라는 점이다. 의사 입장이 아니라 다수의 환자 관점에서 병기 체험과 관련된 데이터를 축적해 암과 관련된 또 다른 현상을 확인하는 일이 가능해졌다. 병원 업무 전반에 빅데이터 기술을 도입하는 병원도 늘고 있다. 캐나다 맥길대학 정신건강연구소는 최근 치매를 예측할 수 있는 새로운 알고리듬을 개발했다. 이를 통해 치매 증세가 나타나기 2년 전에 증상을 예고할 수 있다. 정확도는 84%. 이 시스템에는 인공지능(AI)이 동원되고 있다. 연구소 측은 “경도인지장애(MCI) 환자 273명을 대상으로 촬영한 PET(양전자방출 단층촬영) 영상 자료를 기반으로 알고리듬을 학습시켜 치매예측 장치를 만들어내는데 성공했다.”고 밝혔다.
제약사들 역시 서둘러 빅데이터 기술을 도입하고 있다. 특히 많은 제약사들이 빅데이터 기술을 활용해 매우 강력한 의약품 판매 시스템을 개발 중인 것으로 알려지고 있다. 실제로 의약품 유통망은 수시로 상세한 처방정보가 축제되는 알고리즘이다.
의료법상 환자의 이름이 입력되지 않는 처방은 불가능하다. 이에 따라 제약사들은 현재 병원과 협의해 의사들의 처방전을 데이터화 하는 방안을 찾고 있는 중이다. 그럴 경우 제약사에서는 병원·약국 등에서 어떤 의약품이 처방되고 있는지 파악이 가능하다. 제약사들은 “의사들의 처방전을 데이터 분석함으로써 환자 치료에 큰 도움을 줄 수 있다.”고 주장하고 있다. 또한 처방전 분석을 통해 각각의 의약품이 어떤 반응을 얻고 있는지 분석할 수 있으며, 평가결과를 기반으로 새로운 의약품을 개발할 수 있다고 보고 있다.

암 세포 데이터 축적해 원인 규명

빅데이터와 관련, 최근 의료계의 큰 관심사 중의 하나는 빅데이터를 통해 암의 비밀을 밝혀낼 수 있는지 그 여부다. 흥미로운 것은 이 작업에 MS, 구글 등 IT 공룡기업들과 함께 대형 병원들이 다수 참여하고 있다는 점이다.
실제로 마이크로소프트(MS)는 지난해 9월부터 암 세포 정보를 컴퓨터에 담기 시작했다. 최장 10년 동안 진행될 이 작업을 통해 암 세포의 비밀을 밝혀내고 그 정보를 활용해 암이 생기는 원인을 밝혀낸 후 암 치료법에 활용할 계획이다. 이처럼 방대한 양의 암 세포 데이터를 컴퓨터에 대량 입력하기는 MS가 처음이다. 연구에 참여하고 있는 크리스 비숍(Chris Bishop) 박사는 “생물학과 컴퓨터가 분필과 치즈처럼 다른 느낌을 주고 있지만 그 안에서 일어나는 일은 흡사한 양상을 보이고 있다”고 말했다.
그는 “지금과 같은 방식으로 컴퓨터 안에 방대한 양의 암세포 정보를 입력해나갈 경우 5~10년 후에는 암 치료를 위한 매우 중요한 정보들을 다양하게 획득할 수 있으며, 암 치료에 혁신을 가져올 수 있다”고 설명했다.

5년 후 암 발병 원인 밝혀낼 수 있어

현재 이 프로젝트를 수행하고 있는 연구소는 케임브리지 대학 안에 설치돼 있다. 150명의 과학자와 소프트웨어 개발자들이 일을 하고 있는데 그중에는 저명한 생물학자, 프로그래머, 엔지니어 등이 다수 포함돼 있는 것으로 알려지고 있다. 연구팀장인 앤드류 필립스(Andrew Philips) 박사는 “암세포를 모방해 살아있는 컴퓨터(living computer)를 만들고 있다”고 말했다. “정보축적 작업을 5~10년 동안 수행할 경우 분자 차원에서 암을 정밀 진단할 수 있는 길이 열린다”고 말했다. 다음 단계는 이들 건강한 세포와 암 세포를 비교해 어느 부분에서 문제가 발생하고, 암 증상을 일으키는지 분석할 수 있도록 암 세포의 움직임을 모사하는 일이다. 이를 위해 연구팀이 개발한 소프트웨어 속에 암 세포 관련 정보를 입력하고 있는 중이다.
재스민 피셔(Jasmin Fisher) 책임연구원은 “이 작업이 마무리되면 그동안 몰랐던 암 증상의 원인을 알 수 있다”고 말했다. 그는 “일부 암의 경우 5년 정도면 분석이 완료되고, 10년이 지나면 거의 모든 암을 분석할 수 있을 것”으로 내다봤다.
MS에 근무하고 있는 많은 수의 컴퓨터과학자들은 지금처럼 컴퓨터가 암세포를 분석하고 있는데 대해 컴퓨터과학이 수행해야할 당연한 수순으로 인식하고 있다. 암과 같은 인류의 난치병들을 컴퓨터과학이 순차적으로 해결할 수 있다고 믿고 있다.

유전자 염기서열 분석해 치료법 개발

MS 연구소의 지넷 윙(Jeannette M. Wing) 부사장은 두 가지 전제 속에서 이번 프로젝트를 수행하고 있다고 말했다. 첫 번째는 암을 비롯해 어떤 질병이든지 컴퓨터를 통해 정보 처리할 수 있다는 확신이다. 이에 따라 암세포를 비롯 다양한 질병 분석이 이루어질 전망이다. 두 번째 전제는 ‘머신러닝’ 같은 기계학습 프로그램을 통해 질병의 원인 분석을 인지하게 한 후 치료 방법을 추정해나갈 수 있다는 생각이다. 그럴 경우 그동안 의사들이 해오던 영역을 컴퓨터가 수행할 수 있게 된다.

윙 부사장은 “이런 목적을 위해 생명과학자들과 의료인, 컴퓨터과학자 등이 협의해 컴퓨터가 의료 활동을 할 수 있는 혁신적인 방안을 찾고 있다”고 말했다. 실제로 의료 기업과의 기술협력이 추진되고 있다. 또 윙 부사장은 “지금 개발하고 있는 모델을 신약을 개발하고 있는 제약 회사에 적용하는 방안을 협의 중”이라고 말했다.

컴퓨터분석을 통해 불치병을 치료하려는 노력을 기울이고 있는 곳은 MS뿐만이 아니다. IBM의 인지컴퓨팅 왓슨(Watson)팀은 유전체 염기서열 자료 분석을 통해 새로운 치료방법을 개발하고 있는 중이다. 그러나 MS의 프로젝트는 불치병으로 알려진 암 세포를 대상으로 하고 있어 세계적인 주목을 받고 있는 중이다.
최근의 이런 변화는 국가 보건관리 시스템 전반에 큰 변화가 일어나고 있음을 말해주고 있다. 현재 부분적으로 이루어지고 있는 이 정보교환 시스템이 빅데이터화할 경우 국가는 물론 세계적으로 의료계와 환자 모두를 실시간으로 아우르는 일이 가능하다.

한국 정부, 의료빅데이터 플랫폼 구축

국내에서도 준비가 한창이다. 보건복지부는 최근 발표를 통해 보건의료 속성, 데이터 활용 의약연구의 중요성 등을 고려해 보건의료분야 정보를 목적으로 하는 특별법인 가칭 ‘보건의료 빅데이터 특별법’ 제정을 추진한다고 밝혔다.
“기존 개인정보보호법의 경우 ‘건강정보’를 하나의 분류로 규정해 종류별 처리 방법이나 안전수칙, 허용범위 등이 세분화되지 않았다는 점이 존재했다.”며, 보건의료 빅데이터의 활용에 제한을 막기 위한 조치라고 설명했다.

개인정보보호법에서의 ‘건강정보’는 키나 몸무게, 진료기록, 유전자 등이 구별되지 않은 상태에서 공통적 으로 통칭되고 있는 상황이다. 복지부는 향후 법안 마련 시 중요내용 및 방향성을 공론화위원회 논의를 거쳐 특별 법을 추진할 것이라고 밝혔다. 복지부는 또 올해 말이나 내년 초 설치될 보건의료 빅데이터 자문위원회를 승계한 정책위원회를 만들고 기본계획 수립과 국가투자 및 지원 등 규정 마련에 들어갈 계획이다. 특별법 제정은 ‘보건 의료 빅데이터 플랫폼 시범사업 추진계획’의 일환이다.

현재 정부는 이 추진계획을 위해 2018년 예산을 당초 계획 77억 원보다 41억 원이 더 늘어난 115억 원을 투입할 예정이다. 정부의 이런 움직임은 국내 의료빅데이터 플랫폼 구축이 늦어지면서 국내 의료 경쟁력이 위축됐다는 우려에 따른 것이다.

사생활 침해 등 시민단체 반발 거세

지난해까지 국내에서는 ‘생명윤리안전에 관한 법률’에 따라 의료기관을 통하지 않고 유전자 검사 서비스를 받는 것이 금지되어 있었다. 의료계가 반발하면서 지난해 6월 체질량 지수, 카페인대사, 혈압 등 12가지 항목에 대해 DTC(direct-to-consumer) 유전자 검사를 허용했다. 미국 등 선진국이 암 예방을 위해 유전자 검사를 활용하는 상황에서 비만, 탈모 검사 정도를 허용하고 있다는 비판이 이어졌다.
개인정보보호법 역시 유전자 검사의 걸림돌로 작용하고 있다. 유전자 정보를 분석하려면 방대한 양의 인간 유전체 정보가 필요하다. 그러나 개인정보보호법에 따라 개개인의 유전체 정보를 수집해 빅데이터화 하는 것이 불가능하다. 일부 공공기관과 연구실에서 연구를 목적으로 유전체 데이터를 사용한 뒤 폐기하는 것이 일반적인 관례가 되고 있다. 그러는 사이 세계 유전자분석 시장은 급성장하고 있다. 이런 움직임에 대해 시민단체의 반발도 더욱 거세지고 있다. 11월 27일 국회 보건복지위원회 일부 의원들과 시민단체들은 국회의원회관에서 ‘현 정부의 보건의료 빅데이터 추진 전략의 문제점’이란 주제로 토론회를 개최했다. 이 자리에서 참여연대, 건강과 대안, 인도주의실천의사협의회, 진보네트워크센터, 무상의료운 동본부, 경제정의실천시민연합, 건강세상네트워크 등의 시민단체들은 “보건의료 빅데이터 사업 추진을 위해 신뢰성과 공익성을 확보해야 한다.”고 주장했다.
인도주의실천의사협의회 정형준 정책국장은 특히 “정부가 어떠한 개인 동의나 법적 근거도 없이 산업 발전이라는 측면에서 개인정보를 마구잡이로 활용하겠다는 입장으로 플랫폼 예산 115억 원을 배정했다”며 의문을 제기했다.

논란 속에 의료 빅데이터 산업 재편 중

논란이 이어지고 있는 가운데 의료정보의 빅데이터화는 유례가 없을 만큼 빠르게 진행되고 있는 중이다. 아툴 뷰트 UC샌프란시스코 컴퓨터헬스사이언스 연구소장은 최근 강연을 통해 “구글이 5년 후 제약회사가 된다면 믿으시겠습니까?”라고 질문하고 있다.
“앞으로 구글처럼 방대한 데이터와 플랫폼을 보유한 회사들이 제약·바이오산업을 장악할 것”이라는 것이 그의 견해다. 의료계 관계자들 역시 불과 수년 안에 첨단 데이터 기술이 병원, 제약사 등에 도입되고, 의료계 전반에 걸쳐 큰 변화를 줄 것으로 예견하고 있다.