PEOPLE한현욱 | 차의과대학교 교수
「헬스케어 빅데이터」를 잡는 방법
…재미는 코끼리도 춤추게 한다
그동안 출간된 ‘빅데이터’, ‘4차산업’에 관련된 책들을 읽어보면 미래에 거창한 일이 일어날 것 같은 기대감이 생긴다. 그런데 다 읽고 나면 늘 드는 생각은 비슷하다. 그래서 어쩌란 말인가. 자율 자동차가 움직이고, 3D프린터가 물건을 만들어 내는 미래는 분명 무언가 달라질 것 같다. 하지만 나는 어떻게 될까. AI 때문에 내가 실업자가 되는 것일까.많은 책에서 미래에 가장 각광 받는 직업이 ‘데이터 과학자’라고 소개한다. 이 직업의 조건은 전산·통계·수학을 기본으로 알고 그 위에 전문 분야가 하나 더 있어야 한다. 이 정도 전문가라면 어디에서나 인정받는 것은 당연한 것이 아닌가. 솔직히 한 분야를 알아가는 것조차 버거운 나에게 미래가 있기는 한걸까. 이런 가운데 「이것이 헬스케어 빅데이터이다」라는 책을 접했을 때 드는 느낌은 달랐다. 한 문장 읽을 때마다 데이터 수집부터 정제까지 직접 해온 저자의 땀내가 확 풍겼다. 저자의 이력을 보니 컴퓨터공학과를 나와서 나중 의학 박사학위를 받았다. 왜 이런 선택을 하게 되었을까.
▶ 빅데이터 시대를 예상하고 공학과 의학을 같이 공부하셨나요. 헬스케어빅데이터 측면에서 보자면 정말 미래를 예견하시고 준비해 오신 것 같습니다.
그렇지는 않습니다. 제가 생명정보학에 대해서 관심을 가진 것은 2000년대 초반이었습니다. 아시다시피 그때가 바로 IT 버블이 일어나던 시기였습니다. 공학을 전공한 저였지만 그때 의학을 공부해야겠다고 생각했습니다. 빅데이터 용어가 처음 나온 것이 2013년일 겁니다.
▶ IT가 각광받는 시대에 공학도로서 의학 분야에 관심을 돌리는 것이 쉽지 않은 선택인 것 같습니다. 그런 혜안을 가질 비법이 있는지요
요즘 외부 강의를 나가면 많은 학생이 어느 쪽으로 진로를 잡아야 유망한지 물어봅니다. 아마 많은 분이 제가 미래에 헬스케어 빅데이터 분야가 유망한 것을 미리 예측하고 준비해온 것이라 생각하시는 것 같습니다. 이 글을 읽는 학생 분이 있으시다면 저는 이 말을 전해드리고 싶습니다. 현재 유행하고 있는 분야가 미래에도 유행하고 있을 거란 보장이 없습니다. 그 대신 자신이 정말 재미있게 할 수 있는 분야라면 그런 행운이 찾아올 가능성이 오히려 높습니다. 엉뚱한 생각을 할 수 있고 그것에 재미를 느끼며 탐구할 수 있는 친구가 그런 행운을 가질 거라고 생각합니다.
▶ 그래도 2000년대에는 공학도로서 의학을 선택하고, 의학에서 정보학 분야를 선택하는 것은 쉬는 길은 아닌 것 같아요. 지금이야 빅데이터하면 누구나 관심을 가지지만요
사실 그 당시 저는 별종으로 통하긴 했어요. 미래에 어떤 의사가 되겠다고 얘기하는 자리가 있었는데 저 혼자 데이터를 분석하는 의사가 되겠다고 얘기했으니까요. 이를 위해 대학원 박사 과정 중에 교수님께 데이터베이스 개론, 인공지능, 병렬시스템 관련해서 외부 강의를 듣겠다고 했거든요. 그랬더니 교수님이 그런 거 왜 하냐고 정 듣고 싶으면 사유서를 내라고까지 하셨어요. 무엇보다 힘든 것은 제가 배우고 싶은데 배울 곳이 없다는 거였습니다. 모교 교수님들조차 저를 지도하기 힘들 것 같다고 거절을 했었거든요. 그래서 외부 교수님을 가르침을 받기 위해 이곳저곳을 혼자서 찾아다니고 해외 자료를 다 수집하면서 공부를 했어요. 정말 자기가 재미없었다면 그렇게 공부하는 것이 힘들었을 겁니다.
▶ 「이것이 헬스케어 빅데이터이다」라는 책을 집필하신 동기는 무엇인지요
아마 많은 사람이 의학자와 컴퓨터 과학자를 한자리에 모아두면 뭔가 근사한 헬스케어 빅데이터 연구가 가능할 것이라 생각할 것입니다. 하지만 절대 그렇지 않습니다. 두 집단이 만나면 가장 먼저 닥치는 위기가 용어에 대한 이해입니다. 그 경계에 정보의학이란 학문이 있다고 보시면 됩니다. 정보의학에서만 다루는 독특한 용어와 데이터의 특징이 있습니다. 이런 관점에서 일반인들이나 정보의학을 시작하는 사람들을 위한 안내서 역할을 하는 책이 필요하다고 오랫동안 생각해 왔었습니다.
▶ 요즘 융합,통섭 얘기를 많이 하는데요, 두 분야가 만나서 일을 하는 것이 쉽지 않은 건가요
현실적인 어려움이 많습니다. 제 생각에는 두 분야가 합쳐서 어떤 결과를 내기 위해서는 먼저 큰 방향을 제시해줄 수 있는 사람이 필요합니다. 그리고 앞에서 말씀드린 것처럼 접점 영역의 학문 체계가 필요합니다. 그래야 서로 소통이 가능합니다.
▶ 교수님은 공학·의학·통계를 다 공부하셨는데요, 이 학문을 같이 공부하는 게 쉬워 보이지는 않습니다. 각각의 특징이 있다면 어떤 것이 있을까요
의학하고 공학은 많은 차이가 있어요. 의학은 단편적인 지식이 쌓여서 하나의 큰 지식을 만들어요. 의학 용어만 수백만 개에 달해요. 그렇다 보니 많은 부분 암기가 필요해요. 처음에 의학을 공부하면서 가장 힘들었던 점은 의학에는 논리적 맥락이 거의 없다는 거예요. 반면에 공학은 논리적이고 맥락이 있어요. 즉 하나를 알면 그것을 기반으로 다른 것을 추론할 수가 있는 것이죠. 통계는 합리적 근거를 마련하는 데 유용하다고 생각해요.
▶ 통계 분야에 대해서 좀 더 궁금한 것이 있는데요. 책에 데이터 기술자와 데이터 과학자에 대한 얘기를 하셨습니다. 이 둘의 차이는 어디에 있다고 생각하십니까
요즘 데이터 과학자 교육과정으로 몇 달 코스가 있더군요. SQL, R을 잘 배운다고 데이터 과학자가 될 수 있을까요. 데이터 분석과정을 통해 설명해 드리자면 현재 데이터는 널려 있습니다. 이 데이터에서 정보를 분석해서 이 안에서 가치를 끄집어내고 이를 통해 지혜를 얻을 수 있어야 데이터 과학자라고 말할 수 있습니다. 하지만 현재 많은 분석자는 정보, 즉 규칙 정도만 끄집어낼 수 있습니다. 아직 정보에서 어떤 가치를 만들어 내지 못합니다. 이 잡지를 통계하시는 분들이 많이 보실 것 같은데 단순한 기술자에만 머물면 한 조직에서 크게 인정받기 어렵습니다.
▶ 좀 더 힌트를 주십시오. 데이터 과학자가 되고 싶다면 어떻게 접근해야 할까요
예를 들어 헬스케어 빅데이터 분야에 대해 설명드리면 이 분야에서 통계적 기술 수준은 그리 높지는 않습닌다. 대신영역 지식(Domain Knowledge)이 필요해요. 이를 위해선 대학원에서 의학이나 생물정보학 같은 분야를 공부해야 합니다. 그리고 프로젝트를 통해 많은 경험과 지식을 축적해야 합니다. 통계하는 사람들은 이런 영역 지식을 갖추는 것이 중요합니다. 그렇지 않으면 늘 지원하는 조직에 머물게 됩니다.
▶ 이제 헬스케어 빅데이터에 대한 얘기를 해봐야 할 것 같습니다. 헬스케어 빅데이터가 우리의 삶을 어떻게 바꿀 수 있으리라 생각하시는지요
현재 의료서비스는 평균을 위한 진료라고 말씀드리고 싶습니다. 간단한 예를 들어 봅시다. 두통 때문에 병원을 찾았어요. 의사는 이 환자에게 자신의 경험을 바탕으로 진통제를 처방합니다. 경험상 이 약이 효능이 좋았다는 기억 때문일 겁니다. 만약 어떤 환자에게 부작용이 있었다면 그 약을 쓰지 않을 겁니다. 의사들은 보통 대여섯 개 정도의 진통제 약 중에서 처방한다고 볼 수 있습니다. 그런데 진통제의 종류가 얼마나 있는지 아시나요? 현재 진통제 종류는 121개입니다. 지구상에 생김새·체질·유전자 등에서 같은 사람은 단 한 사람도 없어요. 앞으로 헬스케어 빅데이터가 발달한다면 사람들의 이런 특성에 따라 121개의 약이 처방될 수 있습니다. 쉽게 말씀드려 개인별 데이터가 있다면 121개의 카테고리에 사람을 분류하는 것은 가능하거든요.
▶ 전통적인 의학 연구방법론은 가설 기반 접근법에 따라 발전해 왔는데, 교수님은 의학은 데이터에 대한 학문이라고 생각하신다고 했습니다. 의학에서 기존의 이론적 체계를 벗어난 새로운 이론수립이 가능하다고 보시는지요
전통적인 의학 연구방법론은 가설 기반 접근법(Hypothesis driven approach)이었습니다. 이제는 데이터의 양이 증가하면서 데이터 기반 접근법(Data driven approach)으로 바뀌고 있죠. 과거에는 이러저러한 이유로 결과가 이럴 것 같다는 가설을 수립하고 이것을 실험으로 검증했습니다. 데이터 기반 접근법은 가설이란 게 없습니다. 그저 데이터를 분석하니 이러저러한 패턴이 나오는데, 그 이유를 역으로 찾아가죠. 인공지능이 데이터 기반 접근법의 가장 대표적인 예라고 할 수 있죠. 빅데이터로 인해 기존의 이론을 뒤집는 수많은 이론이 수립될 것입니다. 데이터의 통계적 패턴보다는 개별 데이터 자체의 특성이 더 중요하게 작용할 것입니다.
▶ 그런데 질병은 왜 생기는 걸까요. 질병이 발생하는 메커니즘이 궁금합니다
그걸 설명하려면 하루는 필요할 것같은데요. 간단하게 설명하자면 다운증후군, 암, 혈우병 같은 유전체 질환을 들 수 있습니다. 그런데 유전체로는 질병의 20%밖에 설명하지 못합니다. 영양이 부족해서 병이 생기거나 비만,당뇨, 고혈압 같이 영양이 과다해서도 병이 생길 수 있습니다. 그리고 국가 보건 의료체계도 많은 영향을 끼칩니다. 예를 들어 아프리카 한 국가는 국민의 1/3이 에이즈를 앓고 있어요. 국가 관리 시스템이 그만큼 중요합니다. 그리고 해외여행을 많이 하면서 메르스 같은 질병이 생기기도 하고 외국인과 결혼을 통해서 새로운 유전병이 발견되기도 합니다.
한현욱 교수가 걸어온 길
· 현재 차의과대학교 의학전문대학원 주임교수
· 전)아주대학교 의료정보학교실 조교수
· 차의과학대학교 의학전문대학원 박사 학위 및 의사면허
· 서울대학교 대학원에서 공학 석사학위
· 한양대학교 컴퓨터공학과 졸업
▶ 요즘 반도체 이외의 미래 먹거리를 찾아야 한다는 목소리가 높은데요. 헬스케어가 미래 먹거리가 되기 위해서는 어떤 것이 필요한가요
먼저 의료 분야의 특징에 대해서 이해할 필요가 있습니다. 의료는 가장 보수적이고 규제가 많은 분야인 반면에 가장 최첨단 기술이 들어와 있는 분야이기도 합니다. 재미있는 예로 다른 나라에서 시행되고 있는 원격 의료가 우리나라에서는 금지되어 있습니다. 그런데 원격의료 솔루션을 해외로 수출하고 있는 곳도 우리나라입니다. 현재 우리나라는 의료보험체계 때문에 전 국민의 데이터가 수집되고 있습니다. 반면에 임상 데이터는 외부에 제공되지 않습니다. 이런 데이터를 통합할 수 있는 체계가 필요합니다. 이를 해결할 수 있는 방법은 크게 두 가지가 있을 수 있습니다. 먼저 규제 샌드박스를 설립하고 그 안에서 자유로운 연구를 하는 방법입니다. 두 번째가 환자에게 자기 데이터에 대한 결정권을 주는 방법입니다.
▶ 자기 데이터에 대한 결정권을 가진다는 것이 합리적인 것같은데요. 그런 방향이 가능할까요
2016년부터 유럽에서 거론되고 있는 ‘GDPR법’을 주목해서 볼 필요가 있습니다. GDPR이란 자기 데이터에 대한 설명을 요구할 권리입니다. 그동안 페이스북이나 구글은 개인들이 자발적으로 입력한 데이터로 엄청난 돈을 벌었습니다. 이제 이러한 정보를 제공한 사람은 자신의 정보가 어떻게 처리되고 분석되는지 대해서 알 권리가 있습니다.
▶ 책에서 ‘개인건강기록’이라는 개념에 대해 말씀하셨습니다. 이런 체계를 가지기 위한 기술적 선결 과제는 무엇이 있을까요
개인건강기록은 정말 중요합니다. 여러분들은 병원의 진료를 받고 나서도 도대체 자기가 무슨 치료를 받았는지, 그 결과가 무엇인지 전혀 알지 못하는 경우가 많을 것입니다. 개인건강기록이 가능한 시기가 오게 되면 적어도 그 의미까지 파악하지 못해도 무엇을 검사했는지 그 수치가 무엇인지, 그리고 치료결과는 어땠는지 등을 환자 자신이 알 수 있습니다. 이런 개인건강기록에 대한 개념은 이미 40여 년 전에 의료정보분야에서 등장하였습니다. 이를 위해 최근 블록체인에 대한 관심이 뜨겁게 일어나고 있습니다. 블록체인은 탈중앙화된 체계로 데이터를 저장하고 다수의 참여자에 의해 데이터의 신뢰성을 검증합니다. 또한 현재 개인정보보호법으로 문제가 제기되는 데이터개방 권한을 개인에게 부여해 데이터유통 생태계 주역을 개인으로 바꿔줄 것입니다. 물론 블록체인이 의료분야에서 적용되기 위해서는 기술적인 면에서도 아직 진보가 더 필요해 보이며 법적인 부분의 개선에도 함께 노력해야 합니다. 지금 에스토니아는 블록체인 기술을 활용한 전자정부 시스템을 구축해 활용하고 있습니다. 앞으로 진행상황을 주목해 볼 필요가 있습니다.
▶ 현재 컴퓨터공학에서 의학 공부에 뜻이 있거나, 현재 의대 재학생이 헬스케어 빅데이터 분야에 관심이 있다면, 앞으로 부딪칠 어려움의 성격이 다를 거라고 여겨집니다. 이런 분들을 위한 조언 부탁드립니다.
우선 컴퓨터공학을 전공한 사람이 헬스케어 빅데이터의 전문가가 되기 위해서는 얕은 수준이라도 의학과 생물학 분야를 공부하라고 조언하고 싶습니다. 헬스케어 분야에서 통상적으로 사용하는 기본적인 용어나 이 분야만의 독특한 생태계를 이해하지 못하면 동료 간 커뮤니케이션을 제대로 하지 못할 뿐만 아니라 문제의 본질을 제대로 이해하지 못해 일을 하고 있지만 무엇을 하고 있는지 제대로 파악하지 못하게 됩니다. 반면 의학이나 생물학을 전공한 사람이 헬스케어 빅데이터 전문가가 되기 위해서는 컴퓨터와 친해지도록 노력해야 합니다. 보통 의학이나 생물학은도제식 교육 방식입니다. 이론은 책에서 충분히 학습할 수 있을지 몰라도 결국 선배나 교수를 잘 만나서 경험과 노하우를 배우는 게 되는 것이죠. 하지만 컴퓨터 분야는 다릅니다. 여러분이 개발하기를 원하는 어떤 특정한 프로그램이 있다면 인터넷만 잘 뒤지면 누군가 이미 만들어 자신의 블로그 혹은 깃허브(Github)에 올려놓았을 것입니다. 여러분은 특정 분야의 문제를 해결하기 위해 인터넷 서핑을 효과적으로 할 방법을 구상하고 전 세계 수많은 개발자와 소통하는 채널을 만들기 위해 노력해야 합니다. 그 과정 속에서 자연스럽게 데이터 분석에 관한 다양한 기술을 학습하게 될 것입니다.
▶ 마지막으로 앞으로 계획에 대해서 간략하게 말씀해 주십시요.
네트워크 의학, 헬스케어 블록체인, 의료 데이터 시각화 분야에 대해서 연구를 집중하고있습니다. 그리고 연구를 위한 연구보다는 산업화에 대해서 좀 더 고민하고 싶습니다. 의료에서 산업화란 사람에게 유용하고 편리하게 만드는 것을 의미합니다. 즉 실제 사람에게 도움을 줄 수 있는 연구를 진행해 보고 싶습니다.