통계탐방오세안 | 통계청 통계데이터기획과 사무관
4차 산업혁명의 첫 걸음…
통계빅데이터센터
통계빅데이터센터는 왜 만들어졌나
통계빅데이터센터는 외부와 차단된 공간에서 데이터를 자유롭게 결합·분석할 수 있는 ‘데이터 안심존’으로 개인정보 침해 없이 공공데이터와 민간데이터의 연계·융합을 지원하는 보안 환경이 구축된 ‘데이터 분석 플랫폼’이다.
데이터는 4차 산업혁명의 핵심요소로 공공부문과 민간부문 성장의 주요 원천으로 기존 금전자본보다 더 중요한 자본으로 부각되고 있다. 따라서 데이터의 결합·연계를 통해 데이터의 새로운 가치를 창출하고 지속적인 부가가치 확장이 가능함에 따라 민간부문뿐만 아니라 공공부분에서 ‘쓸 만한 데이터’에 대한 요구가 증대되어 왔다. 이에 통계청에서는 데이터에 대한 수요 증대에 대응하고 개인정보보호와 데이터 활용의 조화를 이루기 위해서 지난 2년간의 시범운영 및 통계빅데이터센터 구축을 위한 ISP(정보화전략계획)를 기반으로 통계빅데이터센터를 구축하였다.
구축 과정에서 가장 고심했던 부분은 데이터의 개방이 확대됨에 따라 개인정보의 침해 가능성도 함께 높아지기 때문에 이에 대한 대비가 함께 수반되어야 한다는 점이다. 그래서 통계빅데이터센터는 개인정보보호 기반 위에 데이터를 자유롭게 활용할 수 있는 공간인 ‘데이터 안심존’으로 물리적·절차적·관리적 보안체계를 적용하였다. 그리고 향후에는 통계적 노출제어(SDC), 재현자료개발 등 개인정보 침해없이 데이터를 분석할 수 있는 통계적 기법을 적용하여 운영할 예정이다.
시범운영 기간 동안 활용된 사례들에서 나타난 효과에 주목
통계청은 2016년 10월부터 행정기관 및 통계청 MOU 기관을 대상으로 시범서비스를 제공하였다. 시범운영 기간 동안 센터 구축에 필요한 이용자의 의견을 수렴하여 센터구축에 반영하는 한편 정식서비스 제공에
앞서 이용대상자1)와 시범운영 센터2)를 점진적으로 확대하여 왔다. 시범운영기간 동안 다양한 분석 유형을 개발하여 ‘기술노트’를 작성·공유하고
예산절감 사례를 발굴하였다. KCB(코리아크레딧뷰로)의 경우 통계청 기업등록부 및 등록센서스 등의 자료와 KCB 대출 잔액 및 연체 잔액 등을 연계·분석하여 개인기업 부채 분석을 실시하고 사업환경지표를
개발하였다. 한국문화관광연구원의 경우 문화체육관광산업의 특성을 종합적으로 파악할 수 있는 승인통계를 조사통계에서 행정통계자료 등을 활용한 가공통계로 전환하여 통계작성비용
약2억9천만원(3억->1천만원)을 절감하였다. 그 외에 녹색기술센터3), 정보통신정책연구원4), 대전광역시5) 등에서도
통계빅데이터센터를 이용하여 통계작성 및 데이터분석 예산을 절감하였다.
1) 이용대상자: 행정기관 및 MOU기관(’16.10~)→통계작성기관 및 MOU기관(’18.1~)
2) 시범운영센터: 대전(’16.10, 10석)→판교(’17.10, 2석)→부산(’18.6, 8석)
3) 기후기술산업통계작성(녹색기술센터): 5.5천만원
4) ICT 통합모집단 구축(정보통신정책연구원): 4천만원
5) 지역간 영리법인 기업체 유출입 분석(대전광역시): 4.5천만원
통계빅데이터센터를 이용하고자 한다면…
통계청은 지난 11월 20일 ‘통계빅베이터센터’ 개소식 실시 후 시범서비스를 정규서비스로 전환하였으며 센터는 대전, 서울, 부산에서 운영되고 있다. 대전센터가 총괄센터로서 역할을 수행하며 32석의 자료분석실과 회의실 및 교육장 등을 갖추고 있으며 서울과 부산센터는 각각 10석, 8석의 자료분석실을 갖추고 있다.
센터를 이용하려면 먼저 빅데이터센터 홈페이지(data.kostat.go.kr)에서 1개월 범위에서 이용자가 기간을 정하여 신청 후, 이용 승인이 이뤄지면 센터를 방문하여 자료 분석을 하고 그 결과를 외부로 반출하고자 할 경우에는 식별정보가 포함되지 않도록 하여야 한다.
통계빅데이터센터에서 제공하는 서비스는 크게 2가지로, 직접 연계 및 분석 서비스와 전문가지원서비스(Data Literacy Service)를 제공한다. 먼저 직접 연계 및 분석 서비스는 데이터 분석능력이 있는 이용자는 이용자가 보유한 자료를 반입하여 통계빅데이터센터 승인 자료와 연계하여 분석하는 것이다. 또 분석자료는 있으나, 자료 분석을 위한 프로그램 등 기반이 없는 경우 센터에 자료를 반입하여 보유자료를 분석할 수 있다. 자료분석전문가지원서비스는 센터 내에 데이터 분석 전문가가 상주하여 이용자의 데이터 분석을 지원하는 서비스로 데이터 분석능력이 없거나 부족한 경우에 상담을 통해 누구나 이용이 가능하다.
향후 서비스 확대 계획
통계청은 통계빅데이터센터 이용활성화 및 이용자 편의성 제고를 위해 다양한 서비스를 제공할 예정이다.
· 온라인(On-Line) 서비스를 제공하고 오프라인(Off-Line) 센터를 확충
통계빅데이터센터 이용자 접근성 강화를 위해 온라인 서비스를 제공하고 오프라인 센터를 확충할 예정이다. 온라인 서비스는 개인 식별 위험이 낮고 이용자의 편의성이 높은 서비스 유형을 선별하여 제공할
예정인데 다차원 분석 도구를 이용하여 상세자료를 이용자가 직접 다룰 수 있도록 온라인 서비스 시스템을 구축(’19년)하여 2020년부터 제공하고 통계데이터 수요를 감안하여 지역 거점도시를 중심으로
이용센터를 확충할 예정에 있다.
· 고품질 자료 서비스 확대
통계 데이터의 경우 통계등록부(행정통계자료 DB) 중 대외 제공 가능한 데이터를 발굴·정비하여 순차적으로 서비스하고 민간 데이터의 경우 온라인 물가 자료6)와 통신사
데이터7) 자료를 우선 서비스 하고 관련 법령(통계법 및 개인정보보호법 등)의 개정에 맞추어 자료수집 및 서비스를 확대할 계획이다. 아울러 이용자의 자료분석 편의성 제고를
위해 현재 서비스 중인 9종의 통계데이터의 메타데이터를 순차적으로 구축하여 제공하고 현재 서비스 중인 9종의 통계데이터에 대해 값이 누락되거나 오기된 항목을 정비하는 등 제공 자료의 품질관리를 강화할
예정이다.
· 자료 간 연계서비스 제공
미국 통계국(Census Bureau), 호주 통계청, 이탈리아 통계청 등에서 사용하고 있는 Felligi & Sunter 자료연계모형을 기반으로 결정매칭8) 외에 확률매칭9)
등이 가능한 자료연계시스템을 구축(’19년)하여 다양한 연계분석이 가능한 서비스를 제공하고자 한다.
6) 온라인 물가 시스템을 이용하여 6개 인터넷 쇼핑몰의 물가 정보를 매일 수집
7) 과거정통부에서 「데이터 프리존」사업을 통해 통신데이터 제공
8) 결정매칭(Deterministic Matching): 매칭대상변수가 일치할 경우 Match 그렇지 않으면 Non-Match로 분류하는 방법으로 고유식별자를 가지고 있는 경우 활용
9) 확률매칭(Probabilistic Matching): 식별자를 활용할 수 없는 경우 준식별자 등을 이용하여 매칭변수별 매칭확률을 계산하는 방법
통계빅데이터센터 서비스를 통한 기대효과
통계빅데이터센터는 보안환경이 구축된 공간에서 데이터의 자유로운 활용을 위해 구축된 공간으로 통계빅데이터센터를 통한 데이터 공동서비스, 시스템 공동 활용 등을 통해 직접적으로는 이용자의 데이터 이용 편의성 제고 및 데이터 분석 예산을 절감할 수 있다. 또한 간접적으로는 개인정보 침해 없이 데이터를 자유롭게 공동 활용할 수 있는 환경조성으로 통계빅데이터 활용도를 제고하고 개인정보 비식별화 및 다양한 연계를 통해 새로운 데이터 모델 발굴 및 확산에 기여할 것으로 기대된다.