통계광장김진철 | 한국정보화진흥원 수석연구원

통계광장

빅데이터 플랫폼 시대···
데이터 연계체계를 확보하라

왜 데이터는 돈보다 더 가치 있는 자산일까

16년도 미국의 메사추세츠공과대학(MIT)에서 발표한 「데이터 자본의 부상」이라는 기술보고서를 보면 데이터를 4차산업의 신 자본으로 소개하고 있습니다. 우리가 사용하는 돈보다도 더 가치가 있다는 것입니다. 그 이유는 요즘 기업의 가치를 판단할 때 데이터와 같은 무형자산이 매출이나 부동산과 같은 유동자산보다도 더 가치를 인정받기 때문입니다.

또한, 여러 기업에서 동시에 같은 데이터를 비경쟁적으로 활용 가능하며 데이터마다 특성이 있어 비대체적이고, 어떻게 분석하고 활용하느냐에 따라서 무한한 가치를 이끌어 낼 수 있는 경험적 재화의 특징을 가지기 때문입니다.

하나의 예로, 우리나라에서 위암을 진단하는 AI 서비스를 개발한 벤처기업이 우수한 사업 아이템으로 금융 투자는 쉽게 받을 수 있었으나 실상, AI 분석 알고리즘을 개발하기 위해 필요한 의료데이터를 구할 수가 없어 많은 어려움을 거쳐 병원에서 연구용 데이터를 얻어 활용했다는 일화가 있습니다. 이렇게 데이터 확보가 어려운 스타트업이나 중소기업에게는 돈보다도 더 가치 있는 자원임에는 틀림이 없는 것 같습니다.

데이터 확산을 위한 빅데이터 플랫폼 및 네트워크 구축 사업 추진

과학기술정보통신부와 한국정보화진흥원에서는 쓸만한 데이터가 넘쳐나고 데이터를 가장 잘 활용하는 나라를 만들고자 하는 목표로 각종 데이터가 모이는 빅데이터 플랫폼 구축 및 데이터 유통·거래 기반 조성을 통해 기존 산업 발전과 신시장 창출 지원에 나서고 있습니다.

이러한 사업을 통해 빅데이터 플랫폼은 10개, 빅데이터 센터는 100개를 구축할 계획입니다. 공공과 민간이 협업하여 활용도 높은 양질의 데이터를 센터에서 생산·구축하고, 플랫폼을 통해 이를 수집·분석·유통·활용 지원할 계획입니다.

현재 빅데이터 플랫폼은 금융, 환경, 문화·미디어, 교통, 헬스케어, 유통, 통신, 산림, 지역경제, 중소기업 경영혁신 등 10개 분야가 선정되어 구축 중이며 각 플랫폼마다 10개의 빅데이터 센터를 운영하게 됩니다.

기관, 중소기업, 대학 등이 참여하여 빅데이터를 체계적으로 생산·관리하며, 빅데이터 네트워크 조성을 통하여 민·관 협력을 통해 데이터 유통 활용 기반을 조성하고, 플랫폼 간 연계 및 이용 활성화를 지원할 예정입니다.

이 사업은 3개년 사업으로 추진되며 올해 1차년도에는 플랫폼·센터 간 연계·구축을 완료하고, 데이터 품질·표준화 및 유통 가이드라인 마련 등 데이터 생태계 기반을 조성하였습니다. 2차년도에는 분야별 플랫폼 간 연계하고, 플랫폼·센터 간 융합데이터를 재생산하여 시장에 본격 공급 및 혁신서비스 발굴·확산하며, 3차년도에는 중기부 등 범부처 플랫폼과 연계를 확대하고, 분야별 플랫폼 간 융합데이터 생산 등 산업적 활용 확대 및 유통 활성화를 지원할 계획입니다.

핵심 과제를 통한 데이터 생태계 혁신

올해부터 향후 3년간 구축될 빅데이터 플랫폼과 센터는 우리나라의 낙후된 데이터 생태계를 혁신하고 기업의 경쟁력을 확보하기 위한 핵심과제를 추진합니다.

첫째, 양적·질적 데이터 생산·구축 기반 마련

분야별 데이터 부족 문제를 해소하기 위해, 금년 말까지 시장 수요가 높은 1,400여 종의 신규 데이터를 생산·구축하고, 사업이 완료되는 21년까지 총 5,100여 종의 양질의 풍부한 데이터를 생산·구축하여 시장에 공급할 계획입니다.

둘째, 데이터 개방·유통 활성화 기반을 조성

기업들이 현행화된 데이터를 확보하는 데도 수개월이 소요된다는 문제점을 개선하기 위해, 센터와 플랫폼 간에는 민간 클라우드 기반으로 데이터 연계 체계를 마련하고, 센터에서 생산된 데이터는 실시간 또는 주기적으로 플랫폼을 통해 개방·공유하여 데이터의 최신성과 연속성을 확보할 계획입니다.

또한, 기존에는 개념이 없었던 데이터를 상품화해 제공하여 데이터 유통거래 시장을 만들어 내기 위하여 데이터 등록 및 감사(품질 등), 검색(소재정보), 사후관리(품질, 소유권 등), 데이터 가격 산정 기준 및 유통 표준약관 등을 마련하여 기업들이 필요한 데이터를 쉽고 빠르게 확인할 수 있도록 지원할 예정입니다.

셋째, 데이터 활용 촉진을 통한 신서비스 시장 창출

100개 센터에서 수집된 데이터는 분야별 플랫폼에서 융합하여 가공ㆍ분석하고, 이용 목적에 맞는 맞춤형 데이터 제작 등 양질의 데이터로 재생산하여 기업들이 필요로 하는 데이터를 원하는 형태로 즉시 활용할 수 있도록 제공할 계획입니다.

아울러 다양한 데이터 분석 도구와 AI 학습 알고리즘 등을 제공하고, 일반인도 데이터를 쉽게 분석하고 시각화할 수 있는 사용자 친화적인 분석 환경도 제공할 예정입니다. 또한, 맞춤형 일자리 수요예측, 미세먼지 종합분석, 상권 및 소비 트렌드 분석 등 새로운 공익적, 산업적 서비스를 국민과 기업들이 폭넓게 체험하고 활용할 수 있도록 하여 안전한 데이터 활용에 대한 사회적 수용성을 높여 나갈 계획입니다. 이를 통해 플랫폼에서는 분야별 공공, 민간의 각종 현안 문제를 해결하고 데이터로 돈벌 수 있는 시장 환경을 만들어야 합니다.

넷째, 민·관 협력을 통한 데이터 산업 육성기반 구축

분야별 전문성을 가진 부처와 플랫폼 운영기관 등과 민·관 협의체인 데이터 얼라이언스를 구성·운영하여 데이터 기반의 정책, 표준화, 유통 및 제도 등 다양한 현안 사안을 함께 논의하고 데이터의 안전한 활용을 촉진할 수 있는 방안을 마련할 계획입니다.

분야별 전문성을 가진 부처와 플랫폼 운영기관 등과 민·관 협의체인 데이터 얼라이언스를 구성·운영하여 데이터 기반의 정책, 표준화, 유통 및 제도 등 다양한 현안 사안을 함께 논의하고 데이터의 안전한 활용을 촉진할 수 있는 방안을 마련할 계획입니다.

빅데이터 플랫폼 연계를 통한 데이터 연계·활용 노력 필요

어느 한 분야의 데이터만 분석하는 것보다는 이종 데이터를 결합·분석할 때 예상치 못한 새로운 가치를 발견할 가능성이 높습니다. 예를 들어 조류독감 확산 예측이나 심야버스의 노선을 수립할 때 다양한 데이터를 통해 이러한 문제를 해결합니다.

이렇게 데이터를 잘 활용하기 위해서는 연계·융합이 무엇보다 중요하지만 정보통신기술(ICT)이 다양한 현장에서 활용되는 현실에서 데이터가 어디에 있는지 모르거나, 또는 데이터 확보에 많은 시간·비용이 소요되는 어려움이 있습니다.

따라서 우리도 데이터 간에 연계를 위한 표준화 작업과 함께 플랫폼 간에 데이터 협력 프로젝트 조성, 데이터 공유 활용 등의 노력이 시급합니다. 이를 위하여 빅데이터 플랫폼 연계를 통한 데이터 연계·활용 확산을 위해 아래와 같은 노력이 진행 중에 있습니다.

첫째, 한곳에서 데이터를 통합 검색하고 활용 할 수 있도록 플랫폼 간에 생산구축한 데이터 목록을 서로 공유하고 데이터 간에 연결체계를 구축

최근 구글의 데이터셋 서치 베타(https://toolbox.google.com/datasetsearch)에서도 DCAT과 schema.org 기반 데이터셋 목록을 수집하고 통합 검색할 수 있도록 지원하고 있습니다. 우리나라도 플랫폼 간 데이터 연계를 위하여 다년간 표준화로 메타데이터 서술, 교환 기능과 데이터 유통/품질 등의 다양한 정보 공유가 가능한 DCAT v2와 schema.org에서 제공하는 풍부한 어휘사전 등을 채택하여 플랫폼 간에 연동을 통하여 생산한 모든 데이터가 한곳에서 통합검색 가능하도록 데이터 목록을 상호 공유할 계획입니다.

올해에는 빅데이터 플랫폼에서 제공하는 데이터 목록을 데이터 통합지원센터에서 연계 수집하여 통합 검색 지원하는 시맨틱 데이터맵을 제공할 계획입니다. 이용자들은 통합 검색을 통하여 데이터 위치, 소유권, 설명서, 품질, 유통, 활용 등 각종 데이터 속성 정보를 확인하고 이용 가능하며 시맨틱 검색을 통하여 데이터셋 간 유사도에 따른 추천데이터도 이용할 수 있습니다.

둘째, 개방된 데이터를 보다 쉽게 연계 활용 할 수 있도록 데이터 개방 포맷은 기계 판독이 가능한 형태의 오픈 포맷 방식(CSV, RDF, LOD 등)을 적용

오픈 포맷이란 특정 소프트웨어(아래아한글·엑셀 등)에 종속되지 않고 다양한 소프트웨어에서 자유롭게 활용할 수 있는 형태의 데이터를 말합니다. 현재 국내외 공공데이터 개방에 활용 중인 팀버너스리가 제안한 5개 단계 포맷을 참조하여 3∼5단계에 해당하는 데이터 포맷을 적용하여 데이터 개방을 추진할 예정입니다.

셋째, 데이터 구축과 활용 관련 표준용어 및 포맷 활용을 증대

빅데이터 플랫폼에서 데이터를 구축하고 개방하는 데 있어 용어의 정의가 없어 의미의 경계가 명확하지 않아 사용자의 자의적 해석 및 정보사용의 오류가 발생할 수 있습니다. 또한, 이음동의어 등의 사용으로 데이터 구조 간 중복, 불일치로 인하여 기관 및 사용자 상호 간의 의사소통이 원활하지 못한 문제가 존재합니다.

따라서, 공공과 민간에서 개별적으로 관리되고 있는 데이터의 용어, 형식, 항목 등을 단계적으로 표준화하여 데이터 생산·구축 및 연계활용에 적용하고자 합니다. 현재, 공공분야에서는 행안부에서 제공 중인 행정표준용어(2019.10 현재 약 1만 4천 개, 행정표준용어.xls 참조)가 활용 중이며 행정표준코드관리시스템(http://www.code.go.kr)을 통하여 확인 가능합니다.

넷째, 데이터 연계키 활용을 활성화

플랫폼 및 센터에서 수집된 데이터를 플랫폼 간 또는 센터들과 연계하기 위해 데이터 연계키가 반드시 필요하고 표준화가 되어야 합니다. 이를 통하여 서로 다른 분야별 다양한 데이터를 연계 융합하여 빅데이터 서비스 확산이 가능합니다. 다양한 분야에서 공통으로 활용할 표준 연계키에 대한 발굴과 관련 표준 포맷의 지정 필요하여 그간 활용이 많았던 ‘사람’, ‘기업’, ‘공간’ 및 ‘시간’ 영역으로 구분하여 표준 연계키를 우선 발굴하여 활용할 예정입니다.

이제 빅데이터 클라우드의 활성화를 준비해야할 중요한 시점

빅데이터, 인공지능(AI), 5G서비스 등의 활성화를 위해서는 원스톱으로 데이터를 분석하고 학습하며 서비스로 제공할 수 있도록 튼실한 기반 인프라로 빅데이터 클라우드 서비스의 활성화가 필요합니다. 빅데이터 클라우드 서비스는 기존 데이터 저장 개념에서 확장되어 데이터 수집·가공·분석·시각화는 물론 AI학습, 서비스 제공까지 클라우드 서비스로 제공하는 개념입니다.

그동안 빅데이터 기술은 매우 빠르게 발전해 왔습니다. 요즘은 센서, 이미지, 영상 등 다양한 비정형 데이터를 실시간 분석하고 딥러닝, 시각화하는 기술까지 오픈소스 방식으로 너무나도 잘 개발되어 배포되고 있습니다. 외국에서는 아마존, 마이크로소프트사 등 우수기업들이 이러한 빅데이터 분석, 딥러닝, 시각화 기술들을 클라우드 서비스에 잘 접목시켜 빅데이터 클라우드 서비스로 제공하여 누구나 쉽게 데이터를 다루고 수준 높은 빅데이터·AI서비스를 만들어 낼 수 있는 환경을 제공하고 있습니다.

하지만 우리나라는 이러한 기술들을 활용하는 능력이 부족한 상황입니다. 따라서, 기존의 저장소 개념의 클라우드에서 오픈소스로 제공 중인 우수한 빅데이터 기술들을 탑재한 빅데이터 클라우드 서비스를 플랫폼에서 활용하는 것이 시급합니다. 앞으로 플랫폼에서도 빅데이터 클라우드를 잘 갖춘다면 성능 좋은 빅데이터 서비스를 신속하게 개발해 제공할 수 있을 것입니다.

현재 빅데이터 클라우드 서비스에 활용될 수 있는 국내 오픈 데이터 플랫폼으로는 한국전자통신연구원에서 국책과제1)로 개발 중인 SODAS(Smart Open Data As a Service) 플랫폼이 있습니다. SODAS는 국제 표준인 DCAT를 활용해 수많은 기관 간에 데이터셋을 상호 공유하며 클라우드 기반으로 데이터를 수집·분석·활용하고 품질 및 유통 등을 관리할 수 있도록 아키텍처가 구현되어 국내 플랫폼 활성화에 활용 및 참고할 만합니다.

우리나라가 핵심기술은 미흡하지만 2000년대 통신 인프라를 잘 만들어 초고속인터넷, BcN, 스마트폰 시대를 거쳐 ICT의 많은 성과와 발전을 만들어 냈듯이 이제 좋은 데이터로 다양한 혁신 서비스를 만들어 낼 수 있도록 빅데이터 클라우드의 활성화를 준비해야 할 중요한 시점이 되었습니다.

TopBtn
TopBtn

(35220) 대전광역시 서구 한밭대로 713(월평동) 통계센터 통계교육원 | E-mail : stimaster@korea.kr

Copyright(c)2014 Staticstis Training Institute. All Rights Reserved.