• 통계광장
  • 박근화
  • 한국문화관광연구원 팀장

문화관광 분야에서의
빅데이터 활용

빅데이터의 이해

2016년 세계 경제 포럼(WEF: World Economic Forum)에서 ‘제4차 산업혁명’이란 용어를 사용하면서, 지금의 시대는 산업혁명시대로 지칭되고 있다. 4차 산업혁명은 인공지능, 사물인터넷, 빅데이터, 클라우드 등 첨단 정보통신기술(IT : Information Technology)을 기반으로 다양한 분야들이 융합되어 혁신적인 변화를 일으키는 것을 의미한다. 이 중에서 빅데이터(Big data)는 최근 몇 년 동안 사회에서 큰 주목을 받고 있는데, 그 이유는 사회변화와 IT발전으로 데이터가 기하급수적으로 증가했지만, 활용하지 못하고 쌓여만 있던 데이터를 새로운 가치 있는 정보로 제공할 수 있기 때문이다.

빅데이터는 사회변화와 IT기술의 발달로 인해 기하급수적으로 증가했지만 활용되지 못했던 데이터를 정제 및 가공 분석을 통해 새로운 가치있는 정보로 만들 수 있는 데이터라 할 수 있다. 따라서 대용량의 데이터를 저장하고, 이를 분석할 수 있는 기반시설 및 기술이 필요하다. 또한 기하급수적으로 증가하는 데이터를 시의성 있게 활용하기 위해서는 빠르게 데이터를 정제하고 가공·분석하는 것이 중요하다. 그리고 기술의 발달로 정형화된 데이터가 아닌, 영상/그림(image), 음성(voice), 글자(text) 등 비정형데이터의 패턴 등을 분석하여, 기존의 전통적인 통계분석 방법과 차별화된 정보를 제공함으로써 더욱 가치있는 정보를 우리에게 제공하고 있다.

이러한 이유로 빅데이터를 구성하는 요소를 크기(Volume), 속도(Velocity), 다양성(Variety)으로 규정하고 있다. 또한 빅데이터의 목적은 가치(Value)있는 정보를 제공하기 위한 것이기 때문에, 최근에는 데이터의 절대적인 크기(Volume)가 아닌 정보 가치의 크기를 빅데이터의 주요 요소로 보기도 한다.

문화관광 분야에서의 빅데이터 필요성

문화관광 분야는 전통적인 방법으로 통계를 생산하여 왔다. 문화와 관광은 개인의 인식에 따라 인지하는 정도가 다르기 때문에, 외형적 행동 등을 가지고 직관적으로 구분하는 것이 어렵다. 예를 들어 국민의 여가시간을 파악한다고 할 때, 여가시간을 보내고 있는지는 본인만이 판단할 수 있다. 핸드폰으로 문자를 보내는 경우, 친구와 대화를 한다면 여가로 볼 수 있지만, 직장 또는 업무 담당자와 업무에 대한 문자를 주고받는다면 여가로 볼 수 없기 때문이다.

관광도 일상생활지역을 벗어나 다른 지역에서 관광활동이나 휴식활동을 하는 경우를 의미하며, 여행은 일상생활지역을 벗어나 다른 지역으로 관광, 출장, 친지방문 등을 의미한다. 이러한 경우, 일상생활 지역은 사람마다 다를 수 있는데, 집이 서울이고, 직장이 나주에 있어 광주에 전세를 살고 있다면 서울과 나주, 광주 모두 일상생활지역에 해당된다. 출장지역의 경우에도, 특정지역을 지속적으로 갈 경우이 지역은 일상생활지역으로 볼 수 있다. 따라서 문화관광 분야는 빅데이터(행정자료 포함)로 통계를 산출하는 것이 매우 어렵다.

그러나 조사자료는(survey data)는 기준년도에 비해 공표되는 시기의 차이가 발생하기 때문에 시의성이 떨어져 중요하고 시급한 이슈가 발생했을 때 판단근거로 삼기에는 어려움이 있다. 과거의 메르스시기에서나, 최근의 코로나19 등과 같이 문화생활을 영위하거나 관광활동을 저해하는 상황이 발생하였을 경우 빠르게 현황을 파악하고, 상황을 진단한 후, 문화관광 정책을 시행할 수 있는 기초자료가 필요하지만 조사자료는 시의성이 시급한 경우에 활용할 자료가 없는 경우가 있어, 정책 활용에 한계가있다.

이러한 이유로 문화관광분야에서도 최근 공공의 행정자료와 민간의 행정자료인 빅데이터(본 원고에서는 빅데이터를 민간과 공공에서 생산되는 행정자료로 정의) 를 활용하는 경우가 증가하고 있는데, 코로나19 이후에는 더욱 세밀하게 빅데이터를 분석하여 활용하고자 하는 경향이 증가하고 있다. 특히, 코로나19로 인해 개인이 관광 목적인 해외여행뿐만 아니라 국내여행도 감소됨에 따라 관광산업 역시 침체되어, 이에 대한 상황을 빠르게 파악할 수 있는 정보(또는 데이터)가 필요하다. 시급한 상황에서는 가능한 주기가 짧으며 지속적으로 생산되는 데이터가 필요한데,빅데이터가 그러한 특성이 있어 활용하기에 적합하다.

문화관광 분야에서 주로 활용되는 빅데이터

현재 문화관광에서 주로 사용하는 빅데이터는 신용카드데이터와 이동통신데이터이다. 지속적으로 생산되고 있으며, 기존에 생산되고 있지 않은 정보를 제공하고 있다는 점이 이들 데이터를 활용하는 주된 이유라 할 수 있다. 이들 데이터는 생산의 지속성 때문에, 데이터 가공 주기를 시간, 일, 주, 월 단위 등으로 정해 통계를 생산할 수 있다. 따라서 필요한 시기와 기준을 지닌 데이터를 실시간(real time)으로 활용하여 통계를 생산할 수 있으므로 시의성이 매우 좋은 통계자료 제공이 가능하다. 이 중에서 신용카드데이터는 지출액을 다양한 업종이나 품목으로 제공하기 때문에, 문화 또는 관광 소비 분석에서 실제 소비가 잘되고 있는 업종(품목)과 그렇지 않은 업종(품목)을 구분할 수 있다. 시간의 흐름에 따라 각 업종(품목)의 지출액 변화를 실시간으로 파악하여 현황을 진단할 수 있어 활용성은 매우 높다고 할 수 있다.

이동통신데이터는 관광분야 또는 특정 시설의 방문객 등을 파악하는데 주로 이용하고 있다. 이동통신 데이터는 출발지(Origin)와 도착지(Destination)를 파악할 수 있는 데이터이기 때문에, 이동에 대한 경로를 파악하기에 매우 적합한 데이터이다. 관광에서는 여행경로를 분석하고자 하는 요구가 지속적으로 있어왔는데, 이러한 여행경로는 기존 조사통계를 이용하여 파악하기에 한계가 있는 것이 사실이다. 출발지와 도착지의 관계를 통해 여행경로 분석을 실시하여 지자체별로 관광객 유치 등의 관광정책에 활용할 수 있도록 OD(출발-도착)통계를 생산할 수 있다.

또한 특정관광지, 축제장소, 문화시설 등에 얼마나 많은 인원이 오는지를 파악하는데도 이동통신데이터는 유용하게 사용된다. 이동통신데이터는 휴대폰을 이용하여 측정하기 때문에, 재방문, 이용시간, 어느 지역에서 왔는지 등을 파악할 수 있어, 방문객들의 특성을 분석하거나 시설 활용도 등의 계획을 세울 경우에도 유용하게 사용된다. 방문객들이 어느 지역에서 오고 얼마나 시설에 머물다 가는지, 재방문하는 비율은 어느 정도 되는지 등을 파악할 수 있다면 마케팅 등에 활용하기 매우 좋은 정보가 될것이다.
이 외에 문화와 관광분야에서 많이 사용되는 빅데이터를 살펴보면, 법무부 출입국·외국인정책본부에서 작성하는 출·입국자 현황자료, 영화진흥위원회에서 제공하는 영화관입장권통합전산망의 영화관련 데이터, 예술경영지원센터의 공연예술통합전산망의 공연 관련 데이터, 한국공항공사와 인천국제공항공사에서 제공하는 항공통계 등은 문화와 관광에서 자주 사용하게 되는 데이터이다. 관광에서는 날씨 데이터도 중요하게 사용되는 자료이다

문화관광 분야에서 빅데이터 활용

관광분야에서 신용카드데이터를 처음 분석한 것은 2013년도의 ‘외국인 신용카드 국내지출액 현황’인데, 현재까지 한국문화관광연구원에서 반기별로 생산하여 문화셈터(http://stat.mcst.go.kr/)를 통해 제공하고 있다. 외국인이 국내에서 사용한 신용카드(VISA, MASTER, AMERICAN EXPRESS, JCB, 은련3))사의 지출자료를 가공하여 지출액 현황을 작성하고 있다4). 통계작성을 위해 대륙과 주요국가를 우리나라에 많이 오는 국가 위주로 조정하였으며, 업종은 쇼핑, 숙박, 음식, 의료, 교통, 체험, 스포츠 등으로 구분하였다.

[그림 1]에는 2020년도에 작성한 2019년도의 외국인 지출액 현황을 제시하고 있는데5), 이 자료를 통하여, 국가별 지출액 현황과 국내에서 많이 지출하는 장소와 품목 등을 파악할 수 있었으며, 관광목적으로 입국한 외국인과 사업(business)목적으로 입국한 외국인의 지출패턴 등을 분석할 수 있었다.

[그림 1] 외국인의 국내 지출액과 업종별 지출액 현황


<연도별 지출액 분석>




<업종별 지출액 현황>

[그림 2]는 코로나19로 인하여 관광·콘텐츠·문화예술 분야에서 지출액의 변화를 파악하고자 만든 지표이며, 주간단위로 통계를 산출하고 있어, 주단위로 변화를 파악할 수 있다. 2019년도와 2020년도의 지출액을 같이 비교할 수 있도록 작성하고 있기 때문에, 2021년도의 지출액을 코로나 이전과 비교해서 어느 정도 회복되었는지 아니면 더 심각해졌는지 등을 파악할 수 있도록 분석한 것이다. 이를 살펴보면 2021년 3월 현재 관광·콘텐츠·문화예술 분야는 최근 지출액이 증가하고는 있지만, 아직 코로나 이전에 비해 여전히 소비가 감소한 상태로 이뤄지고 있음을 알 수 있다.

[그림 2] ‘21년 3월 관광·콘텐츠·문화예술 관련 신용카드 지출액 추이 분석

[그림 3]은 우리나라 국민이 신용카드로 사용한 여가 관련 지출을 분석한 것인데, 신한카드사에서 제공한 데이터를 가공 분석하여 활용하고 있다. 카드사의 결과를 한국은행의 지급결제통계를 기준으로 반복비례가중법을 활용하여 세부 지출액을 추정하여 사용하고 있다. 여기서는 실제 여가활동을 하였는지는 알 수 없지만, 여가와 관련된 업종 또는 품목이라면 여가로 구분하여 과거와의 추이를 제시하여 변화를 분석하고 있다. 신용카드데이터는 카드이용자들의 정보를 가지고 있기 때문에, 인구통계학적인 측면에서 다양한 차원(dimension)으로 분석이 가능하다.

[그림 3] 2019년 국민여가 관련 신용카드 지출액 현황

<전체 국민여가 신용카드 지출액>
<여가부문별 신용카드 지출액>

<성별>
<연령별>

[그림 4]는 이동통신데이터를 이용하여 관광정보를 파악하고자 하는 것으로 광역지자체 방문자수를 주별 전국단위로 생산한 현황을 나타낸 것이다. 상단의 스크롤(scroll)을 움직이면 이용자가 지정한 기간동안의 주별, 월별로 누적된 방문자수의 현황을 제공한다. 지역별로 문자수가 많으면 진하게 나타나고, 방문자수가 적으면 흐리게 나타나도록 하였다. 현지인과 외지인, 외국인을 구분하였으며, 해당기간의 외지인과 외국인의 비중이 나타나도록 하였다. 이동통신데이터 역시 가입자 등의 정보를 사전에 가지고 있으며, 방문한 지역의 기지국을 통해 파악이 가능하기 때문에, 주로 머무르는 장소와 일시적으로 머무르는 장소 등을 구분하여 분석할 수 있다. 따라서 이용자들의 특성 분석과 새로운 지역의 방문 등을 분석할 수 있다.

[그림 4] 광역지자체 방문자수

[그림 5]는 영화관입장권통합전산망(http://www.kobis.or.kr/)에서 취합하여 한주간의 매출액과 관객수를 제시한 지표를 그래프로 나타낸 것이다. 전년도와 당해년도를 비교하고, 전주와 이번주를 비교하도록 구성하였다. 영화 현황에 대해 전체, 국내, 해외 등으로 이용자가 구분하여 살펴볼 수 있도록 하였다.

[그림 5] 한 주간의 영화 매출액과 관객 수 현황

<전체>
<한국 영화>
<외국 영화>

빅데이터 활용의 한계와 유의점

지금까지 살펴봤듯이 빅데이터는 전통적인 통계에 비해 생성주기가 짧고, 실시간으로 정보를 파악할 수 있는 장점이 있다. 따라서 사회·경제적 변화를 쉽게 파악할 수 있으므로, 현재의 상황을 점검하는데 매우 유용하다. 이러한 이유로, 빅데이터를 통계로 만들어 활용하고자 하는 수요가 증가하고 있다.

그러나 많은 빅데이터는 실제 관광과 문화의 통계(또는 지표)를 생산하기 위해 마련된 데이터가 아니고, 신용카드 지출액 또는 모바일을 가지고 이동하면서 기지국과 교신하는 결과가 자동적으로 쌓여서 생기는 데이터이다. 따라서 값 그대로 이용하면 관광과 문화의 정보를 얻기 어렵기 때문에, 관광과 문화로 이용할 수 있도록 조작적 정의를 통해 가공이 이뤄져야 제대로 활용할 수 있다. 예를 들면, 이동한 결과는 여행이 아니다. 여행은 일상지역을 벗어나서 다른 지역에서 이뤄지는 행위이기 때문에, 일상지역을 정하는 규칙을 마련해야 한다. 밤에 머무르는 곳은 대부분 집이기 때문에, 밤 상주지역을 정하는 규칙을 마련해야 하며, 낮에 머무르는 곳은 회사 또는 학교 등이기 때문에 낮 상주지역도 정하는규칙을 마련해야 한다. 이렇게 규칙을 정한 경우를 살펴보면 ‘한달에 밤과 낮 3시간 이상 8회 이상 머무른 곳’을 일상거주지역으로 판단하기로 조작적 정의를 세웠다면, 향후 이 지역은 일상 거주지역으로 판단하여 이 지역의 사람이 다른 지역으로 이동했을 경우에만 여행으로 판단하게 된다.

문화와 관광의 정보를 얻기 위해 조작적 정의를 하였다고 하더라도, 통계로 활용하는 데는 한계가 있다. 실제 여가생활 또는 관광활동이 이동이나 지출행위 등으로 이뤄지는 것은 아니며, 본인의 인지 등이 중요한 요인이기 때문에, 조작적 정의를 잘 했다고 하더라도 정확한 통계를 산출했다고 말하기에는 어려움이 있다. 그러나 적절한 조작적 정의를 통해 지속적인 데이터의 변화를 살펴볼 수 있다면, 정확한 것과 상관없이 매우 중요한 정보로서 가치는 충분하다. 이러한 이유로 빅데이터는 통계로 생산하여 활용하는 것도 중요하지만, 살아있는(active) 정보 그 자체로 활용하는 것만으로도 충분한 가치를지닌다.

이 외에도 빅데이터는 시간의 흐름에 따른 변화를 알 수 있는 정보를 제공하는 좋은 점이 있음에도 불구하고, 아쉬운점은 대부분 단일 변수만 생성된다는 점이다. 물론, 성별, 연령 등의 정보도 같이 제공되지만, 이들 변수들은 분석하는 단위로 사용되므로, 실제 단일 정보로 활용하는데 한계가 있다. 이와달리 전통적 통계인 조사데이터(survey data)는 시의성의 한계와 데이터크기(data size)로 인해 공표범위의 문제는 있지만, 한 번의 조사에서 다양한 정보를 같이 활용할 수 있도록 하는 장점이 있다. 따라서 어떤 행위나 사건(fact)에 대한 원인을 규명할 수 있는 것은 물론 향후의 변화까지 연결하여 분석할수 있다. 빅데이터가 많은 정보를 줄 수 있다면 너무나 좋겠지만, 대부분이 행위나 결과(fact)만을 제공하고 있기 때문에 그 원인을 파악하는 것이 또 하나의 중요한 과제가 되며, 원인을 파악하였을 때, 새로운 business rule로 활용할 수 있게 된다.

빅데이터는 대부분 자동적으로 데이터가 생산된다. 신용카드데이터의 경우 과거에도 현재에도 미래에도 소비행위가 진행되면 카드결제가 이뤄지고, 카드결제가 이뤄지면 카드이용내역이 쌓이고, 이 결과들은 빅데이터로 나타날 것이다. 이러한 빅데이터는 살아있는(active) 데이터라고 할 수 있다. 따라 데이터를 어떻게 보느냐에 따라서 값들이 달라진다. 조작적 정의에 의해서도 달라지고, 주기를 조정하여도 값이 변화한다. 이렇게 실시간으로 변화하는 빅데이터를 정지된(static) 데이터로 사용하는 경우가 많다. 빅데이터를 활용하는 대부분의 경우 특정 시점의 값이 얼마인지를 파악하는데 활용하고있다. 이는 빅데이터의 가치를 제대로 활용하지 못하는 것이라고 할 수 있다. 빅데이터는 고정된 통계로 활용하는 것이 아닌, 능동적으로 변화하는 특성을 파악하여 분석하고, 예측 등에 활용될 때 제대로 된 가치를 보여준다.

문화와 관광분야에서 빅데이터의 활용방안

앞서 언급한 것처럼 빅데이터는 정확한 통계를 생산하기 보다 값들의 변화를 파악하고 분석하여 중요한 이슈로 제시하거나, 올바른 의사결정에 필요한 정보를 제공한다. 또한 어떤 행위의 사실(fact)을 하나의 값 또는 여러 개의 값으로 제공하기 때문에 그 원인을 파악하기 위한 또 다른 정보가 필요한 경우가 많다. 무엇보다 빅데이터의 가장 중요한 특성인 변화하는 데이터를 잘 이용할 수 있는 것이 중요하다.

따라서 제대로 된 빅데이터의 활용을 위해서는 서로 다른 데이터의 상호연계가 매우 중요하다. 데이터 3법(개인정보 보호법, 정보통신망법, 신용정보법) 개정을 통해 가명정보 등을 이용하여 서로 다른 데이터와 연계하는 것이 가능해진 만큼 이를 이용할 수 있는 방안을 마련하는 것이 중요하다. 그러나 빅데이터 간의 결합은 아직 어려움이 많으며, 특히, 조사데이터는 응답자들에게 개인정보 이용에 대한 동의를 받아야 되는 문제가 남아있다.

빅데이터간의 결합은 너무나 큰 데이터가 생성되기 때문에, 결합 후에도 분석 등과 같은 활용성에 큰 어려움이 있다. 개인정보 문제 등으로 인해 데이터베이스를 이용한 결합이 아닌 하나의 완전한 데이터로 결합해야 하기 때문에, 결합한 데이터의 용량은 기하급수적으로 증가하고, 결합 후에는 분석할수 있도록 새롭게 데이터를 분해하는 등의 과정이 필요하다. 이러한 대용량 데이터를 저장할 시스템이나 기술(분석도구 등)을 보유한 기관은 많지 않아 활용에 어려움이 크다.

본 원고에서는 빅데이터와 조사데이터간 결합의 중요성을 강조하고자 한다. 조사데이터와 빅데이터의 결합 또는 연계분석은 매우 활용성이 클 것으로 생각된다. 조사데이터는 예산과 시간 등의 표본데이터가 지니고 있는 한계로 소지역(small area) 통계 등의 세부적인 분석은 어렵지만, 구조화된 조사표의 조사항목 중 해당 통계의 값을 통해10), 현황 및 실태에 대한 인과관계를 파악할 수 있다. 이에 반해 빅데이터는 실시간으로 변화하는 값을 파악하는데 용이 하지만, 결과의 인과관계 등을 파악하는데 어려움이 있다. 따라서 빅데이터와 조사데이터를 상호 연결할 수 있다면, 정확한 모집단 값의 파악이 가능하며, 결과에 대한 인과관계 분석도 가능할 것이다.

변화하는 데이터란 빅데이터 특성은 미래를 예측하거나, 세분화(segmentation)된 분석을 할 때 유용할 것으로 생각된다. 능동적인 데이터는 변화를 예측하고 개개인(또는 작은 잡단)의 단위로 값들을 제공하고 해석할 수 있을 때 의미가 있다. 예를 들면 기업은 고객세분화를 통해 고객 개개인별로 맞춤형마케팅 정보를 실시간으로 제공함으로써 큰 효과를 기대할 수 있다. 최근에는 인공지능(AI)기법을 적용하여 이러한 고객분석방법을 확대하고 있다.

문화관광분야에서는 직접적인 데이터 연계를 통해 다양한 분석을 하고자 하는 노력하고 있다. 박근화 외 5인(2018)의 연구진은 신용카드데이터와 기상청데이터를 연계하여 날씨정보에 따른 여행지 또는 관광지의 소비지출 차이를 분석하는 연구를 수행하였다. [그림 6]은 연구방법을 제시한 것이며, 날씨 따라 여행지 또는 관광지에서의 신용카드지출액 차이가 발생한다는 결과를 도출하였다. 즉, 날씨가 여행 또는 관광 관련 지출 활동에 영향을 미치고 있음을 제시하고 있다.

[그림 6] 신용카드데이터와 기상청 데이터의 연계방법

다음은 국민여행조사 데이터와 빅데이터를 연계하여 분석하는 것을 시도한 사례인데, 직접적인 연계는 조사데이터의 응답자들에게 개인정보 이용 동의를 받지 못했기 때문에, 지역단위로 데이터를 결합 또는 연계하여 분석하였다. 국민여행조사는 월 4,200표본을 조사하고 있지만, 초지자체인 시·군 단위의 통계는 생산하지 못하고 있다. 이러한 이유로 조사데이터를 정답으로 두고, 이동통신데이터와 인구통계 데이터 등을 연계하여 소지역 단위의 통계를 생산하였다. [그림 7]은 소지역 단위의 통계를 생산한 결과물로 시·도단위의 OD(출발-도착)통계를 생산한 것이다.


[그림 7] 시도단위의 여행회수의 출발-도착 통계

문화관광분야의 통계는 대부분 1년 단위로 조사하여 통계를 생산하고 있는데, 시의성 문제와 함께 표본수의 문제로 소지역(small area)단위 또는 소영역(small domain)단위의 통계는 생산하지 못하고 있다. 그리고 문화관광분야의 소비지출 관련 통계는 현재 매우 부족한 실정이다. 이러한 이유로 신용카드데이터와 이동통신데이터를 활용하고 있지만, 빅데이터의 중요한 특성인 변화를 제대로 활용하지 못하고 통계값으로만 이용하는데 그치고 있다. 향후에는 다양한 데이터의 상호연계와 가공 등을 통해 여러 유형의 정보를 활용할 수 있는 방안을 마련해야 할 것이다.

또한 문화관광 분야에서도 분석방법을 인공지능(AI)기법 등으로 확대 및 적용하여 예측과 세분화된 정보를 보다 정교하게 제공할 수 있도록 지속적인 연구가 필요할 것이다. 이러한 방법을 적용하기 위해서는 데이터 수집 및 분석 등과 같은 전문가들을 양성하고, 대용량 데이터를 분석할 수 있는 환경을 제공하는 것이 필요하다. 특히 문화관광분야는 IT기술이 아직 직접적으로 적용되지 않은 영역이라 할 수 있다. 따라서 신기술과 이를 활용할 수 있는 환경이 문화관광분야에도 조성되야 할 것이다.

PageTopBtn

(35220) 대전광역시 서구 한밭대로 713(월평동)
통계센터 통계교육원 | E-mail : stimaster@korea.kr

Copyright(c)2014 Staticstis Training Institute.
All Rights Reserved.