- FOCUS
- 이은경
- 전북대학교 과학학과 교수
만인이 데이터 생산자 시대로의
진화와 데이터 문해력
“나에게 아주 긴 지렛대와 이를 지탱할 수 있는 받침대만 있다면, 나는 지구도 들어 올리겠다” 지렛대의 원리를 발견한 고대 그리스의 수학자이자 물리학자, 아르키메데스의 말이라고 전해진다. 현상 밑에 있는 법칙을 알면 겉으로 불가능해 보이는 문제도 원칙적으로 해결할 수 있다는 메시지를 전달할 때 자주 인용되는 말이다. 한 데이터 과학자는 이 말의 2022년 버전으로 다음과 같이 말했다. “회사의 데이터를 달라, 그럼 문제를 풀어주겠다.”
시대별로 중요한 문해력은 다르다
사회 구성원으로서 삶을 살아갈 때 꼭 필요한 최소한의 정보를 얻고 이용할 수 있는 기본 능력 중 하나가 해당 분야의 문해력(literacy) 또는 소양이다. 만일 데이터를 주면 어떤 문제든지 풀 수 있는 사회라면 데이터 문해력 또는 데이터 소양은 사회생활을 위한 기본 능력 중 하나가 되어야 한다. 데이터 과학 전문가가 될 사람, 일상 업무와 생활에서 데이터를 다루고 데이터 관련 정보와 해석을 이용할 사람, 본인이 데이터를 활용한 업무를 직접 하지는 않지만 각종 미디어에서 데이터 관련 정보를 접할 사람까지 필요에 맞게 단계적인 교육이 필요하다. 데이터 문해력의 범위를 어디까지로 할 것인지는 분명하지 않지만 쉽게는 문자 문해력과 비슷한 정도로 이해할 수 있을 것이다. 문자 문해력은 문자 해독 능력 즉, 읽고 쓰는 능력과 나아가 글을 읽고 그 뜻을 추론할 수 있는
독해 능력까지 포함한다. 데이터 문해력은 데이터의 특성에 대한 이해, 데이터를 분석하고 그 결과를 읽는 능력, 자신이 생산하는 데이터를 관리할 수 있는 능력에서 시작하여 데이터를 기본으로 문제를 해결하는 기술적인 활용능력과 전문 영역으로 이어진다. 사회의 주요 정보가 어떤 형태로 제공되는가에 따라 기초 소양으로서 필요한 문해력의 종류가 달라진다. 문자 문해력이 교육의 기본이 된 것은 인쇄술이 발전하고 도시화되면서 많은 필수 정보가 문자로 제공되었기 때문이었 다. 그에따라 공적인 보편 교육 제도가 도입되기 전에 이미 교회에서 운영하는 주일학교 등을 통해 평범한 가정 의 아이들에게 읽고 쓰기를 가르치기 시작했다. 산업혁명기 이후에는 사회를 끌고 가는 새로운 힘으로서, 생산현 장에서의 문제를 해결하는 강력한 수단으로서 과학이 중요성을 가지게 되었다. 과학 문해력이 중요해진 것이다. 근대국가에서 도입한 보편 초중등 교육에 과학 교과목이 포함되기 시작했고, 과학 문해력이 강조되었다. 아동과 성인을 위한 대중용 과학서적이 출간되었고 과학 강연의 인기가 높았다. 영국 화학자 험프리 데이비의 과학 강연에는 런던의 상류층 부인들이 참여했고, 마이클 패러데이의 크리스마스 과학 강연은 아동, 청소년들에게 특히 큰 인기를 끌었다.
20세기를 통해 과학 문해력을 강조하는 움직임은 계속되었다. 특히 20세기에는 과학기술이 국가 경쟁력의 핵심 요소 중 하나가 되었기 때문에 세계 각국의 정부는 정규교육을 보완하는 각종 대중 과학 프로그램을 학교 안팎에서 실시했다. 같은 배경에서 과학 문해력 증진을 위한 프로그램의 접근성을 높이기 위해 과학관 등의 전문 기관을 확대하고 대중매체를 적극 활용했다. 뿐만 아니라 과학과 예술, 과학과 문화를 접목하는 융합적인 프로그램을 개발하여 과학의 여러 특성과 잠재성을 다양하게 제공하려는 노력을 기울였다.
데이터의 진화와 문해력
정보화 사회의 성숙, 디지털 기술의 발전과 함께 우리는 데이터가 폭증하는 시대를 살고 있다. 자연스럽게 과학 문해력 다음으로 데이터 문해력이 중요하게 되었다. 데이터 문해력을 구성하는 내용은 데이터의 내용, 형식, 데 이터를 다루는 기법과 기술의 발전, 데이터 활용 목적의 변화 등에 따라 변화해왔다. 데이터 문해력 하면 제일 먼저 떠올리는 것은 많은 숫자로 된 데이터를 통계처리한 결과를 이해하는 능력일 것이다. 데이터는 사실, 개념, 사건 등을 나타내는 정보의 단위이고, 오랫동안 숫자로 표시되었다. 가장 원시적인 형태의 데이터는 단순 기록, 또는 자료에 가까웠다. 부유층이나 권력층의 재산, 세금, 군수 물자 기록 또는 교구의 인구기록 등이었다.
근대과학은 정보의 단위로서의 개념을 가진 데이터를 수집, 생산하고 활용하는 방법을 개발함으로써 객관적 기초로서 데이터의 가치를 확립했다. 천문학자들은 천체 현상을 정밀하게 관측한 데이터를 축적하고 이를 과학 원리에 맞추어 분석함으로써 천체의 운동 법칙을 밝히려고 노력했다. 코페르니쿠스가 제안한 태양중심설은 당시의 종교적 우주관은 물론 일상의 경험과도 잘 맞지 않았지만, 과학자들이 정밀한 천체관측 데이터를 신뢰한다면 받아들일 수 밖에 없는 결론이었다. 이후 물리학, 화학 등에서 실험을 방법론으로 도입하면서 일반 관찰이 아니라 정교하게 설계된 실험으로부터 데이터를 생산하게 되었다. 실험 데이터는 새로운 법칙을 발견하는 양적 기초가 되거나 과학 가설을 검증하는 양적
근거가 되었다. 일부 현상에서 과학자들이 통계 기법을 수용하자 이전에 양적으로 다루기 어렵던 영역에서도 연구 성과를 낼 수 있었다. 예를 들어 고전역학의 방법으로는 3개 이상의 물체들 사이에 힘이 작용할 때의 운동방 정식을 수학적으로 풀기 매우 어렵다. 대안으로서 통계학 발전 성과를 받아들인 과학자들은 불규칙해 보이는, 엄청난 수의 공기 분자들의 운동을 다루는 통계역학의 법칙을 찾아낼 수 있었다. 또다른 예로서 멘델은 완두콩의 유전 형질을 구분하고 여러 대를 거쳐 재배한 결과를 통계적으로 다루어 당시까지 질적으로만 이해하던 유전 현상을 양적으로 규명한 멘델의 유전법칙을 발견했다.
사회과학은 자연과학의 방법론, 즉 양적 데이터에 기반하여 복잡하고 주관적으로 보이는 사회 현상의 기저에 깔린 법칙과 구조를 밝혀낼 수 있게 되었다. 경제학자들은 축적된 정보기록을 데이터로 간주하고 이를 통계적으로 분석하여 경제법칙을 확립했다. 그 선구자 중 한 명인 아담 스미스가 ‘근대경제학의 아버지’로 불리는 이유다. 데이터의 통계 분석은 이후 개인의 행위, 사회 관계, 나아가 인간심리에 대한 연구로 확대되었다. 사회과학자들은 수집된 데이터 분석에서 더 나아가 마치 과학자들이 실험을 통해 관심있는 현상에 대한 데이터를 생산하듯 설문조사, 사회실험을 통해 데이터를 생산하기 시작했다. 특히 설문조사 방법론이 정립된 후에는 국가, 사회, 지역, 조직, 특정 인구집단 등으로 세분화하여 사회적, 인식적 특성을 파악할 수 있게 되었다. 1,000명, 또는 10,000명 등 전체 인구 대비 극히 작은 수 의 사람들에게 설문조사를 한 결과를 통해 전체 여론을 파악하고 그 결과를 신뢰하게 된 것은 다 양적 방법론에 대한 신뢰에서 비롯되었다.
데이터를 통해 사회현상을 이해하기 위해서 사람들은 숫자를 사회현상, 가치평가, 관계의 특성 등으로 전환하여 인식할 수 있는 능력을 가져야 한다. 예를 들어 어떤 정당에 대한 지지도가 30%라는 설문결과 또는 한 사회의 평균 수명이 80세라는 인구통계 분석을 접했을 때, 숫자 30과 80은 사람들의 머릿속에서 정치적 입장에 대한 호불 호, 노령인구의 건강과 보건복지 정책 등 추상적인 내용으로 번역되어야 한다. 숫자가 같아도 번역결과의 함의는 사람마다 다를 수 있다. 과학자, 사회과학자, 통계 분석가들은 분석 결과의 의미를 더 쉽고 분명하게 제시하기 위해, 표나 분석 결과를 시각화한 각종 그래프와 다이어그램을 도입했다. 시각화된 자료는 데이터 소비자의 이해를 돕는 기능을 하면서 동시에 그래프 축과 간격, 비율 등을 통해 해당 결과 생산자의 해석과 의도를 전달하기도 한다. 그래서 의도하지 않았다 하더라도 단순화에 따른 데이터 누락, 과장, 오해의 소지가 있다는 점을 데이터 생산 자와 소비자 모두 이해할 필요가 있다.
이와 같은 데이터의 종류, 수집 또는 생산방식과 그에 따른 데이터의 특성, 분석 결과의 해석 또는 의미 파악 과정에 대한 이해가 데이터 문해력의 기본이 되어야 한다. 그 기초 위에서 데이터를 분석하는 기술과 기법을 익히고 문제를 푸는 연습이 이루어져야 한다. 그런데 현실에서는 ‘문제풀이’에 더 집중하는 것 같다. 우리는 초중등 교육과정에서 기초 교육으로서 수학을 12년간 공부한다. ‘수포자’라는 말이 따로 있을 정도로 수학을 어려워하고 대학 진학 또는 사회 진출 이후 직무 관련성이 없으면 수학에서 배운 것을 실제 접하거나 써먹을 기회가 많지 않다. 가장 두드러진 예외가 확률과 통계다. 데이터의 시대에 살고 있기 때문이다.
학교 교육에서는 입시 때문에 확률과 통계 과목 시간에 ‘계산’하는데 집중하는 경향이 있고, 오히려 위에서 말한 데이터와 통계의 특성, 기능, 그리고 결과를 나타내는 방식에서 나타날 수 있는 여러 해석 및 오해의 가능성에 대해서는 거의 다루지 못한다. 사실 비전공자에게 필요한 데이터 문해력은 수학능력시험의 수리영역이 아니라 언어, 사회 영역의 문항을 해결하거나 언론 기사를 읽고 이해하는 데 필요한 능력에 더 가깝다.
데이터 생산자의 문해력
데이터 문해력과 관련하여 새로운 이슈는 데이터 생산과 관리 문제다. 이전의 데이터는 인구센서스, 경제통계, 또는 설문조사처럼 특정한 목적과 의도에 따라 관련자들에 의해 수집되거나 생산되었다. 반면 이제는 대중 일반이 일상에서 매일 생산하는 수많은 정보들을 의미있는 데이터로 활용할 수 있는 기술과 분석기법이 개발되었다. SNS에 개인이 올린 사진이나 글, 각자의 필요에 따라서 이루어지는 검색의 키워드, 각종 기관이나 웹사이트에 가입할 때 입력한 신상정보 등은 원래 특정 목적을 위한 데이터로 생산되지는 않았다. 그러나 정보가 디지털화되어 쉽게 이전이 가능해졌고, 데이터마이닝 등의 기법 덕분에 이러한 ‘의도없이 생산된 정보’가 데이터로서 활용가능해졌다. 단순히 활용가능해진 정도가 아니라 용도가 무궁무진한 강력한 데이터가 되 었다. 그 결과 중 하나는 일반 대중이 일상에서 데이터를 생산하는 역할을 하게 되었다는 점이다.
개인들이 특별한 의도없이 매일 생산한 정보들을 종합하여 데이터로서 활용하여 분석하면 해당 개인에 대해 많 은 것을 파악할 수 있다. 나아가 이러한 정보들을 종합하면 개인을 넘어 집단, 사회에 대해 많은 것을 파악할 수 있다. 이 과정을 이해하고 자신이 생산하는 정보를 데이터로서 관리해야 한다는 인식과 이를 위한 행위는 21세 기 빅데이터 시대의 데이터 문해력의 새로운 요소가 되었다. 우리의 데이터 문해력 교육에는 이러한 내용이 충분히 반영되어야 한다. 코딩 교육만으로 충족되기 어려운 문제다.