- EDU
- 강양석
- Deep Skill 대표
데이터 과학과 증거의 피라미드
데이터 과학 진리 여정
과학, 철학, 종교의 공통점은 무엇일까? 이 세 영역은 인간이 추구하고 경험하는 영역 중 ‘진리(변 하지 않는 교훈)’을 추구한다는 공통점을 가지고 있다. 이때 이 셋은 오묘하게 협업의 관계를 가지고 있는데 과학과 종교는 의심을 기반으로, 대신 종교는 믿음을 기반으로 한다. 또한, 철학과 종교는 형이상학을 주로, 대신 과학은 형이하학을 주로 다룬다. 오묘한 협업 관계이다. 또한 각각이 진리를 추구하는 방식이 다른데, 종교는 계시와 기도를 통해, 종교는 사유와 논리, 그리고 과학은 추론과 실험을 통해 도달한다.
여기서 주지할 사실은 과학이 추론을 통해 진리를 추구한다는 점인데, 추론은 사실을 기반으로 개연을 다루는 행위이다. 개연은 사실스러움을 말한다. 이런 과학의 특성에 대해 과학 철학자들은 ‘과학은 IBE(Inference to best Explain)’이라고 말한다. 즉, 현재의 사실로 그나마 가장 그럴싸 하게 설명한 중간 산출물이라는 뜻이다. 그런데 데이터 과학은 당연히 이런 과학의 특성을 그대로 이어 받았다고 볼 수 있다. 다만, 그 대상과 재료가데이터를 기반으로 한다는 점만 다를 뿐이다. 즉,데이터 과학은 데이터로 최선을 다해 설명한 잠정적 주장이다. 이런 데이터 과학의 특성을 이해할 때 우리가 주목해야 할 단어가 있는데, 그건 바로 증거(evidence)라는 개념이다. 데이터 과학은 증거를 만드는 행위라고도 바꿔 말할 수 있는데, 증거라는 개념과 대비되어 이해하면 좋은 용어가 증명이다. 증명은 강도가 없지만, 증거는 강도가 있다. 증명은 하면 하고, 말면 마는 것이지 중간 단계가 없다. 하지만, 증거는 더 좋은 증거와 더 약한 증거가 존재한다. 그러므로, 우리가 데이터 과학에서 나온 모든 결론은 증거의 지위를 갖는다는 것을 이해할 필요가 있다.
그럼 우린 자연스럽게 어떤 데이터 과학적 증거가 더 높은 설명력을 가질까에 궁금증을 가질 필요가 있다. 데이터를 썼다고 해서 모두가 같은 증거능력을 갖는게 아니기 때문이다. 이를 잘 표현한 구성이 바로 증거의 피라미드(pyramid of evidence)라는 개념이다. 피라미드의 하위층일수록 증거능력이 낮고 높아질수록 증거능력 또한 높아지는 구조이다. 우리가 이 피라미드를 이해하는 것이 중요한 이유는 우리는 결국 좋은 의사결정을 하기 위해서 데이터 과학을 하기 때문이다. 한데, 여러 종류의 데이터 과학적 결론 사이에서 우열을 가르는 식견이 없다면 우리가 그 수많은 분석 기법을 배워야 할 이유가 무색해지기 때문이다. 자 그럼, 데이터가 진리가 되기 필요한 필수 개념, 상관, 인과관계, 증거의 강도 등에 대해 알아보자.
인과추론의 중요성과 증거의 피라미드
오늘날 데이터 기반 사회에서, 우리는 데이터를 분석하고 그 결과에 따라 다양한 의사 결정을 내리는 시대에 살고 있다. 그러나 단순히 상관관계를 파악하는 것만으로는 충분하지 않으며, 이를 넘어 서서 인과적 사고를 바탕으로 데이터를 분석할 필요가 있다. 인과적 사고는 데이터에서 나타나는 현상의 원인과 결과를 명확하게 규명하는 사고방식이다. 이 글에서는 인과적 사고와 이를 효과적으로 이해하기 위한 증거의 피라미드 개념에 대해 다루고자 한다.
1. 인과적 사고란 무엇인가?인과적 사고는 상관관계를 넘어서서 두 변수 사이의 원인과 결과를 이해하는 사고이다. 상관관계는 단순히 두 변수 사이에 통계적인 연관성을 보여주는 것이며, 이것이 반드시 인과 관계를 의미하지는 않는다. 예를 들어, 아이스크림 판매량과 익사 사고 사이에 상관관계가 있다고 해서 아이스크림이 익사 사고를 유발한다고 말할 수는 없다. 여름철에는 날씨가 더워져서 아이스크림 판매량이 늘고, 동시에 사람들이 물놀이를 많이 하기 때문에 익사 사고가 늘어나는 것이다. 이 경우 날씨라 는 제3의 변수가 존재하는 것이며, 상관관계는 단순한 우연일 수 있다. 따라서 상관관계를 발견한 이후에, 그것이 실제로 인과 관계인지 아닌지를 파악하는 과정이 필수적이다. 이러한 과정을 통해서만 우리는 올바른 결론을 도출할 수 있으며, 데이터에 기반한 신뢰할 만한 의사 결정을 내릴 수 있는 것이다. 인과적 사고를 통해 우리는 단순히 데이터의 패턴을 읽는 것이 아니라, 그 패턴의 배경에 숨겨진 메커니즘을 이해하게 되는 것이다.
인과 추론이 얼마나 중요한지에 대한 실전적인 예시를 통해 그 필요성을 설명하고자 한다. 과거 글로벌 소프트웨어 회사에서 데이터 과학 팀을 설립하고 운영할 당시, 우리는 대규모 데이터를 분석하여 새로운 수익 모델을 찾고자 했다. 당시 목표는 무료로 제공하던 소프트웨어를 유료 서비스로 전환하여 수익을 창출하는 것이었다. 수백만 명의 사용자 데이터를 기반으로 사용자 행동을 분석하고, 이를 바탕으로 유료화를 위한 다양한 모델을 제시했다. 그러나 결과는 실패로 돌아갔다. 사용자는 유료화에 반응하지 않았고, 우리는 새로운 모델을 도입한 후에도 기대한 수익을 창출하지 못했다. 그 이유는 우리가 데이터를 분석할 때, 상관관계에만 집중했기 때문이다. 사용자가 특정 기능을 많이 사용한다고 해서 그것이 유료화에 적합하다고 판단한 것이 오류였다. 실제로 그 기능이 사용자의 요구를 충족시키는데 얼마나 중요한지, 그리고 그 기능에 대한 사용자의 실제 필요가 무엇인지를 충분히 이해하지 못했던 것이다. 이 경험을 통해 깨달은 것은 데이터를 해석하는 과정에서 상관관계 이상의 인과적 사고가 필요하다는 것이다. 단순히 어떤 패턴을 발견 하는 것만으로는 충분하지 않으며, 그 패턴이 발생한 원인을 찾아야 한다. 이것이 바로 인과 추론의 본질이며, 데이터를 제대로 이해하고 해석하는 데 필수적인 요소이다.
3. 증거의 피라미드 : 데이터 의사 결정의 구조적 접근이제 인과 추론의 본질을 이해하는데 도움이 되는 중요한 개념인 증거의 피라미드에 대해 설명하고자 한다. 증거의 피라미드는 데이터 분석에서 나타나는 증거의 신뢰도를 단계적으로 나눈 개념이다. 이는 주로 의료계에서 많이 사용되는 개념이지만, 데이터 과학이나 경영 의사 결정에서도 매우 유용하게 활용될 수 있다. 증거의 피라미드는 의사 결정자가 어떤 데이터를 기반으로 결정을 내릴 때 그 데이터가 얼마나 신뢰할 수 있는지를 판단하는 기준을 제공해 준다.
3-1. 일반 피라미드 설명증거의 피라미드란, 말 그대로 증거의 신뢰성과 강도를 피라미드 형태로 계층화한 개념이다. 피라미드의 가장 하단에는 신뢰도가 낮은 증거가 위치하고, 상단으로 갈수록 신뢰도가 높아진다. 이를 통해 데이터의 신뢰성을 평가하고, 분석 결과를 어떻게 해석할지 결정할 수 있다.
❶ 전문가의 의견 | 피라미드의 가장 하단에 위치한 것은 전문가의 의견이다. 이는 특정 데이터를 기반으로 한 분석보다는 직관이나 경험을 바탕으로 한 결론을 의미한다. 전문가의 의견은 경험에 기반하고 있기 때문에 유용할 수 있지만, 과학적 근거가 부족할 수 있다는 점에서 가장 낮은 신뢰도를 가진다. 예를 들어, 산업 현장에서의 경영진이나 현장 전문가가 특정한 경험에 의거해 결론을 내릴 수 있지만, 이는 객관적 데이터를 뒷받침하는 증거로서는 약할 수 있다.
❷ 케이스 분석 및 벤치마킹 | 그다음으로는 케이스 분석이다. 이는 특정 상황이나 사례를 분석하여 유사한 결론을 도출하는 방법이다. 케이스 분석은 일종의 ‘사례 연구’로 볼 수 있으며, 일반적으로는 주어진 상황에서 성공 사례를 분석하거나 이를 벤치마킹하여 적용한다. 하지만 개별 사례를 기반으로 하기 때문에, 이를 전체에 일반화하기는 어렵다.
❸ 단면 분석 | 단면 분석은 특정 시점을 기준으로 다양한 변수 간의 상관 관계를 분석하는 방법이다. 단면 분석을 통해서는 여러 변수 사이의 관계를 파악할 수 있지만, 이것이 인과 관계를 명확히 규명하는데는 한계가 있다. 따라서 이를 근거로 한 의사 결정은 인과적 관계가 아닌 상관 관계에 의존할 수 있다.
❹ 비교 연구 | 피라미드 상에서 비교 연구는 두 개 이상의 사례를 비교하여 원인과 결과를 분석하는 방식이다. 예를 들어, 성공한 기업과 실패한 기업의 경영 전략을 비교하거나, 두 집단 간의 데이터 분석을 통해 인과적 관계를 추론하는 것이다. 이 단계에서부터는 인과 관계를 밝히는 노력이 시작된다.
❺ RCT(무작위 대조 실험) | 증거의 피라미드에서 가장 신뢰할 수 있는 증거는 무작위 대조 실험 (RCT)에서 나온다. RCT는 두 집단을 무작위로 나누어 한 집단에만 개입을 하고, 다른 집단에는 개입하지 않음으로써 그 결과를 비교하는 실험이다. 이를 통해 변수 간의 인과 관계를 명확하게 밝힐 수 있는 가장 강력한 방법이다.
3-2. 산업별 피라미드 설명❶ 일상적인 소재 | 우선 증거의 피라미드를 기준으로 딸아이에게 왜 주말에 학원에 가야하는지를 설명하면 위와 같다. 이런 일상적이고 직관적인 이해를 바탕으로 분석의 증거능력을 설명할 수 있어야 한다. 잘 살펴보면, 우리가 자녀들을 설득할 때 가장 많이 사용하는 ‘옆집 오빠 이론’은 전체 층위에서 매우 설득력이 낮다는 것을 알수 있다.
❷ 유통업 | 유통업에서는 고객의 구매 패턴, 매출 데이터 등을 분석하여 전략적 결정을 내린다. 이 때, 매출 데이터는 단순히 상관관계를 보여줄 뿐이다. 예를 들어, 특정 상품의 매출이 증가했다고 해서 그것이 마케팅 캠페인 덕분이라고 단정할 수는 없다. 고객의 실제 구매 동기, 경쟁사의 가격 정책, 계절적 요인 등 다양한 변수를 고려해야 한다. 유통업에서 증거의 피라미드는 고객 설문조사(전문가의견)에서 시작해, 비교 연구(경쟁사와의 비교) 또는 RCT(프로모션 효과 분석)까지 나아갈 수 있다.
❸ IT 산업 | IT 산업에서는 사용자의 행동 데이터를 기반으로 의사 결정을 내린다. 예를 들어, 소프 트웨어 사용 빈도가 높은 기능이 있다고 해서 그것을 유료화하는 전략이 항상 성공적이지는 않다. 증거의 피라미드를 통해 사용자의 실제 요구와 행동 패턴을 심층적으로 분석해야 한다. IT 산업에서는 사용자 행동 분석(단면 분석)에서 시작해, 기능 개선 실험(RCT)까지 진행하는 것이 효과적이다.
4. 데이터 분석과 인과적 사고의 균형데이터 분석에서 중요한 것은 단순히 많은 양의 데이터를 수집하는 것이 아니다. 오히려 중요한 것은 그 데이터를 어떻게 해석하고, 그 데이터를 통해 무엇을 배우는가이다. 많은 경우, 우리는 데이터를 해석할 때 상관관계에 지나치게 집중하는 경향이 있다. 하지만 상관관계는 그저 데이터 간의 패턴을 보여줄 뿐이며, 그것이 반드시 원인과 결과를 의미하지는 않는다. 이때 필요한 것이 바로 인과적 사고이다. 인과적 사고는 데이터를 보다 깊이 있게 이해하게 해주며, 이를 바탕으로 더 나은 결정을 내릴 수 있게 한다. 예를 들어, 마케팅 데이터를 분석할 때, 단순히 매출이 증가한 것만으로는 그 원인을 알 수 없다. 매출이 증가한 이유가 무엇인지, 그리고 그 이유가 지속 가능한 것인지 분석하기 위해서는 인과적 사고가 필요하다.
결론적으로, 인과 추론은 단순한 상관관계를 넘어선 데이터 해석의 핵심이다. 증거의 피라미드는 이를 명확하게 이해할 수 있는 유용한 틀을 제공하며, 데이터의 신뢰도를 계층화해 의사 결정의 정확성을 높인다. 각 산업에서 피라미드를 적용하면, 데이터 분석에서 단순한 패턴 인식을 넘어 심층 적인 원인과 결과를 파악할 수 있다. 이는 궁극적으로 더 나은 전략적 결정을 가능하게 하며, 지속 가능한 성과를 창출하는데 기여하는 중요한 도구이다. 즉, 지나치게 분석 기법 중심으로 데이터 과학을 이해하기보다는, 증거 능력의 격차 관점을 이해하고 그에 맞는 의사결정 강도의 수위를 정하는 식견이 우선이다.