이은수 | 케이스탯컨설팅 CS조사실 실장

ISSUE

여론조사 결과는
왜 각각 다를까?

최근 국회의원 총선거가 치러졌고 그 이전에 수없이 많은 여론조사 결과가 매일 쏟아져 나왔다. 그런데 이러한 여론조사 결과가 조사기관마다 각각 다르고 심지어는 동일한 기관에서 발표하는 여론조사 결과도 수시로 다르게 나타나서 후보자로 나서는 정치인들은 물론 국민들에게도 혼란을 주고 여론조사에 대한 불신이 점차 팽배해지고 있다. 이렇게 조사결과가 조사기관마다 다르게 나타나는 이유에 대해서 가장 중요한 몇 가지만 설명하고자 한다.

사회 여론조사의 결과에 영향을 미치는 가장 중요한 요인은 조사방법과 표본추출 Frame, 질문방법, 설문항목의 배치 순서, 설문항목의 wording 등이다. 참고로 필자가 설문조사 관련 강의를 다니다 보면 많이 듣는 질문 중 하나가 “표본수가 적으면 대통령 지지율(또는 고객만족도 점수)이 더 떨어지는 것 아닌가요?”라는 질문인데 표본수는 조사결과의 신뢰성에 대한 문제이지 조사결과의 방향에 대해 영향을 주는 요인은 아니다. 즉 표본수가 적으면 표본오차가 늘어나서 그많큼 신뢰성이 줄어드는 것이지 대통령 지지율이나 고객만족도 점수 등이 높아지거나 낮아지는 것과는 영향이 없다.

대부분의 여론조사는 표본조사이다

표본조사란 관심의 대상인 전체 집단(대상 모집단, Target Population)의 일부 또는 전체인 조사 대상자(표집모집단, Sampled Population)를 선정하고 표집모집단으로부터 추출한 표본을 대상으로 조사하여 얻은 표본의 특성인 통계량(Statistic)으로 모집단의 특성인 모수(Parameter)를 추정 또는 검증하는 과정이다.
예를 들어 대통령의 지지율을 조사하고자 한다면 관심의 대상인 전체 국민(대상 모집단)으로 부터 표본을 추출할 표집모집단(국내에 거주하는 19세 이상의 성인 남녀)을 선정하고 이 중 1,000명의 표본을 추출하였다면 1,000명의 표본을 대상으로 조사하여 얻은 대통령 지지율(통계량)로 전국민의 대통령 지지율(모수)을 추정하는 것이다.
그런데 동일한 조사를 여러 번(예를 들면 100번) 반복한다고 가정하자. 그러면 100번의 조사결과가 모두 동일하게 나타나지 않고 조금씩 다르게 나타날 수 있다. 이는 각각의 표본을 추출하는 과정에서 대통령에게 호감이 있는 응답자들이 조금 덜 추출될 수도 있고, 조금 더 추출될 수도 있으며 이러한 표본으로 추출된 응답자들의 구성에 따라 대통령 지지율이 조금씩 달라질 수 있을 것이며 이렇게 표본을 추출하는 과정에서 발생되는 오차를 표본오차라고 한다.
한편 표본조사란 조사목적에 따라 그에 가장 타당한 조사대상자(표집 모집단)의 특성을 정의하고 조사대상자의 특성에 따라 조사 방법이 결정되며 조사항목, 질문방법 등이 결정되는데, 이러한 표본추출, 조사방법 등에 따라 조사결과가 (대부분은 오차범위 내에서) 조금씩 달라지게 된다.

먼저 조사방법의 차이다

현재 국내 정치여론조사의 대부분은 전화조사와 ARS조사가 사용된다. 경우에 따라서 web-up 설문지를 이용한 자기기입식 조사(흔히 온라인 조사라 한다)와 개별면접조사(face to face interview)가 사용되기도 하지만 이는 흔히 사용하는 방법이 아닌데 온라인 조사는 정치여론조사의 경우 표본의 모집단 대표성 문제가 있고 개별면접조사는 조사원에 의해 발생되는 오류와 비용의 문제, 표본추출 등의 현실적 문제로 인해 자주 사용되지 않는다.

ARS조사는 기계음에 의해서 질문항목을 듣고 응답자가 응답하는 조사방식이며 전화조사는 조사원이 직접 전화를 통해 읽어주는 질문항목을 듣고 응답하는 방식이다. 각종 언론매체의 진행자들이 ‘전화면접조사’라는 용어를 사용하는데 이는 ARS조사와 구별하기 위해서인 것 같은데 그냥 ‘전화조사’라고 하면 될 것으로 필자는 생각한다. 즉, 전화조사와 ARS 조사로 구분하여 명칭하는 것이 더 타당하다고 생각한다. 아무튼 두 조사방법의 가장 큰 차이는 응답률이며 응답률은 표본의 모집단 대표성 문제와 직결된다. 예를 들어 ARS조사의 경우 (조사 지역과 설문지 길이에 따라 다르지만) 정치여론조사의 평균 응답률이 2%~4% 정도이며 전화조사의 경우 평균 응답률이 10~20%로 나타난다. 즉 ARS조사의 경우 통화가 연결된 사람 100명 중에 2~4명이 응답을 하는 반면 전화조사의 경우 100명중에 평균 10~20명이 응답을 하며 따라서 ARS 조사보다는 전화조사가 훨씬 모집단의 대표성이 담보될 것이다.
결국 ARS 조사는 표본의 모집단 대표성이 상대적으로 떨어지며 따라서 정치적/사회적 이슈에 관심이 많은 집단이 응답할 가능성과 이에 따라 조사 결과가 모집단의 현상과 다소 다르게 나타날 가능성이 전화조사보다 상대적으로 높다는 문제가 제기되고 있다. 예를 들면 정치적 관심이 높은 사람이 많이 추출되는 ARS조사의 경우 전화조사에 비해 지지정당 질문에서 ‘무응답/중도층’이 적게 나타날 수밖에 없고 따라서 지지정당이나 정치인에 대한 지지율이 영향을 받을 가능성이 있는 것이다.
즉 두가지 조사방법의 차이 → 응답률 차이 → 응답자의 정치적/사회적 관심 차이 → 조사결과의 차이로 연결될 수도 있다는 의견이다.

한국조사협회에서는 ARS조사에 대해 “ARS를 이용한 조사가 과학적인 조사방법이 아니라는 점에 동의하고 향후 ARS조사를 수행하지 않을 것을 결의한다”고 규정하고 있다.
반면 한국정치조사협회 회원사들을 중심으로 ARS 조사를 진행하고 있는 조사기관들도 상당수 존재하는데 “응답율 차이에 의한 응답의 bias가 생각보다 크지 않으며, 오히려 전화조사에서 조사원의 성향에 의한 bias가 더 클수 있다”는 의견을 제시하기도 한다. 즉 응답자들이 명확하게 응답을 하지 않는 경우 조사원들이 임의로 판단을 하여 응답처리하는 경우가 발생하고 이 때 조사원들의 성향에 의한 bias가 발생할 수 있다는 입장이다. 물론 조사원에 의한 전화조사를 진행하는 기관은 모든 전화조사 내용을 녹음하거나 실시간 감청하는 등의 데이터 신뢰성 확보를 위한 노력을 하지만 100% 정확하게 관리가 된다고 보증할수 없는 한계가 존재하는 것도 현실이다.
여기서 두 조사방법의 효율성에 대한 필자의 개인적 견해를 밝히는 것은 적절하지 않다고 생각하고 다만 조사목적과 이에 따른 응답자의 특성에 따라 효율적인 적절한 조사방법을 선택하여 사용하는 것이 좋지 않을까 하는 의견을 조심스럽게 표명하고 싶다.

다음은 표본추출 Frame의 차이다

현재 전화조사 진행시 표본을 추출하는 Frame은 RDD(Random Digital Dialing)방식과 안심번호를 통한 표본추출 방법이 주로 사용된다. (과거에는 유선의 경우 KT 전화번호부 등록 DB을 사용하기도 했지만 이 또한 모집단의 대표성 문제가 있어 현재는 거의 사용하지 않은 방법이다.)

RDD는 무선번호의 010 - □□□□ - □□□□ 에서 뒤의 8자리 번호를 무작위로 발생시켜서 기계가 전화를 걸고 (결번이 아닌) 유효한 번호이면 조사를 시도하는 방식이다. 그런데 이 RDD 방법은 조사대상자의 성별/연령/거주지역을 알 수가 없는 한계가 있다. 예를 들어 전국의 대통령 지지도를 조사한다고 할 때 통상적으로 지역별/성별/연령별 인구비례에 의한 표본수를 할당하는 것이 일반적이다.
그런데 010 – 1111 – 1111 번호를 가진 홍길동이라는 사람의 연령, 거주지역, 성별 등에 대한 개인정보가 없다. 따라서 무작위로 번호를 추출하는 RDD 조사방법의 경우 전국의 지역별 / 성별 / 연령별 표본구성의 quota를 맞추기가 현실적으로 더욱 어렵다. 따라서 조사가 완료된 후 실제 인구구성비에 의한 가중치를 부여하여 분석하는데 문제는 가중치 부여 비율이 너무 크다는 것이다.
즉 실제 인구구성비와 조사가 완료된 표본구성비의 차이가 너무 크고 그 차이를 가중치로 조정하다보니 그 과정에서 발생하는 오류가 발생할 가능성이 크다는 것이다. 특히 전국 1,000표본을 조사한다고 할 때 강원/제주 등과 같이 인구수가 적은 지역의 경우 최소한의 유의한 표본수도 안 되는 표본을 조사하여 그 결과를 기준으로 해당 지역의 가중치를 부여하는 분석하는 것은 위험하다는 생각이다.

이와 같은 단점을 보완하기 위하여 안심번호를 사용한다

안심번호란 지역별/성별/연령별 휴대폰 번호를 통신사에서 제공받아서 조사를 진행하는 방식이다. 단 개인정보 보호를 위하여 실제 휴대폰 번호가 아닌 가상번호를 제공한다. 따라서 실제 지역/성별/연령별 인구구성비에 거의 유사한(동일한) 표본을 조사할 수 있으며 따라서 가중치 비중은 거의 실제 인구구성비와 다름이 없다는 장점이 있다.

반면 통신사별 이용자 구성(비중)이나 특성에 따른 차이가 있을 것이며 이에 의한 오류가 발생할 가능성이 있다는 단점도 제기되고 있다. 그러나 RDD조사의 실제 인구구성비와 크게 다른 표본 구성을 가중치로 부여하는 과정에서 발생될 수 있는 오류는 최소화할 수 있다는 차이가 있다. 그러나 개인 정보 보호 차원에서 아직 선거여론조사에만 안심번호를 사용할 수 있다는 제약이 있다.
RDD에 의한 표본추출은 즉각적인 조사가 가능하다는 장점이 있는 반면 원래 표본구성 quota를 맞추어 조사하기가 어렵다는 단점이 있고 안심번호에 의한 표본추출은 표본구성 quota를 맞추기가 상대적으로 용이한 반면 비용이 비싸고 안심번호를 사전에 미리 신청해야 한다는 (조사 10일 전에 신청해야 한다) 단점이 있는데 결국은 조사비용과 조사의 시급성에 의해 전화조사 표본추출 Frame을 결정하며 이에 따라서도 조사결과가 달라질 수 있는 것이다.

상기 설명한 두가지(RDD vs 안심번호, 전화조사 vs ARS) 요인 이외에 전화를 받지 않는 응답 대상자에 대한 반복 접촉(contact)도 조사결과에 영향을 미친다. 표본조사에서 중요한 요인 중 하나는 표본구성의 모집단 대표성이다. 예를 들어 RDD나 안심번호를 통해서 확보된 조사 대상자들에게 전화를 걸었을 때 결번은 아닌데 안 받는 사람도 있을 것이며 “지금 바쁘다”고 거절한 사람에 대한 재접촉 여부와 그 방식에 따라 조사 결과가 달라질 것이다.
만약 전화를 안 받는 사람에게는 다시 접촉을 시도하거나 “지금 바쁘다”고 거절한 사람에게 통화가 가능한 시간을 물어서 그 시간에 다시 전화를 걸어서 접촉을 하는 방식과 전화를 걸어서 바로 전화를 받고 바로 응답을 해 주는 사람들만을 대상으로 조사를 진행하는 방식은 모집단의 대표성 차이가 크며 이 또한 조사 결과의 차이로 나타나는 것이다.
후자에 비해 전자의 방식이 모집단의 대표성이 압도적으로 높은 것이 사실이며 따라서 전자의 방식대로 조사가 진행되어야 한다. 참고로 한국조사협회에서는 통화중이거나 부재중인 사람에게는 3번이상 재접촉을 시도하여 최초 조사대상자로부터 응답을 받도록 장려하고 있다.
그밖에 조사결과에 영향을 미칠 수 있는 또 하나의 중요한 변수는 설문 구성 항목의 배열 순서이다. 예들 들어 정당지지도와 대통령 지지율을 조사하는 경우 대통령 지지율을 먼저 질문하고 정당지지도를 질문하는 경우와 정당지지도 → 대통령 지지율의 순서로 경우의 조사결과도 달라질 수 있는 것이다.

응답자의 정치적 성향 구성비에 대한 quota 할당

마지막으로 필자가 한가지 개인적으로 지적하고 싶은 사항은 국정지지율이나 정당지지도 같은 정치여론조사의 경우 응답자의 정치적 성향에 대한 질문과 분류방법이다.
현재 정치여론조사에서 응답자의 정치적 성향이 조사결과에 매우 중요한 영향을 미치고 있다. 그런데 조사기관마다 심지어는 같은 조사기관에서 진행하는 조사에도 응답자들의 정치적 성향에 대한 구성비가 조사마다 조금씩 각각 다르다는 것이다.
이는 앞서 언급한 것처럼 표본을 추출하는 과정에서 정치적 성향이 진보적인(또는 보수적인) 사람이 적거나 많이 추출될 수 있고 이에 따라 조사결과가 달라질 수 있는 것이다. 따라서 한국조사협회, 한국조사연구학회, 또는 중앙선거여론조사심의위원회, 통계청 등의 유관기관에서 주기적으로(예를 들면 1년 단위나 6개월 단위) 한국 유권자들의 정치적 성향 구성비를 정확하게 조사하여 모든 조사기관들이 동일한 기준으로 quota를 할당하여 조사하는 방안이 필요하지 않을까 생각한다.
즉, 현재 지역별/성별/연령별 인구구성비에 따라 Quota를 할당하여 조사를 진행하는데 정치여론조사의 경우 여기에 동일한 정치적 성향 구성비의 기준을 추가하여야 하지 않을까 하는 생각이다. 물론 추가적인 quota를 맞추려면 추가적인 비용과 기간이 소요될 수는 있지만 정확한 조사를 진행하기 위해서 고려할 필요가 있다고 생각한다.

더불어 응답자 개인의 정치적 성향에 대한 분류를 응답자의 응답에 의존하고 있다는 것도 문제로 지적하고 싶다. 예를 들면 동일한 정치적 성향을 가지고 있는 두사람에게 본인의 정치적 성향을 질문할 때 한 사람은 자신의 정치적 성향이 진보, 또 다른 사람은 자신이 보수적 이라고 응답할 가능성이 적지 않다고 생각한다. 즉 정치적 진보와 보수에 대한 판단기준이 사람마다 제각기 다를 것인데 응답자에게 개인의 정치적 성향을 질문하는 것은 타당하지 않다고 판단된다. 유권자의 정치적 성향을 판단할수 있는 몇 가지 질문을 하여 이러한 질문의 응답결과를 종합하여 응답자의 정치적 성향을 분류하는 방법이 필요하지 않을까 생각한다. 오랜기간 실무적 경험이 있는 업계 전문가들과 한국조사연구학회 학자들의 공동연구에 의한 방법이 충분히 마련될 수 있을 것으로 기대한다.

여론조사회사는 여론을 수집하여 파악하는 기관이며 여론 형성에 영향을 끼쳐서는 안되는 기관이다. 따라서 가장 객관적이고 정확하게 여론을 파악하기 위하여 표본추출 과정과 조사과정에서 발생할 수 있는 모든 표본오차와 비표본오차를 최소화할 수 있도록 조사비용 등의 현실적 한계를 극복하고 업계와 학계, 유관 기관에서 모두 최선의 노력을 다해 관리해야 할 것이다.