여러분이 어느 학교 학생들의 몸무게를 조사한다고 가정해 보십시오. 그 학교 학생 수가 아주 많은 탓에 모든 학생을 조사하기가 곤란해서 일부(예를 들어 300명 정도)만 무작위로 뽑아 몸무게를 조사했다고 하겠습니다. 그래서 다음과 같은 통계치를 얻었습니다.

몸무게 평균 = 53 Kg
표준편차 = 5 Kg

이런 통계치는 무엇을 의미할까요? 어떤 의미가 통계치 안에 숨어 있는 걸까요? 많은 사람들이 평균과 표준편차를 보고 '그냥 그런가보다'라며 넘어가고 맙니다.

평균과 표준편차에 숨은 의미는 다음과 같습니다.

[정규분포를 따를 경우]
"임의의 표본이 [평균 + 2표준편차]와 [평균 -  2표준편차] 사이에 해당할 확률은 95%다"  
(여기서 2표준편차는 표준편차에 2를 곱한 값을 말함)

말이 좀 어렵죠? 쉽게 말해 이런 뜻입니다. 표준편차가 5 Kg 이므로 2표준편차는 10 Kg 이죠. 그렇다면, 몸무게를 조사한 학교에 찾아가서 처음 만나는 학생을 저울 위에 올려놓을 경우 그 학생의 몸무게가 43 Kg과 63 Kg 사이에 해당할 확률이 95%가 된다는 의미입니다. 그러니까 그 학생의 몸무게가 43 Kg 보다 작거나 63 Kg 보다 클 확률은 5% 밖에 안 된다는 뜻이죠.

정당지지율이나 후보 지지율 등을 위한 설문조사에서 언급하는 '95% 신뢰구간'이라는 말은 바로 실제의 지지율이 '[평균 + 2표준편차]와 [평균 -  2표준편차] 사이에 놓일 확률이 95% 임'을 지칭하는 문구입니다. 이와 같은 평균-표준편차-신뢰구간 사이의 관계를 '2표준편차의 법칙'이라고 외우면 기억하기 좋을 겁니다.

이제 곧 지방선거가 실시될 텐데요, 여러분은 신문이나 방송에서 이렇게 이야기하는 걸 들을지도 모릅니다.

" 총 1000 명의 유권자에게 출구 조사를 실시한 결과, A후보의 지지율은 45%, B후보의 지지율은 43%로 나타났습니다. 95% 신뢰구간에서 표본 오차는 공히 ± 2% 입니다.
따라서 두 후보가 표본 오차 내에서 막상막하의 지지율을 보이는 것으로 해석됩니다."

이 뉴스를 들은 B후보는 오차범위인 2%를 자신의 지지율인 43%에 더하면 45%가 되기 때문에 A후보에게 결코 밀리는 것이 아니라며 안심할지 모릅니다. 어디까지나 1000 명에게만 설문조사해서 얻은 결과이기 때문에 개표가 진행되면 A후보를 따돌리고 더 많이 득표하리라 기대할지도 모릅니다.

그러나 B후보는 이런 뉴스를 듣고 낙담을 해야 옳습니다. 왜 그럴까요?

표본오차는 바로 2표준편차를 의미합니다. 따라서 A후보와 B후보는 각각 다음과 같은 지지율 분포를 갖습니다.

A후보 : 지지율이 43% ~ 47% 일 확률이 95%

B후보 : 지지율이 41% ~ 45% 일 확률이 95%

이 두 개의 분포를 그림으로 보면 다음과 같습니다. (손으로 그려서 보기가 어려울지 모르겠네요. ^^)


이 그림에서 빗금 친 부분이 A후보가 B후보보다 앞서는 상태입니다. 빗금 친 부분의 면적은 정규분포에서 84%에 해당합니다. 통계를 아시는 분들은 금세 계산할 텐데요, '더보기'를 눌러보면 단서가 나옵니다. 이것을 가지고 간단한 일차방정식을 풀면, 빗금 친 부분의 면적이 얼마인지 구할 수 있을 겁니다.


여하튼, 이 말은 바로 A후보가 B후보를 이길 확률이 84%나 된다는 이야기입니다. 84%라는 확률은 대단히 큰 확률입니다. 따라서 B후보는 웬만해서는 A후보를 이길 수 없죠. 특정 투표함에서 몰표가 나오지 않는 한 힘든 일입니다.

평균과 표준편차, 신뢰구간과 오차범위(또는 표본오차)의 관계를 올바르게 알면, 통계 결과를 잘못 해석하는 일이 대폭 줄어들 테고 좀더 올바르게 의사결정하는 데에 도움을 얻으리라 생각됩니다. 통계와 친하게 지내십시오. 평균과 표준편차의 의미만 잘 알아도 통계는 50% 먹고 들어갑니다. ^^

*참고도서 : 'Super Crunchers', Ian Ayres, 2007


인퓨처컨설팅 & 유정식의 포스트는 아이폰 App으로도 언제든지 볼 수 있습니다. 다음의 링크를 눌러서 여러분의 아이폰에 inFuture App(무료)을 설치해 보세요
               여기를 클릭!


** 이 글이 업무에 도움이 된다면 '자발적 원고료'로 글쓴이를 응원해 주세요. **
(카카오톡 > 더보기 > 결제) 클릭 후, 아래 QR코드 스캔



혹은 카카오뱅크 3333-01-6159433(예금주: 유정식)

Comments

  1. Favicon of http://ethen.tistory.com BlogIcon ethen 2010.04.08 09:17

    어제의 실물 사진에 이어 오늘은 멋진 포스팅을 접하게 되었습니다.

    조사방법론 강의 때 역시 설친게 티가 나네요.
    신뢰도와 표준편차에 대해서 너무 간과했습니다.

    좋은 정보 너무 감사합니다.

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.08 11:26 신고

      사람들이 자주 들으면서 흘려 듣는 것이 신뢰도와 표준편차죠. 이번 지방선거때 위에서 예로 든 사례가 발생할지 지켜보는 것도 재미겠네요. ^^

  2. Favicon of http://snowall.tistory.com BlogIcon snowall 2010.04.08 09:23

    이 내용들은 고등학교때 다 배우는 내용이지만 다들 잠들어 있다는게 문제겠죠.
    "수학은 배워서 어디에 쓰나?"라는 질문에 대한 좋은 답인 것 같습니다.

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.08 11:26 신고

      실생활에서 수학이 어떻게 쓰이는지에 관한 교육이 전혀 이루어지지 않은 탓이겠지요. 감사합니다. ^^

  3. Favicon of http://blog.naver.com/foucalt.do BlogIcon timebox 2010.04.08 10:58

    평소 눈팅만 하다가 처음으로 글을 남겨봅니다. 좋은 글 잘 이해하려고 수학적으로 굳어진 머리를 굴리느라 아침부터 고생 좀 했습니다. ;; 저는 통계조사 방법론에 대한 니즈가 요즘 커지고 있는데, 어디에서부터 학습을 해야 할지 잘 모르겠네요. ^^

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.08 11:27 신고

      쉽게 나온 만화책이 하나 있던데, 그것부터 차근차근 공부해 보세요. ^^

  4. X맨 2010.04.09 11:57

    ^^ 제가 잘 몰라서 그러는데요.
    위의 설명에서 A후보가 B후보를 이길 확률이 왜 84%인지 잘 모르겠습니다.
    위의 계산대로라면 84%는 A후보가 44% 이상의 지지율을 받을 확률 아닌가요?
    이것을 왜 이길 확률로 간주하는지를 잘 모르겠습니다.

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.09 14:23 신고

      A후보의 지지율이 44% 이상일 확률이 84%이구요, B후보의 지지율이 44% 이상일 확률은 16% 입니다. 둘 중 44%를 넘어야 이기기 때문에, A후보가 이길 확률을 84%라고 해석할 수 있는 겁니다.

  5. 루코 2010.04.14 11:57

    통계학을 전공하고있는 학도입니다.
    하루하루 통계가 사회의 거의 모든건에 반영될수있다는 사실에,
    공부를 더 할수록 뿌듯해진다고 해야하나요..

    4년째 항상쓰는 것이지만 신뢰구간의 개념이 정말 간단하고 강력한 것 같습니다.

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.15 13:24 신고

      통계가 어렵다는 인식이 많은데, 일반인들이 쉽게 알도록 풀이된 책들이 많아졌으면 합니다. 통계가 간혹 거짓말을 하곤 하지만, 인간이 발명한 것 중 가장 유용한 것 중에 하나이기도 하죠. 감사합니다. ^^

  6. cecil 2010.04.29 11:11

    늦은 나이에 대학원에 진학했는데 통계로 애를 먹고 있어요~
    언급하신 통계에 관한 만화책은 어떤 것인가요...
    제목과 저자 부탁드려요~~

    perm. |  mod/del. |  reply.
    • Favicon of https://infuture.kr BlogIcon 유정식 2010.04.30 08:59 신고

      제목과 저자는 모르겠네요. 일본 것인데 번역되어 나온 것으로 압니다. 서점 직원에게 물어보면 쉽게 찾을 수 있을 겁니다. ^^

  7. 김병수 2010.07.21 11:30

    바쁘다는 핑계로(사실은 진짜입니당.) 오랜만에 우연치 않게 링크로 들어왔는데 매우 유용한 해석 하나 건지고(?) 갑니당... 감사합니당...

    perm. |  mod/del. |  reply.
  8. 하하 2013.01.31 15:18

    그럼 뉴스에서 [막상막하의 지지율] 이라고 말하는 것은 틀린 표현인가요?

    perm. |  mod/del. |  reply.
  9. BlogIcon 조형민 2014.03.26 13:18

    통계 지식 습득중에 이 글을 검색으로 발견했습니다. 평소에 벤처스퀘어에 올라오는 글 잘 읽고 있습니다. ^^
    그런데 제가 알고 있는 부분과 좀 큰 차이가 있는 내용이 있어 확인차 여쭤봅니다.
    위의 300명 대상 몸무게 평균 53kg, 표준편차가 5일 경우 제가 알고 있는 95%신뢰 구간 계산식은..
    =>평균 +- 1.96*표준편차/root(표본수) 입니다. (표준편차/root(표본수) => 표준오차)
    표준오차 : 0.2887

    결론적으로 위의 경우에는,
    '95%의 신뢰 구간에서 52.4kg ~ 53.6kg 사이에 있다'가 맞는 것이 아닌가 싶습니다.
    43~63과는 좀 큰 차이가 있네요.

    혹시 제가 잘못 알고 있었던거라면 커멘트 부탁드립니다~ ^^

    ps. 만약 표본이 1개였다면 표준오차가 표준편차와 같게 되므로 위에서 말씀하신 구간이 맞습니다.

    perm. |  mod/del. |  reply.