한국빅데이터교육협회에서는일반인도통계학을쉽게이해하고어려운수학수식등을사용하지않고도엑셀등의기본프로그램에서통계학을활용할수있도록자료를제공하고있습니다.본 자료는 출판 예정 자료이거나 저작권 등록된 자료를 요약 기술한 것이므로 상업적으로 활용할 수 없습니다.
06_ 추론 통계학이란 무엇입니까?
추론통계학이란,
전체 데이터를 모르기 때문에 평균, 편차, 합 등을 바로 계산할 수 없을 때
추측(추론)하여 값을 구하는 통계방법을 말합니다.
반대로 말하면, 모든 데이터를 알고 바로 계산할 수 있을 때 사용하는 방법은요.
기술 통계학이 될 거예요.
예를들어볼게요.
우리나라 국민들이 올림픽 여자배구 결승전을 얼마나 시청했는지 알고 싶은데요.
전 국민에게 일일이 물어볼 수는 없겠죠?
그래서 닐슨이라는 TV 시청률 조사 기관에서는
지역, 연령, 성별 등으로 구분된 500가구 정도에 한하여 시청률 조사용 수신기를 달아둔다고 합니다.
그리고 이 500가구의 시청률을 바탕으로 전 국민의 시청률이
어느정도인지추론해보는겁니다.
이 때 원래 조사해야 할 전국민을 모집단으로 하여 실제로
조사한 500세대를 표본이라고 합니다.즉, 추론통계학이란 표본만을 조사하여 모집단이
실제로 어떻게 구성되어 있는지를 알아보는 통계학입니다.
표본으로 추측하기 위해서 추론이라고 하는 것입니다.
다음 사례를 분석해볼까요?
다음 앙케이트로 모집단과 표본을 고르시오.
올해 4월 국회의원 총선거에서 부산 사하구의 A정당 당선자를 예측하기 위해 전체 유권자 중 사하구 유권자를 추출했고 사하구 유권자 중 300명에게 지지후보를 물었다.
그렇다면 위의 질문은 접어두고 국회의원을 뽑기 위해
사하그 유권자 전체의 생각을 알고싶다는 것이군요.모집단은 사하구 유권자입니다.
근데 다 못 들으니까 300명만 뽑았어요.
300명이 표본이 되는 것입니다.
모집단과 표본의 개념은 아시겠죠?
07_ 그럼 표본이 정말 옳은지도 계산할 수 있습니까?
네,추론통계학에서가장중요한것은요.
과연 표본이 모집단을 확실히 대표하는지를 확인하는 것입니다.
가장 먼저 해야 할 일은 이 표본이
몇 퍼센트의 확률로 모집단을 대표하는지 가설을 세우는 것입니다.
예를들어예문을한번보시도록하겠습니다.
명절에 가족들이 모여서 내기 고스톱을 치고 있어요.
그런데 삼촌이 연속으로 열 번 슬리고를 해서 돈을 다 버세요.
솔직히 말하면 고스톱에서 10회 연속 슬리고가 나올 확률은 몇 퍼센트일까요.
돈을 잃은 가족들이 의심하면서 뭔가 가설을 세우기 시작합니다.
그럼 우리도 가설을 세워봅시다.
만약에 정말 10회 연속 슬리고가 나올 확률이 1%가 넘는다면
있을 수 있는 일이라고 생각하고 넘어가자는 가설을 세워 보는 거예요.
1%도 안 되는 확률이라고 하면 있을 수 없고, 삼촌이 사기꾼이라고 생각하면 되겠지요?
이때 1%는 돈을 잃은 ‘나’에게 세운 기준입니다.
근데 막상 확률 계산을 해보면
연속 10번 슬리고가 나올 확률이 0.05%밖에 안 돼요.
그렇다면 5% 이상이면 인정해 주자는 내 가설이 잘못된 거죠?
제 가설이 틀렸기 때문에 삼촌은 사기꾼인 거예요.
이와 같이 추론 통계학에서는
실제로 표본이나 사건에 대해 일어날 확률이 어느 정도인지 가설을 세우고 그
확률 이상이면 옳다고 말하고, 그 확률 이하면 틀렸다고 결론을 내립니다.
이때,처음에옳다고세웠던가설을귀무가설,
이무가설이잘못되어문제가있을때를대립가설이라고합니다.
그리고 이렇게 가설을 세우고 통계를 내는 것을 ‘검정(가설검정)’이라고 합니다.
이렇게 검정을 통해 통계를 작성할 때는 몇 % 이상이어야 옳다고 말한다.
몇 % 이상이면 틀렸다 라는 기준을 세워야 할까요?
그 기준은 보통 0.1~10%이지만 가설을 세우는 사람에 따라 달라집니다.
예를 들어 어느 제약회사에서 불량품이 10% 이상이면 불량이라고
가설을 세운다고 해 봅시다.
약은 하나만 잘못해도 누가 먹다 죽을 수 있잖아요.
따라서제약회사는10%가아니라0.1%이상이면약이문제라고해야하겠죠?
반면 포카리 스웨트 300ML을 파는 회사에서 295ML 이하의 용량이면 불량이라고 했을 때,
불량률을 10%로 만들었습니다.제약회사와 달리 음료 용량은 미세하게 다를 수 있으므로
10%로 어림잡아도 무방할 겁니다.이렇게기준점이되는수치를파악해야되는데,
통계학에서는 이를 유의 수준(%)이라고 합니다.
08_ 그렇다면 가설이 아닌 추론 통계학도 있나요?
네, 가설을 검증하는 것이 아니라,
표본이 전체에서 어느 위치에 있는지를 확인하는 추론 통계학을
구간추정,즉추정이라고합니다.
추정은 표본의 일부를 추출하고 표본이 어느 정도 신뢰성이 있는지,
또는 데이터 전부를 대표하기 위해서는 적어도 표본이 몇 개나 필요한지 등
표본자체에대해서추론하는통계학입니다.
자,그러면통계학의각영역을간단히살펴보죠.
본격적으로 통계학에 대해서 이야기해 볼까요?