통계

(통계) 중심극한정리 - 왜 가우시안 분포를 쓸까?

math_tbro 2022. 6. 6. 21:53

모집단과 표본집단

  • 모집단 : 우리가 관심있는 대상 전체
  • 표본집단 : 모집단으로부터 추출된 모집단의 부분집합

중심극한정리(CLT)

  • 중심극한정리
    • 표본평균의 표본 분포에 관한 것
    • 개념 : 모집단의 평균이 $\mu$이고 표준편차가 $\sigma$인 임의의 분포를 따른다고 할때, 모집단으로부터 추출된 ‘표본의 크기가 충분히 크다(n>30)면 표본 평균들이 이루는 분포는 평균이 $\mu$이고 표준편차가 $\frac{\sigma}{\sqrt(n)}$ 인 정규분포의 근사한다.
    • 중요한 것은 그냥 무수힌 많이 뽑아서 모수를 추정한다기 보다 표본의 평균 이 가우시안 분포로 표현된다. 특히 위 식의 값을 갖는다. 라고 생각해야한다.
    • 한줄평 : 그냥 집단에서 30개 이상 뽑으면 대충 평균과 표준편차를 짐작할수 있다.
  • 중요한 이유
    • 모집단의 특성을 추출하는 것은 통계학에서 가장 중요한 일
    • 모집단 전체를 조사하여 모집단의 특성을 알아내는 것은 시간과 비용이 많이 걸림
      • Ex) 여론조사, 만족도조사를 전 국민을 대상으로 할 수 없어 일부만 실시
    • CLT를 사용해서 표본평균을 통해 모집단의 모수인 모평균과 모표준편차를 추정할 수 있는 확률적 근거를 제시해줄수 있는 방법

면접에서 가우시안 분포를 왜 사용하냐고 질문이 들어왔을 때,

‘두 가지 변수를 사용해 계산이 빠르다는점’ 과 ‘중심극한정리를 활용해 모집단의 모수를 추정하기 편하다’ 고 대답하면 될 것 같다.