////
Search

표본의 크기 결정

출처:
표본 평균이 어떤 분포를 따른지에 따라 달라진다.
정규 분포를 따르는 경우 n=z2σ^2d2n = z^2 \frac{\hat{\sigma}^2}{d^2}
이항 분포를 따르는 경우 n=z2p^(1p^)d2n = z^2 \frac{\hat{p}(1-\hat{p})}{d^2}

1. 정규 분포를 따른다고 가정

표본 평균과 모평균의 차이를 Xˉμ|\bar{X}-\mu| 라고 하자.
이를 오차라고 하면, 오차가 특정한 값인 dd 보다 작을 확률은 p(Xˉμd)p(|\bar{X}-\mu| \le d)이다. 이때 표본 평균이 정규 분포를 따른다고 가정하고 일정한 신뢰수준을 설정한다. 예를 들어, 오차가 dd 보다 작을 확률을 95%라고 가정하자. (dd는 허용 오차라고 부른다.)
그러면 p(Xˉμd)=0.95p(|\bar{X}-\mu| \le d) = 0.95가 될 것이다.
표본 평균이 정규 분포를 따른다고 가정했기 때문에 Z=Xˉμσ/nN(0,1)Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)을 만족한다.
따라서 ZZ를 기준으로 정리하면 p(dσ/nZdσ/n)=0.95p(-\frac{d}{\sigma/\sqrt{n}} \le Z \le \frac{d}{\sigma/\sqrt{n}}) = 0.95 이다.
정규분포의 특정 quantile 값들은 이미 알려져있으므로 z0.025z_{0.025}2.5th2.5^{th} quantile 값이라고 했을때
n=z0.0252σ2d2n = z_{0.025}^2\frac{\sigma^2}{d^2}
으로 정리할 수 있다. 단, 모집단의 분산이 알려지지 않은 경우 추정치(σ^2)(\hat{\sigma}^2)로 대체한다.

2. 이항 분포를 따른다고 가정

표본 평균이 이항 분포를 따르는 경우 Z=Xˉpp(1p)nN(0,1)Z = \frac{\bar{X}-p}{p(1-p)\sqrt{n}} \sim N(0,1) 을 만족한다.
따라서 위와 같은 방법으로
n=z2p(1p)d2n = z^2\frac{p(1-p)}{d^2}
를 구할 수 있다. 이때 모비율 pp에 대한 정보가 없는 경우 p^\hat{p}로 대체한다.