본문 바로가기

Statistics

검정 : 모비율과 모분산

I. 모비율의 검정 

1) 표본크기 n이 작을 경우

아래와 같은 가설에 대한 검정에 대해 생각해 봅시다. 

 

\[ H_0\, : \, p \leq p_0, \quad H_1 \, :\, p\geq p_0 \]

 

위의 가설에 대해 표본의 비율이 커질 수록 \(H_1\)이 참일 확률이 높아지므로, 기각역은 다음과 같은 형태로 정리할 수 있습니다.

 

\[ R\,:\, X \geq c\]

 

다음은 유의수준 \(\alpha\)가 되는 c 를 찾아야 합니다. 표본의 크기가 작고, \(X\)가 이항분포 \(B(n,p)\)를 따른다고 하면 이 검정법의 검정력 함수는 다음과 같이 계산할 수 있습니다. 

 

\begin{aligned} \gamma_{c}(p) &= P\{X\geq c \, \vert \, ratio=p\} \\[8pt] &= 1-P\{X\leq c-1 \, \vert \, ratio =p\} \\[8pt] &= 1- \sum_{x=0}^{c-1} \begin{pmatrix} n\\x \end{pmatrix} p^x (1-p)^{20-x} \end{aligned}

 

이 수식에서 유의 수준을 만족하는 c를 찾아야 합니다. 

 

예를 들어, 어떤 질병에 대해 치료율이 70%인 약품을 생산하는 회사에서 신약을 개발했다고 합시다. 연구원들이 이 약의 치료율이 기존 약품보다 높다고 주장합니다. 이를 확인하기 위해 20명의 환자를 랜덤으로 추출하여 약을 복용하게 하고, 차유환자의 수를 기록 했다고 합시다.

 

이 예제의 경우 귀무가설과 대립가설은 아래와 같이 쓸 수 있습니다.

 

\[ H_0\, : \, p \leq 0.7, \quad H_1 \, :\, p\geq 0.7 \]

 

그리고 검정력 함수에 임의의 c, p 값을 넣어 계산하면 아래 표와 같이 정리할 수 있습니다. 

  p
c 0.5 0.6 0.7 0.8 0.9
16 \(P\{X\geq16\}\) 0.006 0.051 0.238 0.630 0.957
17 \(P\{X\geq17\}\) 0.001 0.016 0.107 0.411 0.867
18 \(P\{X\geq18\}\) 0.000 0.004 0.035 0.206 0.677
19 \(P\{X\geq19\}\) 0.000 0.001 0.008 0.069 0.392
20 \(P\{X\geq20\}\) 0.000 0.000 0.001 0.012 0.122

 

고정된 c에 대해 p가 증가할 수록 검정력 함수의 값은 증가합니다. 귀무가설에서 \( p \leq 0.7 \) 이라고 하였으므로, 제 1종 오류를 범할 확률은 p0.7에서 최대가 됩니다. 그러므로 유의수준 0.05를 만족하려면, 

 

\[ \gamma_c(0.7) \leq 0.05 \]

 

인 c를 찾으면 됩니다. 위의 표로부터 이러한 조건을 만족하는 c중에서 c=18일 때 그 검정력이 가장 크게 되므로 기각역은 아래와 같이 설정하게 됩니다. 

 

\[ R\,:\, X \geq 18\]

 

검정통계량이 이산형인 경우에는 연속형과는 달리, 미리 지정된 유의수준과 제 1종 오류를 범할 확률의 최대값이 같게 되는 검정법이 없습니다. 위의 예제에서 만약 미리 주어진 유의수준이 0.35 이었더라도 기각역이 \( X \geq 18 \)인 동일한 검정 방법이 얻어지게 됩니다. 일반적으로 모비율의 검정법은 이항검정법 (binomial test) 라고 합니다

 

  • 모비율의 검정 : 표본의 크기가 작은 경우 \(X\)가 이항분포 \(B(n,p)\)를 따를 때, 모비율 \(p\)에 대한 검정
  귀무가설 대립가설 유의수준 \(\alpha\)인 기각
(a) \( H_0\,:\,p \leq p_0\) \( H_1\,:\,p > p_0\) \(X \geq c\) : \(P\{ X\geq c\,\vert\,p=p_0\} \leq \alpha\)인 c 중 최소의 정수
(b) \( H_0\,:\,p \geq p_0\) \( H_1\,:\,p < p_0\) \(X \leq c\) : \(P\{ X\geq c\,\vert\,p=p_0\} \leq \alpha\)인 c 중 최소의 정수
(c) \( H_0\,:\,p = p_0\) \( H_0\,:\,p \neq p_0\) \(X \leq c_1\) or \(X \geq c_2\)

 

단, (c)의 경우에는 \(P\{ X\leq c_1\,\vert\,p=p_0\} \leq \alpha/2\) 인 \(c_1\)중 최대의 정수,  \(P\{ X\geq c_2\,\vert\,p=p_0\} \leq \alpha/2\) 인 \(c_2\)중 최소의 정수입니다. 

 

2) 표본크기 n이 크고, \(p=p_0\)가 매우 작은 경우

표본의 크기가 크고, 확률이 작은 이항분포는 근사적으로 평균이 \(np_0\)인 포아송분포로 나타낼 수가 있습니다. 포아송분포 

 

\[ X \sim Poisson(np_0), \quad (n\rightarrow \infty, \, np_0<5) \]

 

따라서 예를 들어 귀무가설과 대립가설이 다음과 같이 주어진다면, 

 

\[ H_0\, : \, p \leq p_0, \quad H_1 \, :\, p\geq p_0 \]

 

포아송분포로 부터 다음과 같은 검정력 함수를 도출할 수 있고,

 

\[ P\{X \geq c \, \vert \, p=p_0\} = 1 - \sum_{x=0}^{c-1} e^{-np_0}(-np_0)^x / x! \]

 

이 값이 유의수준 \(\alpha\)보다 작은 c중에서 최소인 정수 c를택하여 기각역을 다음과 같이 설정할 수 있습니다.  

 

\[ R\,:\, X \geq c\]

 

예제를 살펴봅시다. 어떤 공장의 불량률은 4%로 알려져 있습니다. 공정을 개선한 뒤 생산한 제품 중에서 100개를 랜덤 추출하여 조사하였더니 불량품이 3개가 검출되었습니다. 이 경우에 공정의 불량률이 종전보다 개선되었는지를 유의수준 0.1에서 검정해봅시다. 

 

1) 가설 수립 : 새로운 공정의 불량률을 \(p\)라고 하며느 귀무가설과 대립가설은 다음과 같습니다.

 

\[ H_0\, : \, p \leq 0.04, \quad H_1 \, :\, p\geq 0.04 \]

 

2) 확률분포와 검정기준 수립

표본의 크기는 n=100으로 크고, \(np_0 = 4 < 5 \) 로서 \(p_0\)가 충분히 작은 경우이므로 포아송 분포를 적용할 수 있습니다. 유의 수준이 0.05라고 하였으므로, 포아송근사를 이용해 기각역을 정의합니다.

 

\[ P\{X\leq c\} = \sum_{x=0}^c e^{-4} 4^{X} / x! \leq 0.1 \]

 

위 식을 만족하는 c 중에서 최대인 값을 찾아보면1 입니다. 따라서 기각역은 아래와 같이 정의 할 수있습니다.  

 

\[ R\,:\, X \geq 1\]

 

관측결과는 x=3 이므로, 귀무가설을 기각할 수 없습니다. 따라서 해당 유의수준에서는 새로운 공정이 기존 공정보다 낫다는 뚜렷한 증거는 존재하지 않는다고 해석할 수 있습니다.  

 

3) 표본크기 n이 크고, \(p=p_0\)가 작지 않은 경우

표본의 크기가 크고 \(p_0\)가 작지 않은 경우, \(np_0 \geq 5\), \(nq_0 \geq 5\) 이면, X의 분포는 근사적으로 정규분포 \(N(np_0, np_{0}q_{0})\) 이므로 검정통계량은 아래와 같이 정의되며, 

 

\[Z = \frac{X-np_0}{\sqrt{ np_{0}q_{0} }} = \frac{\hat{p}-p_{0}}{\sqrt{p_{0}q_{0}/n}}\]

 

근사 기각역은 다음과 같습니다. 

  귀무가설 대립가설 유의수준 \(\alpha\)인 기각역
(a) \( H_0\, :\, p \leq p_0 \) \( H_1\, :\, p > p_0 \) \(Z \geq z_{\alpha}\)
(b) \( H_0\, :\, p \geq p_0 \) \( H_1\, :\, p < p_0 \) \(Z \leq -z_{\alpha}\)
(c) \( H_0\, :\, p = p_0 \) \( H_1\, :\, p \neq p_0 \) \( \vert Z \vert \geq z_{\alpha/2}\)

 

II. 모분산의 검정

모평균 \(\mu\)와 모분산 \(\sigma^2\)이 알려지지 않은 정규모집단 \(N(\mu,\sigma^2)\)의 모분산의 가설 검정에 대해 생각해봅시다. 지금까지 설명 한 것 처럼 검정의 시작은 역시 가설 정의 입니다. 우선 아래와 같은 가설을 세워봅시다.

 

\[ H_0 \, :\, \sigma^2 \geq \sigma_0^2, \quad H_1\,:\, \sigma^2 < \sigma_0^2 \]

 

여기서 \(\sigma^2\)은 주어진 상수 값입니다. 이 때, 크기 n인 확률표본으로부터의 표본분산 \(S^2 = \sum_{i=1}^n(X_i - overline{X})^2 / (n-1) \)의 값이 작을 수록 대립가설 \(H_1\)이 참일 확률이 높아집니다. 따라서 기각역은 다음과 같은 형태로 생각해볼 수 있습니다.

 

\[R\,:\, S^2 \leq c\] 

 

다음은 유의수준이 \(\alpha\)가 되도록 c의 값을 선정해줍시다. 앞서 표본분산 \(S^2\)에 대하여 \( (n-1)S^2/\sigma^2 \)은 자유도 (n-1)인 카이제곱분포를 따른 다는 것을 배웠습니다. 자유도가 n-1인 카이제곱분포를 따르는 확률변수를 V라고 하면, 이 검정법의 검정력 함수는 다음과 같이 나타낼 수 있습니다. 

 

\begin{aligned} \gamma(\sigma^2) &= P\{S^2\leq c \,\vert\, variance=\sigma^2\} \\[8pt] &= P\{(n-1) S^2 / \sigma^2 \leq (n-1) c / \sigma^2\} \\[8pt] &= P\{V \leq (n-1) c / \sigma^2\} \end{aligned}

 

이 검정력 함수는 분산이 작아질 수록 증가하므로, 귀무가설 \(H_0\,:\, \sigma^2 \geq \sigma_0^2\) 에서 1종 오류를 범할 확률은 \(\sigma^2 = \sigma_0^2\) 에서 최대가 됩니다. 따라서 유의 수준을 \(\alpha\)로 하려면, 

 

\[ \gamma(\sigma_0^2) = \alpha, \quad \rightarrow (n-1)c / \sigma_0^2 = \chi^2(n-1, 1-\alpha)\]

 

를 이용해 c를 정의하면 됩니다. 이때 유의수준 \(\alpha\)이 기각역은 다음과 같이 주어집니다

 

\[S^2 \leq \sigma_0^2 \chi^2(n-1, 1-\alpha)/(n-1), \, \text{or}\, (n-1)S^2 / \sigma_0^2 \leq \chi^2(n-1, 1-\alpha) \]

 

이와 같은 검정법을 카이제곱검정법(chi-square test) 이라 하고, 위에서 정의한 가설 이외에도 우측, 양측 검정도 동일하게 할수 있습니다. 이를 요약하면 아래와 같습니다.  

 

  • 모분산의 검정 : 정규모집단에서 검정통계량

\[ \chi^2 = (n-1)S^2/\sigma_0^2\]

  • 기각역
  귀무가설 대립가설 유의수준 \(\alpha\)인 기각역
(a) \(H_0\,:\,\sigma^2 \leq \sigma_0^2\) \(H_1\,:\,\sigma^2 > \sigma_0^2\) \(\chi^2 \geq \chi^2(n-1,\,\alpha) \)
(b) \(H_0\,:\,\sigma^2 \geq \sigma_0^2\) \(H_1\,:\,\sigma^2 < \sigma_0^2\) \(\chi^2 \leq \chi^2(n-1,\,1-\alpha) \)
(c) \(H_0\,:\,\sigma^2 = \sigma_0^2\) \(H_1\,:\,\sigma^2 \neq \sigma_0^2\) \(\chi^2 \leq \chi^2(n-1,\,1-\alpha/2) \, \text{or} \, \chi^2 \geq \chi^2(n-1,\,\alpha/2) \)

 

'Statistics' 카테고리의 다른 글

t-검정 : 모평균의 비교  (0) 2025.05.20
통계분석 방법의 종류  (0) 2025.05.18
검정 : 모평균  (0) 2025.05.14
검정의 원리  (0) 2025.05.12
구간추정  (0) 2025.05.07