I. 두 모비율의 비교
두 모평균을 비교하는 검정의 경우 두 제조 설비에서 생산된 제품의 특성의 평균을 비교하는 문제를 예로 들어설명한 적이 있습니다. 모비율의 경우는 각각의 제조설비에서 생산되는 제품의 합격 비율을 비교하는 문제로 생각해볼 수 있습니다. 만약 A설비에서 생산된 제품의 합격율이 \(P_1\), B설비에서 생산된 제품의 합격율이 \(P_2\)이라고 할 때, \(P_1\), \(P_2\)의 차이는 어떻게 검정할 수 있는지 알아봅시다. 우선 자료 형태는 다음과 같습니다.
1) 자료 형태
- 집단 1 : 모집단 1로부터 크기 \(n_1\)의 표본 추출, 성공횟수 \(X\), \(\hat{p_1} = X/n_1\)
- 집단 2 : 모집단 2로부터 크기 \(n_2\)의 표본 추출, 성공횟수 \(Y\), \(\hat{p_2} = Y/n_2\)
2) 통계량 : 각 모비율에 대해서는 표본비율의 값을 대응할 수 있으며, 표본비율의 통계량은 다음과 같습니다. 모비율의 추정에 대해서는 다음 글을 참고 하시면 좋을 것 같습니다. 모비율의 추정
\begin{aligned} E(\hat{p_1})=p_1&, \quad Var(\hat{p_1}) = \frac{p_1(1-p_1)}{n_1} \\ E(\hat{p_2})=p_2&, \quad Var(\hat{p_2}) = \frac{p_2(1-p_2)}{n_2} \end{aligned}
3) 신뢰 구간
위의 두 확률표본은 서로 독립이므로, \(\hat{p_1}\), \(\hat{p_2}\)는 독립이 되고, 따라서 표본비율의 차의 평균과 분산은 각각 다음과 같이 계산할 수 있습니다.
\begin{aligned} E(\hat{p_1}-\hat{p_2}) &= p_1 - p_2 \\[8pt] Var(\hat{p_1} - \hat{p_2}) &= \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} \end{aligned}
\(p_1\), \(p_2\)의 값은 각각 \(\hat{p_1}\), \(\hat{p_2}\) 으로 추정해 계산할 수 있습니다. 그리고 표본의 크기가 큰 경우에 \(\hat{p_1} - \hat{p_2}\) 는 근사적으로 정규 분포를 따르게 됩니다. 따라서 \(\hat{p_1} - \hat{p_2}\)를 표준화 하게 되면 다음과 같은 분포를 도출할 수 있습니다.
\[ \frac{ (\hat{p_1}-\hat{p_2}) - (p_1-p_2) }{ \sqrt{ \frac{\hat{p_1}(1-\hat{p_1})}{n_1} +\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}} \sim N(0,1) \]
따라서 신뢰구간은 다음과 같이 정의할 수 있습니다.
- 표본의 크기가 큰 경우 \(p_1 - p_2\)에 대한 \(100(1-\alpha)\%\) 신뢰구간
\[ (\hat{p_1} - \hat{p_2}) \pm z_{\alpha/2} \sqrt{ \frac{ \hat{p_1}(1-\hat{p_1}) }{ n_1 } + \frac{ \hat{p_2}(1-\hat{p_2}) }{ n_2 } } \]
4) 모비율의 검정
모비율의 검정에 있어 귀무가설은 다음과 같이 정의 할 수 있습니다.
\[ H_0\,:\, p_1 = p_2 \]
이 귀무가설은 두 모집단이 공통의 모비율(=p)을 가지고 있다는 뜻이므로, 위 귀무가설 아래 \( \hat{p_1} -\hat{p_2} \)의 평균과 분산은 다음과 같이 정의할 수 있습니다.
\begin{aligned} E(\hat{p_1}-\hat{p_2}) &= 0 \\[8pt] Var(\hat{p_1} - \hat{p_2}) &= p(1-p)( \frac{1}{n_1} + \frac{1}{n_2} ) \end{aligned}
또한 공통의 모비율 \(p\)의 추정량은 두 집단의 평균을 이용해 아래와 같이 계산 할 수 있습니다.
\[ \hat{p} = \frac{ X+Y }{n_1 +n_2} \]
따라서 귀무가설의 검정 통계량은 다음과 깉이 정의할 수 있습니다.
- 표본의크기가 큰 경우 귀무가설 \( H_0\,:\, p_1 = p_2\)을 검정하기 위한 검정통계량
\[Z= \frac{ \hat{p_1} - \hat{p_2} }{ \sqrt{ \hat{p}(1-\hat{p}) } \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} } } \]
예제입니다. 수업 방법에 따른 효과를 비교하기 위해 350명의 학생으로 부터 150명은 A 타입, 200명은 B타입의 수업을 듣게 한 후 동일 시험에 대한 합격자를 조사 해 아래와 같은 표를 얻었습니다.
A타입 | B타입 | |
합격 | 110 | 120 |
불합격 | 40 | 80 |
합계 | 150 | 200 |
1) 먼저 합격율 차에 대한95% 신뢰 구간을 구해봅시다.
주어진 자료로부터 통계량을 계산하면 다음과 같습니다.
\[ \hat{p_1} = 110/150 = 0.73,\quad \hat{p_2} = 120/200 = 0.60 \]
이를 이용해 신뢰구간을 계산하면 다음과 같습니다 .
\begin{aligned} (\hat{p_1} - \hat{p_2}) &\pm z_{\alpha/2} \sqrt{ \frac{ \hat{p_1}(1-\hat{p_1}) }{ n_1 } + \frac{ \hat{p_2}(1-\hat{p_2}) }{ n_2 } } \\[8pt] &= (0.73-0.6) \pm 1.96 \sqrt{ \frac{0.73\times0.27}{150} + \frac{0.60\times 0.40}{200}} \\[8pt] &= 0.13 \pm 1.96 \times 0.0501 \\[8pt] &= 0.13 \pm 0.098 \end{aligned}
2) 주어진 데이터에 대해 A타입의 수업이 B타입보다 합격률이 높다고 할 수 있는지, 유의수준 5%에서 검정해봅시다.
우선 귀무가설과 대립가설은 다음과 같습니다.
\[ H_0\,:\, p_1 = p_2, \quad H_1\,:\, p_1 > p_2 \]
귀무가설에 대해 두 모집단의 비율이 같으므로, 두 표본을 이용해 두 모집단의 공통 모비율을 추정할 수 있습니다.
\[ \hat{p} = \frac{ 110+120 }{ 150 + 200 } = 0.657 \]
그리고 검정통계량은 값은 다음의 식을 이용해 계산할 수 있습니다.
\begin{aligned} Z&= \frac{ \hat{p_1} - \hat{p_2} }{ \sqrt{ \hat{p}(1-\hat{p}) } \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} } } \\[8pt] &= \frac{ 0.13 }{ \sqrt{0.657 \times 0.343} \sqrt{ \frac{1}{150} + \frac{1}{200}} } = 2.534 \end{aligned}
유의수준 5%에서의 기각역은 \(R\,:\, Z \geq 1.645\) 이므로 유의수준 5%에서 귀무가설은 기각됩니다. 따라서 A타입 수업의 합격률이 B타입 수업보다 더 높다고 주장할 수 있습니다.
II. 두 모분산의 비교
앞서 두 모집단의 평균을 비교하는 법에 대해 배웠습니다. 평균이 같으면 두 모집단의 특성은 같은걸까요? 당연히 아닙니다. 평균만큼이나 산포의 정도가 중요한 의미를 가지는 경우도 많이 있습니다. 가령 어떤 공장의 두 제조 설비에서 생산된 제품의 표본을 비교한다고 합시다. 평균이 같다고 해서 설비의 성능이 동일한 것은 아닐 겁니다. 만약 특정 설비에서 생산된 제품의 산포가 크다면, 기준을 넘어서는 제품이 많이 생산된다는 의미이기 떄문입니다. 그럼 모분산을 비교하는 방법에 대해 알아봅시다.
1) 자료 형태 : 독립인 확률 표본
- 집단 1 : 모평균 \(\mu_1\), 모분산 \(\sigma_1^2\) 인 \(N(\mu_1, \sigma_1^2)\) 에서 \(n_1\)개 추출 : \(X_1\), \(X_2\), ... , \(X_{n_{1}}\)
- 집단 2 : 모평균 \(\mu_2\), 모분산 \(\sigma_2^2\) 인 \(N(\mu_2, \sigma_2^2)\) 에서 \(n_2\)개 추출 : \(Y_1\), \(Y_2\), ... , \(Y_{n_{2}}\)
2) 통계량 : 모분산에 대한 추론은 표본분산을 이용합니다.
- 집단 1 :
\[ S_1^2 = \sum_{i=1}^{n_1} (X_i - \overline{X})^2/ (n_1-1)\]
- 집단 2 :
\[ S_2^2 = \sum_{i=1}^{n_2} (Y_i - \overline{Y})^2/ (n_2-1)\]
두 집단의 표본분산이 위와 같이 정의 될 때 검정을 위한 통계량은 \(S_1^2/S_2^2\) 로 정의할 수 있습니다.
3) 통계량의 분포
모분산이 같다고 할 수 있는가에 대한 검정의 귀무가설은 다음과 같이 나타낼 수 있습니다.
\[H_0\,:\, \sigma_1^2 / \sigma_2^2 =1 \]
그리고 2)에서 선정한 통계량의 분포는 F 분포를 이용해 다음과 같이 정의할 수 있습니다.
\[ F = \frac{ S_1^2/\sigma_1^2 }{ S_2^2/\sigma_2^2} = \frac{ \frac{1}{n_1-1} \sum_{i=1}^{n_1} (X_i - \overline{X})^2/ \sigma_1^2 }{ \frac{1}{n_2-1} \sum_{i=1}^{n_2} (Y_i - \overline{Y})^2/ \sigma_2^2 }\sim F(n_1-1, n_2-1) \]
4) 두 모분산 비에 대한 검정
두 모분산 비에 대한 검정은 검정통계량 F가 귀무가설 조건에서 F분포를 따른다는 것을 이용해, 다음과 같은 검정법을 사용할 수 있습니다.
- 귀무가설 \(H_0\,:\, \sigma_1^2 / \sigma_2^2 = 1\) 에 대한 검정통계량 및 기각역
\[F = S_1^2 / S_2^2\]
대립가설 | 유의수준 \(\alpha\)인 기각역 | |
(a) | \(H_1 \,:\, \sigma_1^2 / \sigma_2^2 > 1\) | \(F \geq F(n_1-1, n_2-1 : \alpha\) |
(b) | \(H_1 \,:\, \sigma_1^2 / \sigma_2^2 < 1\) | \(F \leq F(n_1-1, n_2-1 : 1-\alpha\) |
(c) | \(H_1 \,:\, \sigma_1^2 / \sigma_2^2 \neq 1\) | \(F \geq F(n_1-1, n_2-1 : \alpha/2\) 또는 \(F \leq F(n_1-1, n_2-1 : \alpha/2\) |
5) 신뢰구간
마지막으로 \( \sigma_1^2 / \sigma_2^2\)에 대한 신뢰구간을 구해봅시다. 신뢰구간 역시 검정통계량 F가 F분포를 따른다는 성질을 이용해 다음과 같은 식을 통해 계산할 수있습니다. (앞선 식과 집단 1,2의 순서를 바꿔 표기했으니 혼돈 없으시길 바랍니다.)
\[ P\{ F(n_2-1, n_1-1; 1-\alpha/2) \leq \frac{\sigma_1^2}{\sigma_2^2} \cdot \frac{S_2^2}{S_1^2} \leq F(n_2-1, n_1-1;\alpha/2)\} = 1-\alpha\]
- \(\sigma_1^2 / \sigma_2^2\)에 대한 100(1-\alpha)\%) 신뢰구간
\[ \frac{S_1^2}{S_2^2} F(n_2-1, n_1-1; 1-\alpha/2) \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F(n_2-1, n_1-1; \alpha/2)\]
'Statistics' 카테고리의 다른 글
분산분석 : 이원배치 (0) | 2025.05.27 |
---|---|
분산분석 : 일원배치 (3) | 2025.05.26 |
t-검정 : 모평균의 비교 (0) | 2025.05.20 |
통계분석 방법의 종류 (0) | 2025.05.18 |
검정 : 모비율과 모분산 (0) | 2025.05.16 |