I. 점추정
점추정이랑 표본에서 얻어지는 정보를 이용해 모수의 참값으로 생각되는 하나의 값을 특정한 방법을 이용해 선택하는 과정입니다. 이 때 값을 추정하는 방법을 추정량이라하며, 추정량을 통해 선택된 값을 추정값이라 합니다. 점추정의 과정을 좀 더 세밀하게 알아 봅시다. 모수 \(\theta\) 에 의해 특정지어지는 모집단으로 부터의 확률 표본을 \(X_1\), \(X_2\), ... , \(X_n\) 이라 합시다. 확률표본의 관측값 \(x_1\), \(x_2\), ... , \(x_n\) 이 얻어지면 지정한 방법 \(T\)에 의하여 하나의 값을 계산하게 되고, 이를 \(\theta\)의 참값으로 추측하게됩니다.
이 때 \(T(X_1, X_2, .. X_n)\) 은 \(\theta\) 의 추정량(estimator) 이라 하고, \(\hat{\theta}(X_1, X_2, ... X_n)\) 또는 \(\hat{\theta}\) 로 나타냅니다. 또한 특정한 관측값 \(x_1\), \(x_2\), ... , \(x_n\) 에 대한 추정량의 관측값 \(\hat{\theta}(x_1, x_2, ... x_n)\) 을 추정값(estimate) 이라고 하고 마찬가지로 \(\hat{\theta}\) 로 나타냅니다.
추정방법의 좋고 나쁨은 하나의 관측값을 통해 얻어진 결과만으로 판단할 수는 없습니다. 특정 추정방법의 반복적인 사용에 의해 추정값들이 모수의 참값 주위에 얼마나 가까이 분포되는가에 따라 추정방법의 좋고 나쁨이 결정됩니다. 추정량 \(\hat{\theta}(X_1, X_2, ... X_n)\) 의 분포가 참값 \(\theta\)를 균형점으로 하여 나타는 것은 바람직한 성질입니다. 즉, 추정량의 기대값이 참값 \(\theta\)인 것으로, 이러한 추정량을 불편추정량 (unbiased estimator) 이라 하고, 불편추정량이 아닌추정량을 편의추정량 (biased estimator) 라고 합니다.
예를 들어, 확률표본 \(X_1\), \(X_2\), \(X_3\)를 이용하여 모평균 \(\mu\)를 추정할 때, 다음의 세가지 추정량이 존재한다고 가정해 봅시다.
\begin{aligned} \hat{\mu_1}&=(X_1 + X_2 + X_3)/3, \\[8pt] \hat{\mu_2}&=(X_1 + 2X_2 + X_3)/4, \\[8pt] \hat{\mu_3}&=(2X_1 + X_2 + 2X_3)/4, \\[8pt] \end{aligned}
모평균 \( \mu \) 의 세 추정량에 대하여 아래와 같은 기대값이 존재합니다.
\[ \text{E}(\hat{\mu_1}) = \text{E}(\hat{\mu_2}) = \mu, \quad \text{E}(\hat{\mu_3}) = \frac{5}{4}\mu \]
따라서 \( \hat{\mu_1} \), \( \hat{\mu_2} \) 은 불편추정량이고, \( \hat{\mu_3} \)는 편의 추정량임을 알 수 있습니다. 불편성은 추정량의 분포에서 중심위치에 대하여 요구되는 성질로는 적합하지만, 흩어짐의 정도를 나타내지는 못합니다. 아래 그림은 두 둘편 추정량의 분포를 나타내고 있습니다.
이 그림에서 추정량 \( \hat{\theta_1} \) 의 분포는 \( \hat{\theta_2} \) 에 비해 참값 근처에 더 밀집해 있으므로, \( \hat{\theta_1} \)을 사용할 경우 참값에 더 가까운 값을 추정할 기회가 많음을 알 수 있습니다. 이와 같이 흩어짐의 정도를 나타내는측도로서, 흔히 추정량의 표준편차를 사용하고, 이를 추정량의 표준오차 (standard error) 라고 합니다. 또한 불편추정량 중에서 표준오차가 작은 추정량을 더욱 유의(efficient)하다고 말합니다.
정리하자면, 추정량 \( \hat{\theta} \)의 표준편차를 \( \hat{\theta} \) 의 표준오차라 하고, 아래와 같이 표현할 수 있습니다.
\[ S.E. (\hat{\theta}) = \sqrt{var( \hat{\theta}))} \]
그리고
\[ S.E. (\hat{\theta_1}) < S.E. (\hat{\theta_2}) \]
일 때, 추정량 \(\hat{\theta_1}\)이 \(\hat{\theta_2}\) 보다 유효하다고 말할 수 있습니다.
추정량에 요구되는 또 다른 성질로서, 표본의 크기가 매우 크다면 참값에 매우 가까운 추정값을 거의 항상 얻는 것을 기대할 수 있습니다. 이러한 성질을 가진 추정량을 일정추정량 (contant estimator) 라고 합니다. 일치 추정량을 수학적으로 표현하면, 크기가 n인 표본을 이용한 추정량 \( \hat{\theta_n} = \hat{\theta}(X_1, X_1, ... , X_n) \) 에 대하여
\[\lim_{n \to \infty} \text{P} \left( \left| \hat{\theta}_n - \theta \right| < \varepsilon \right) = 1, \quad \forall \varepsilon > 0\]
이 식이 성립하면 \(\hat{\theta_n}\) 을 일치추정량이라 합니다.
II. 모평균의 추정
실제 데이터 분석을 진행하다 보면 차량의 평균 주행 속도, 주말 동안 주행하는 평균 차량의 수 등 모평균을 필요로 하는 경우가 많이 있습니다. 이때 모평균의 추정량으로서는 표본평균 뿐만아니라 표본의 중앙값, 표본의 최대/최소의 평균 등 여러가지를 생각해 볼 수 있습니다. 이들 추정량은 각각의 장단점들이 존재하지만 일반적으로 사용되는 추정량은 표본평균입니다.
모평균이 \( \mu \) 이고, 모표준편차가 \( \sigma \)인 임의의 모집단으로부터 크기 \( n \)인 확률 표본을 \(X_1\), (X_2\), .. (X_n\) 이라 할 때 표본평균에 대해서는 다음의 성질이 성립함을 배운 적이 있습니다. 표본평균의 평균과 표준편차
\[ \text{E} ( \overline{X}) = \mu, \quad \text{sd}( \overline{X}) = \frac{\sigma}{\sqrt{n}} \]
따라서 표본평균은 모평균의 불편추정량이며, 표준오차는 \( S.E. (\overline{x}) = {\sigma}/{\sqrt{n}} \) 임을 알 수 있습니다.
모표준편차를 모르는 경우에는 표본평균의 표준오차를 알 수 없으므로, 모표준편차 \(\sigma\)의 추정값을 이용해야 합니다. 모표준편차의 추정량으로는 표본표준편차를 이용합니다. 따라서 표준오차의 추정량은 \( S / \sqrt{n} \) 이 됩니다.
\[ S = \sqrt{ \sum_{i=1}^n (X_i - \overline{X})^2 / (n-1) } \]
지금까지의 식을 정리하면 모평균 \( \mu \)의 점추정은 다음과 같습니다.
1) 추정량 : 표본평균 \( \hat{\mu} = \overline{X} \)
2) 표준오차 : \( S.E. (\hat{\mu}) = \sigma / \sqrt{n} \)
3) 표준오차의 추정량 (모분산을 모를 때) : \( \hat{S.E. (\hat{\mu})} = S / \sqrt{n} \)
어떤 공장에서 제작된 제품의 30개 샘플의 무게가 아래와 같다고 합시다. 이 샘플을 기반으로 모평균을 구해봅시다.
3.0 3.4 3.1 3.2 2.7 3.2 2.2 3.0 3.3 3.0
2.6 3.1 2.8 2.5 2.0 3.8 3.0 2.8 2.5 2.4
3.0 3.2 2.7 3.4 2.9 3.4 3.4 3.4 3.6 3.0
앞서 모평ㅇ균의 추정에 있어 표본평균이 가장 대표적이라 했지만, 표본평균을 사용하는 것이 가장 적합한지는 샘플의 특성을 보고 결정해야 합니다. 표본평균 외에도 표본중앙값, 절사평균 등이 존재하며 각각이 필요한한 경우는 다음과 같습니다.
추정방법 | 개요 | 적용 상황 |
표본평균 | 표본의 합을 개수로 나눈 값 | - 이상치가 거의 없고 정규성(대칭성)이 있는 데이터일 때 - 가장 널리 사용되는 추정치 |
표본중앙 | 크기 순으로 정렬 후 가운데 값 | - 이상치(outlier)가 있는 경우 - 데이터가 정규분포가 아닐 때(예: 치우친 분포) |
절사평균 | 상하 극단값 일부를 제거한 후 평균 | - 약간의 이상치가 존재하는 경우 - 완전한 중앙값보다는 평균에 가까운 느낌을 줄 때 |
가중평균 | 각 값에 가중치를 부여한 평균 | - 각 데이터 포인트의 중요도나 신뢰도가 다를 때 (예: 센서 정확도 다름) |
위 샘플의 박스플롯을 그리면 아래와 같습니다. 이상치도 없고, 대칭성도 있는 것으로 보입니다. 따라서 표본평균을 사용해도 무방하다고 생각할 수 있습니다.
위 샘플데이터에서 표본평균과 표본표준편차를 구하면, 2.951 과 0.304 입니다. 따라서 모평균의 추정값은 2.951 이며, 표준오차의 추정값은 0.055 입니다. (표본표준편차를 \( \sqrt{30} \) 으로 나눈 값입니다)
위의 결과로부터 모평균이 2.951 이라고 단언할 수는 없습니다. 앞서 배웠듯이 추정값에는 오차가 존재하며, 오차에 대한 정보는 추정량의 표준오차를 단위로 제시하는 것이 관례입니다. 예를 들어, 정규모집단의 경우에는 표본평균의 분포가 정규분포이므로, 표준정규분포로 부터 다음과 같은 식을 도출됨을 알 수 있습니다.
\[ \text{P}( | \overline{X} - \mu | \leq 2 \sigma / \sqrt{n}) = 0.954 \]
이 말은 표본평균을 추정량으로 사용하여 모평균을 1000번 추정한다면, 오차가 \( 2\sigma / \sqrt{n} \) 이내인 것이 954번 정도라는 의미입니다. 이때 \( 2\sigma / \sqrt{n} \)를 \( \hat{\mu} = \overline{X} \) 의 95.4% 오차한계 (limit of error) 라고 합니다. 한편 표본의 크기가 큰 경우에는 중심극한정리로부터, 표본평균의 분포가 근사적으로 정규분포임이 알려져 있고, \( 2\sigma / \sqrt{n} \) 는 95.4% 근사오차한계 (asymptotic limit of error) 라고 합니다.
III. 모비율의 추정
실업률이나 찬성률과 같이 모집단의 특정한 속성을 갖는 비율 p에 대해 추정하고자 하는 경우에, 모비율 p를 모수로 하는 베르누이 분포가 사용됩니다. 이 때 크기가 n인 확률표본에서 특정한 속성을 갖는 것의 개수를 \(X\)라고 하면, p의 추정량은 표본비율 \( \hat{p} = X/n \) 을 떠올릴 수 있습니다. 한편 \(X\)는 이항분포 \( B(n, p) \) 를 따르므로
\[ \text{E}(X) = np, \quad \text{Var}(X) = npq \]
이며, 따라서 표본비율 \( \hat{p} = X / n \) 에 대하여 아래의 식이 성립합니다.
\begin{aligned} \text{E}(\hat{p}) &= \text{E}\left( \frac{X}{n} \right) \\[8pt] &= \frac{1}{n} \text{E}(X) = \frac{1}{n} np = p \end{aligned}
그리고 분산은 아래와 같이 계산되므로,
\begin{aligned} Var(\hat{p}) &= Var \left( \frac{X}{n} \right) \\[8pt] &= \frac{1}{n^2} Var(X) \\[8pt] &= \frac{npq}{n^2} = \frac{pq}{n}\end{aligned}
표준오차는 다음과 같이 정의할 수 있습니다.
\[ S.E. (\hat{p}) = \sqrt{\frac{pq}{n}} \]
위 식에서 알 수 있듯이 표본비율은 모비율 p의 불편추정량입니다. 그리고 표본의 크기가 큰 경우에는 X의 분포가 근사적으로 \( N(np, npq) \) 이므로 표본비율의 분포는 근사적으로 \( N(p, pq/n) \) 입니다. 따라서 95.4% 근사오차 한계는 \( 2\sqrt{pq/n}\) 입니다.
지금까지의 식을 정리하면 모비율 \( \hat{p} \)의 점추정은 다음과 같습니다.
1) 추정량 : 표본비율 \( \hat{p} = X/n \)
2) 표준오차 : \( S.E. (\hat{p}) = \sqrt{pq/n} \)
IV. 모분산의 추정
모분산은 모집단의 분포가 흩어져 있는 정도를 나타내는 양입니다. 흩어짐을 나타낼 수 있는 통계량으로는 아래와 같은 종류가 있습니다.
추정방법 | 수식형태 | 특성 적용 상황 |
불편분산 | \( \frac{1}{n-1} \sum (x_i - \overline{x})^2 \) | - 모분산의 불편 추정량 - 분모가 n−1n-1인 이유는 자유도 보정 때문 |
표본중앙 | \( \frac{1}{n} \sum (x_i - \overline{x})^2 \) | - 모분산에 대해 편향 있음 - 계산은 단순 - 큰 표본일수록 불편분산과 차이 작아짐 |
절사평균 | \( \frac{1}{n} \sum (x_i - \overline{x})^2 \) | - 모수 추정 시 MLE에 적합 - 편향 있음 - 수학적으로 다루기 쉬움 |
여기서 \( \sum (X_i - \overline{X})^2 \) 에 대해 식을 전개해 봅시다.
\begin{aligned} \text{E}[ \sum_{i=1}^n ( X_i -\overline{X} )^2 ] &= \text{E}[ \sum_{i=1}^n X_i^2- n\overline{X}^2 ] \\[8pt] &= \sum_{i=1}^n \text{E}(X_i^2) -n \text{E} ( \overline{X}^2) \\[8pt] &= \sum_{i=1}^n \text{E}(X_1^2) -n \text{E} ( \overline{X}^2) \\[8pt] &=n[Var(X_1)+\text{E}(X_1)^2 ] - n[Var(\overline{X} + \text{E}(\overline{X})^2] \\[8pt] &= n(\sigma^2 +\mu^2) -n(\sigma^2/n + \mu^2) \\[8pt] &= (n-1)\sigma^2 \end{aligned}
그리고 표본분산을 아래와 같이 정의 하면,
\[ S^2 = \sum_{i=1}^{n} (X_i-\overline{X})^2 / (n-1) \]
\(S^2 = \hat{\sigma}^2\) 은 모분산의분편 추정량이 됩니다. 또한 모표준편차의 \( \sigma \) 의 추정량은 표본표준편차 \(S\)를 사용합니다.
모분산과 모표준편차의 점추정에 대한 식을 정리하면 다음과 같습니다.
1) 모분산 추정량 : 표본분산 \( \hat{\sigma}^2 = S^2 = \sum_{i=1}^{n} (X_i-\overline{X})^2 / (n-1) \)
2) 모표준편차 추정량 : 표본표준편차 : \( \hat{\sigma} = \sqrt{S^2} = S \)