I. 확률표본
어떤 전구 회사에서 전구를 무한히 많이 생산한다면, 전구 수명에 대한 분포를 상상해 볼 수 있습니다. 그리고 만약
100개의 전구를 표본으로 택하여 수명 시간 \(X_1\), \(X_2\), ..., \(X_{100} \) 을 기록한다면, 이 수명 시간은 실제수명 분포에 따라 그 빈도가 결정될 것입니다. 그리고 이 100개의 값이 어떻게 나타날 것인지는 서로 영향을 주지 않기 떄문에 독립입니다.
이 처럼 서로 독립이고, 동일한 분포를 따르는 확률변수를 확률표본 (sample distribution) 이라고 합니다.
II. 표본분포
확률표본의 통계량의 확률분포를 표본분포라고 합니다. 이 말을 조금 더 자세하게 정리해 보겠습니다.
먼저 확률표본의 통계량에 대해 알아봅시다. 통계량은 모집단의 어떤 특성에 관심이 있느냐에 따라 정의 할 수있습니다. 예를 들어 표본평균 (sample mean)은 모평균 \( \mu \) 추론에 사용되며, 모분산의 추론에 사용할 수 있는 표본분산(sample variance) 도 정의할 수 있습니다. 표본 분산의 정의에서 n-1로 나누는 것은 다음에 다시 설명하도록 하겠습니다.
표본 평균
\[ \overline{X} = \sum_{i=1}^{n} X_{i} / n \]
표본 분산
\[ S^{2} = \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} / (n-1) \]
식에서 볼 수 있듯이 표본평균과, 표본분산은 확률 변수 입니다. 예를들어 확률표본 \(X_1\), \(X_2\), ..., \(X_{n} \) 의 관측값이 \(x_1\), \(x_2\), ..., \(x_{n} \) 이면 표본 평균
\[
\overline{x} = \frac{1}{n} \sum_{i=1}^{n} X_i
\]
를 관측값으로 가지게 됩니다.
예를 들어 봅시다. 모집단의 분포가 아래와 같을 때, 이 모집단에서 크기 2인 확률표본을 추출한다고 합시다. 그럼 이 확률포본의 표본평균은 어떤 확률분포를 가지게 될까요.
x | 0 | 1 | 2 | 3 |
f(x) | 0.3 | 0.4 | 0.2 | 0.1 |
확률표본은 독립적이라고 하였으니, 결합분포의 확률은 각 확률의 곱으로 표현할 수 있습니다.
\( x_1 \) , \( x_2 \) | 0 | 1 | 2 | 3 | sum |
0 | 0.09 | 0.12 | 0.06 | 0.03 | 0.3 |
1 | 0.12 | 0.16 | 0.08 | 0.04 | 0.4 |
2 | 0.06 | 0.08 | 0.04 | 0.02 | 0.2 |
3 | 0.03 | 0.04 | 0.02 | 0.01 | 0.1 |
sum | 0.3 | 0.4 | 0.2 | 0.1 | 1 |
다음으로 확률분포의 표본평균의 확률을 계산해 봅시다. X는 0, 1, 2, 3으로 구성되어 있으니 샘플의 평균이 가질 수 있는 값은 0, 0.5 1.0, 1.5, ... 2.5, 3.0 입니다. 그리고 이에 대한 확률은 위의 표에서 계산할 수 있습니다. 예를 들어 \( \overline{X} \) = 1.5 인 경우에는 (0,3), (1,2), (2,1), (3,0)에 해당하므로
\[ \text{P}\{ \overline{X}=1.5\} = 0.03 + 0.08 + 0.08 + 0.03 = 0.22 \]
로 계산할 수 있습니다. 따라서 확률분포는 아래의 표와 같습니다.
\( \overline{x} \) | 0 | 0.5 | 1 | 1.5 | 2 | 2.5 | 3 | sum |
probability | 0.09 | 0.24 | 0.28 | 0.22 | 0,12 | 0.04 | 0.01 | 1 |
이렇듯 샘플의 통계량은 확률분포로 나타낼 수 있으며 이를 표본분포 (Sample Distribution) 이라고 합니다. 모집단에서 표본크기 n으로 표본을 k개 뽑아서 평균을 계산한다고 하면, 그 표본의 평균 \( \overline{X_{1}}, \overline{X_{2}} , ... , \overline{X_{n}} \) 의 확률분포를 표본분포라 합니다.
표본은 몇 번이든 추출이 가능합니다. 그리고 이들 통계량의 값은 다르기 때문에 불규칙한 분포를 보이게 됩니다. 표본분포의 불규칙한 분포 크기(표준편차)를 표준 오차라 하며, 오차 범위를 예측하는데 사용됩니다.
III. 표본평균의 평균과 표준편차
표본평균의 분포에 대해 알아봅시다. 표본 평균은 모집단의 분포를 따르는 표본의 평균을 의미합니다. 그리고 이러한 표본 추출을 여러번 반복했을 때의 분포를 표본평균의 분포라 합니다. 아래 그림과 같은 과정을 통해 표본평균의 분포는 구해지게 됩니다. 그럼 이러한 표본평균의 분포는 어떠한 특징이 있는지 알아봅시다.
\(X_1\), \(X_2\), ... , \(X_n\) 이 정규모집단 \( N(\mu, \sigma^2) \) 으로부터의 확률표본일 때, 이 확률표본으로부터의 표본평균을 아래와같이 정의할 수 있습니다.
\[ \overline{X} = \sum_{i=1}^n X_i / n \]
이 표본평균의 분포에 대한 성질을 알아보기 전에, 먼저 표본평균의 기대값과 분산을 계산해 봅시다. 표본평균의 기대값은 아래와 같이 계산할 수 있습니다.
\begin{aligned} \text{E}(\overline{X}) &= \frac{1}{n} \text{E}( X_1 + X_2 + ... X_n) \\[8pt] &=\frac{1}{n} [ \text{E}(X_1) + \text{E}(X_2) + .. \text{E}(X_n)] = \frac{1}{n}n\mu = \mu \end{aligned}
분산은 다음과 같이 계산할 수 있습니다.
\begin{aligned} \text{Var}( \overline{X}) &= \frac{1}{n^2} \text{Var} (X_1 + X_2 + ... X_n) \\[8pt] &= \frac{1}{n^2} [\text{Var}(X_1) + \text{Var}(X_2) + .., + \text{Var}(X_n)] = \frac{1}{n^2} n \sigma^2 = \frac{\sigma^2}{n} \end{aligned}
이 식으로부터 표본평균의 평균은 모집단의 평균과 같으며, 표본의 크기 n이 클수록 그 분산이 0에 가까워진다는 것을 알 수 있습니다. 가령 모집단의 수가 100개일때 극단적으로 샘플을 100개를 선택한다고 해봅시다. 그럼 이 표본의 평균은 모집단의 평균과 일치하며, 모집단의 수와 샘플의 수가 같기 때문에 표본평균은 변하지 않고, 분산은 0이 됩니다.
그럼 모집단의 분포가 정규분포 \( \text{N}( \mu, \sigma^2) \) 인 경우에 \( \overline{X} \) 이 분포에 대해 알아 봅시다. 이를 위해서 먼저 정규분포의 성질에 대해 알아야 합니다. 앞서 정규분포 페이지에서 간단히 설명한 내용이지만, 정규분포는 아래와 같은 성질이 있습니다.
\( X \sim \text{N}( \mu, \sigma^2)\) 일 때 임의의 상수 a,b 에 대해 aX+b는 정규분포를 따르며, 아래의 식이 성립합니다.
\[ \text{aX+b} \sim \text{N}(a \mu + b, a^2 \sigma^2) \]
또한 \( X_1 \sim \text{N}( \mu_1, \sigma_1^2)\), \( X_2 \sim \text{N}( \mu_2, \sigma_2^2)\) 이고 \(X_1\), \(X_2\)가서로 독립이면 아래의 식이 성립합니다.
\[ X_1 + X_2 \sim \text{N}( \mu_1 + \mu_2, \, \sigma_1^2 + \sigma_2^2 ) \]
따라서 위 성질을 적용하면 \( \overline{X} \)의 분포 역시 정규분포임을 알 수 있으며, 앞서 구한 기대값과 분산을 이용하면 표본평균의 분포는 아래와 같음을 알 수 있습니다.
\[ \overline{X} \sim \text{N} \left( \mu, \frac{\sigma^2}{n} \right) \]
이 식은 모집단의 분포가 정규분포임을 가정하고 도출한결과 입니다. 따라서 모집단의 분포가 정규분포가 아닐 때도 일반적으로 성립하는 내용은 아닙니다. 그러나 표본의 크기가 충분히 클 때는 모집단의 분포가 정규분포가 아니더라도 이 모집단으로 부터의 표본평균은 그 분포가 정규분포에 근사하다라는 내용이 알려져 있으며, 이것이 바로 중심극한정리 (Central Limit Theorom) 입니다.
IV. 중심극한정리
평균이 \( \mu \) 이고, 분산이 \( \sigma^2 \) 인 임의의 모집단으로 부터의 크기 \( n\) 인 확률표본에서의 표본평균은 n이 충분히 크면 근사적으로 정규분포 \( \text{N}( \mu, \frac{\sigma^2}{n}) \)을 따릅니다. 즉 n이 충분히 크면 아래의 식이 성립하게 됩니다.
\[ \text{Z} = \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim \text{N}(0,1) \]
중심극한정리에서 중요한 점은 모집단의 분포와 무관하게 표본의 크기가 충분히 크면 표본평균의 분포가 근사적으로 정규분포가 된다는 점입니다.
예를 들어 0~9 까지의 각 정수를 택할 확률이 0.1인 확률분포를 모집단의 분포라고 합시다. 이 분포는 아래 그림과 같이 균등분포 입니다. 그럼 이 모집단에서 크기 5인 100개의 확률표본을 추철해 각 표본의 평균을 그려봅시다. 모집단의 분포와는 다르게 정규분포에 가까운 형태로 나타나는 것을 볼수 있습니다.
import numpy as np
import matplotlib.pyplot as plt
# Parameters
num_trials = 100 # Number of repetitions
sample_size = 5 # Number of samples per trial
values = np.arange(10) # Values from 0 to 9
probabilities = [0.1] * 10 # Equal probability for each value
# Collect sample means
sample_means = []
for _ in range(num_trials):
sample = np.random.choice(values, size=sample_size, p=probabilities)
sample_mean = np.mean(sample)
sample_means.append(sample_mean)
# Plot histogram
plt.figure(figsize=(8, 6))
plt.hist(sample_means, bins=10, color='skyblue', edgecolor='black')
plt.title("Distribution of Sample Means")
plt.xlabel("Sample Mean")
plt.ylabel("Frequency")
plt.grid(True)
plt.tight_layout()
# Save the figure
plt.savefig("sample_means_histogram.png")
plt.show()
III. 표본비율의 분포
확률변수 \(X\)가 이항분포 \(B(n,p)\) 를 따를 때, 서로 독립이며 베르누이분포 B(1, p)를 따르는 확률변수 \(Y\)에 대하여
\[ X = Y_1+ Y_2+ ... + Y_n \]
으로 나타낼 수 있습니다. 이제 확률변수 \(Y\)의 표본평균에 대해 중심극한정리를 적용하면, 베르누이분포의 평균이 \(p\), 분산이 \( p(1-p) \) 이므로
\[ \frac{X-np}{\sqrt{np(1-p)}} = \frac{\overline{Y}-p}{\sqrt{ \frac{p(1-p)}{n} } } \]
위 수식은 n이 클 때 근사적으로 표준정규분포를 따르게 됩니다. 여기서 표본평균 \( \overline{Y} \)는 표본에서의 성공횟수 비율을ㅇ 나타내고, 흔히 표본비율(sample proportion) 이라 불리는 \( \hat{p} \) 을 사용하게 됩니다. 따라서 표본 비율에 대한 중심극한정리를 적용한 결과는 다음과 같습니다.
\[ \text{Z} = \frac{\hat{p}-p}{\sqrt{p(1-p)}} \sim \text{N}(0,1) \]