I. 초기하분포
1. 단순랜덤추출
크기가 N인 유한모집단에서 크기 n의 표본을 비복원으로 뽑는 경우에 대해 생각해봅시다. 비복원이란 이미 뽑은 샘플을 모집단으로 돌려보내지 않은 상태에서 다음 시행을 진행한다는 뜻입니다. 이러한 경우에 표본을 뽑을 수 있는 방법은 모두 \( \bigl(\begin{smallmatrix} N \\ n \end{smallmatrix}\bigr)\) 가지 입니다. 이 경우의 수가 동일한 확률로 뽑힐 수있도록 표본을 추출하는 방법을 유한모집단에서의 단순랜덤추출 또는 단순임의 추출 (simple random sampling) 이라고 합니다.
예를 들어 크기가 4인 유한한 모집단 {A, B, C D}에서 크기 2인 표본을 단순랜덤추출할 때 뽑힐 수 있는 표본의 결과와, 각 표본의 확률은 다음 테이블과 같습니다.
sample result | possibility |
{A, B} | 1/6 |
{A, C} | 1/6 |
{A. D} | 1/6 |
{B, C} | 1/6 |
{B, D} | 1/6 |
{C, D} | 1/6 |
모집단의 크기가 4이므로, 가능한 표본은 4x3/2 = 6가지이며, 각각의경우가 같은 확률로 나타날 수 있으므로 확률은 모두 1/6입니다.
2. 초기하분포
이제 크기 N인 모집단에서 M개가 특별한 속성 A를 갖고 있고 나머지 N-M개는 속성 A를 가지고 있지 않다고 가정해봅시다. 이러한 모집단에서 크기 n의 표본을 단순랜덤추출 할 때, 추출된 표본에서 속상 A를 갖고 있는 것의 개수 X의 확률분포를 초기하분포(Hypergeometric distribution)라 부릅니다. 확률변수 x의 경우를 생각해 봅시다.
A 속성의 전체 개수 M개 중에서 먼저 x 개를 뽑고,
나머지 속성의 개수 N-M개 중에서 n-x 개를 뽑는 경우 입니다.
당연히 N-M 은 n-x 보다 크거나 같아야 하고, x는 n보다 작거나 같아야 하고, x는 M보다 작거나 같아야 합니다.
이를 식으로 나타내면 아래와 같습니다.
\[P(X = x) = \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}}\]
3. 초기하분포의 평균
초기하분포의 평균을 구해는 공식입니다. 다만 4번째 수식에서 \( \sum \) 안의 값이 다음 수식에서 1로 표현되는데, 자세히 보시면 이 부분은 초기하분포의 확률분포의 합으로 1입니다.
\begin{aligned}
\text{E}(X)
&= \sum_{x=0}^{n} x \cdot \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=1}^{n} x \cdot \frac{M!}{x!(M - x)!} \cdot \frac{(N - M)!}{(n - x)!(N - M - (n - x))!} \cdot \frac{1}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=1}^{n} M \cdot \frac{(M - 1)!}{(x - 1)! (M - x)!} \cdot \frac{\dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= M \cdot \sum_{x=1}^{n} \frac{\dbinom{M - 1}{x - 1} \dbinom{N - M}{n - x}}{\dbinom{N-1}{n-1} \cdot \frac{N}{n} } \\[8pt]
&= \frac{M \cdot n}{N} \\[8pt]
&= n \cdot p \quad \text{where } p = \frac{M}{N}
\end{aligned}
4. 초기하분포의 분산
초기하분포의 분산을 구해봅시다. 초기하 분포의 분산은 약간의 수학적 기술이 필요합니다. 분산은 앞서 제곱의 평균에서 평균의 제곱을 빼서 계산하는 것을 배웠습니다. 그런데 이걸 평균과 비슷한 방식으로 구하게 되면 식이 잘 정리되지 않는 문제가 있습니다.
일반적인 분산식을 조금 변경해서 다음과 같이 정리해 보겠습니다.
\begin{aligned}
\text{Var}(X) &= \text{E}(X^2) - [\text {E}(X)]^2 \\[8pt]
&= [\text {E}(X^2) - \text {E}(X)] + \text {E}(X) - [\text {E}(X)]^2 \\[8pt]
\end{aligned}
평균은 앞서 구했으니 \( E(X^2)-E(X) \) 이 부분만 계산하면 됩니다. 그리고 이 값은 \( E[X(X-1)] \) 의 값입니다.
\[
\begin{aligned}
\text{E}[X(X-1)]
&= \sum_{x=0}^{n} x(x-1) \cdot P(X = x) \\
&= \sum_{x=0}^{n} x(x-1) \cdot \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=2}^{n} x(x-1) \cdot \frac{M!}{x!(M - x)!} \cdot \frac{\dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=2}^{n} M(M - 1) \cdot \frac{(M - 2)!}{(x - 2)!((M - 2) - (x - 2))!} \cdot \frac{\dbinom{(N - 2) - (M - 2)}{(n - 2) - (x - 2)}}{\dbinom{N - 2}{n - 2}} \cdot \frac{n(n - 1)}{N(N - 1)} \\[8pt]
&= \frac{n(n - 1) M(M - 1)}{N(N - 1)}
\end{aligned}
\]
\( \sum \) 안의 값은 확률 질량 함수의 합이므로 값은 1입니다. 따라서 앞서 계산한 분산의 식에 이 결과를 대입해 봅시다.
\[
\begin{aligned}
\text{Var}(X)
&= [\text {E}(X^2) - \text {E}(X)] + \text {E}(X) - [\text {E}(X)]^2 \\[8pt]
&= \frac{n(n-1)M(M-1)}{N(N-1)} +\frac{nM}{N} - (\frac{nM}{N})^2 \\[8pt]
&= \frac{nM(N-M)(N-n)}{N^2(N-1)} \\[8pt]
&= \frac{N-n}{N-1} \cdot n \frac{M}{N} (1- \frac{K}{M}) \\[8pt]
&= \frac{N-n}{N-1} \cdot np(1-p) \text{where } p = \frac{M}{N}
\end{aligned}
\]
'Statistics' 카테고리의 다른 글
이항 분포 (0) | 2025.04.22 |
---|---|
균일 분포 (1) | 2025.04.20 |
확률분포의 기대값과 분산 (0) | 2025.04.17 |
확률변수와 확률분포 (0) | 2025.04.15 |
확률의 기본 개념 (0) | 2025.04.14 |