본문 바로가기

Statistics

초기하 분포

I. 초기하분포

1. 단순랜덤추출

크기가 N인 유한모집단에서 크기 n의 표본을 비복원으로 뽑는 경우에 대해 생각해봅시다. 비복원이란 이미 뽑은 샘플을 모집단으로 돌려보내지 않은 상태에서 다음 시행을 진행한다는 뜻입니다. 이러한 경우에 표본을 뽑을 수 있는 방법은 모두 \( \bigl(\begin{smallmatrix} N \\ n \end{smallmatrix}\bigr)\) 가지 입니다. 이 경우의 수가 동일한 확률로 뽑힐 수있도록 표본을 추출하는 방법을 유한모집단에서의 단순랜덤추출 또는 단순임의 추출 (simple random sampling) 이라고 합니다.  

 

예를 들어 크기가 4인 유한한 모집단 {A, B, C D}에서 크기 2인 표본을 단순랜덤추출할 때 뽑힐 수 있는 표본의 결과와, 각 표본의 확률은 다음 테이블과 같습니다. 

sample result possibility
{A, B} 1/6
{A, C} 1/6
{A. D} 1/6
{B, C} 1/6
{B, D} 1/6
{C, D} 1/6

 

모집단의 크기가 4이므로, 가능한 표본은 4x3/2 = 6가지이며, 각각의경우가 같은 확률로 나타날 수 있으므로 확률은 모두 1/6입니다. 

 

2. 초기하분포

이제 크기 N인 모집단에서 M개가 특별한 속성 A를 갖고 있고 나머지 N-M개는 속성 A를 가지고 있지 않다고 가정해봅시다. 이러한 모집단에서 크기 n의 표본을 단순랜덤추출 할 때, 추출된 표본에서 속상 A를 갖고 있는 것의 개수 X의 확률분포를 초기하분포(Hypergeometric distribution)라 부릅니다. 확률변수 x의 경우를 생각해 봅시다.

 

 

 

A 속성의 전체 개수 M개 중에서 먼저 x 개를 뽑고, 

나머지 속성의 개수 N-M개 중에서 n-x 개를 뽑는 경우 입니다.

당연히 N-M 은 n-x 보다 크거나 같아야 하고, x는 n보다 작거나 같아야 하고, x는 M보다 작거나 같아야 합니다. 

 

이를 식으로 나타내면 아래와 같습니다. 

 

\[P(X = x) = \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}}\]

 

3. 초기하분포의 평균

초기하분포의 평균을 구해는 공식입니다. 다만 4번째 수식에서 \( \sum \) 안의 값이 다음 수식에서 1로 표현되는데, 자세히 보시면 이 부분은 초기하분포의 확률분포의 합으로 1입니다. 

 

\begin{aligned}
\text{E}(X)  
&= \sum_{x=0}^{n} x \cdot \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]

&= \sum_{x=1}^{n} x \cdot \frac{M!}{x!(M - x)!} \cdot \frac{(N - M)!}{(n - x)!(N - M - (n - x))!} \cdot \frac{1}{\dbinom{N}{n}} \\[8pt]

&= \sum_{x=1}^{n} M \cdot \frac{(M - 1)!}{(x - 1)! (M - x)!} \cdot \frac{\dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]

&= M \cdot \sum_{x=1}^{n} \frac{\dbinom{M - 1}{x - 1} \dbinom{N - M}{n - x}}{\dbinom{N-1}{n-1} \cdot \frac{N}{n} } \\[8pt]

&= \frac{M \cdot n}{N} \\[8pt]

&= n \cdot p \quad \text{where } p = \frac{M}{N}
\end{aligned}

 

4. 초기하분포의 분산

초기하분포의 분산을 구해봅시다. 초기하 분포의 분산은 약간의 수학적 기술이 필요합니다. 분산은 앞서 제곱의 평균에서 평균의 제곱을 빼서 계산하는 것을 배웠습니다. 그런데 이걸 평균과 비슷한 방식으로 구하게 되면 식이 잘 정리되지 않는 문제가 있습니다. 

일반적인 분산식을 조금 변경해서 다음과 같이 정리해 보겠습니다. 

 

\begin{aligned}
\text{Var}(X) &= \text{E}(X^2) - [\text {E}(X)]^2 \\[8pt]
              &= [\text {E}(X^2) - \text {E}(X)] + \text {E}(X) - [\text {E}(X)]^2 \\[8pt]
\end{aligned}

 

평균은 앞서 구했으니  \( E(X^2)-E(X) \)  이 부분만 계산하면 됩니다. 그리고 이 값은 \( E[X(X-1)] \) 의 값입니다. 

 

\[
\begin{aligned}
\text{E}[X(X-1)] 
&= \sum_{x=0}^{n} x(x-1) \cdot P(X = x) \\
&= \sum_{x=0}^{n} x(x-1) \cdot \frac{\dbinom{M}{x} \dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=2}^{n} x(x-1) \cdot \frac{M!}{x!(M - x)!} \cdot \frac{\dbinom{N - M}{n - x}}{\dbinom{N}{n}} \\[8pt]
&= \sum_{x=2}^{n} M(M - 1) \cdot \frac{(M - 2)!}{(x - 2)!((M - 2) - (x - 2))!} \cdot \frac{\dbinom{(N - 2) - (M - 2)}{(n - 2) - (x - 2)}}{\dbinom{N - 2}{n - 2}} \cdot \frac{n(n - 1)}{N(N - 1)} \\[8pt]
&= \frac{n(n - 1) M(M - 1)}{N(N - 1)}
\end{aligned}
\]

 

\( \sum \) 안의 값은 확률 질량 함수의 합이므로 값은 1입니다. 따라서 앞서 계산한 분산의 식에 이 결과를 대입해 봅시다.

 

\[
\begin{aligned}
\text{Var}(X) 
&= [\text {E}(X^2) - \text {E}(X)] + \text {E}(X) - [\text {E}(X)]^2 \\[8pt]
&= \frac{n(n-1)M(M-1)}{N(N-1)} +\frac{nM}{N} - (\frac{nM}{N})^2 \\[8pt]
&= \frac{nM(N-M)(N-n)}{N^2(N-1)}  \\[8pt]
&= \frac{N-n}{N-1} \cdot n \frac{M}{N} (1- \frac{K}{M}) \\[8pt]
&= \frac{N-n}{N-1} \cdot np(1-p) \text{where } p = \frac{M}{N}
\end{aligned}
\]

 

 

              

 

 

'Statistics' 카테고리의 다른 글

이항 분포  (0) 2025.04.22
균일 분포  (1) 2025.04.20
확률분포의 기대값과 분산  (0) 2025.04.17
확률변수와 확률분포  (0) 2025.04.15
확률의 기본 개념  (0) 2025.04.14