본문 바로가기

Statistics

이항 분포

I. 베르누이 시행 (Bernoulli Trial) 

베르누이 시행이란 성공이나 실패처럼 결과가 두 종류 밖에 없는 시행을 말합니다. 예를 들어 동전 던지기는 앞면 혹은 뒷면의 2가지 종류만 존재하며, 제품을 뽑아서 평가하는 실험 역시 그 결과를 합격과 불합격 두 종류만 존재하도록 설계할 수 있습니다. 일상 생활에서 베르누이 시행은 독립적으로 반복되는 실험에서 접할 수 있습니다. 여기서 독립적이라 하는 것은 매 시행이 서로 영향을 주지 않는다는 것을 의미하며, 반복된다는 것은 매 시행의 확률이 일정함을 의미합니다. 따라서 베르누이시행의 특성은 다음과 같이 정리할 수 있습니다.

 

\[\text{Sample Space : } \quad S= \{0, 1\}  \]

\[P(X=1)=p,\, P(X=0)=q \, \quad p+q=1\]

 

그리고 베르누이 시행의 의 기대값과 분산은 다음의 식으로 계산할 수 있습니다. 

 

\[ \text{E}(X) = \sum_{i=1}^2 x_{i}P(x_{i}) = 0 \cdot q + 1 \cdot p = p \]

\[ \text{V}(X) = \sum_{i=1}^2 ( x_{i} - \text{E}(X) )^2 P(x_{i}) = p(1-p) =pq \]

 

베르누이 시행의 특징에 대해 불량품 검사를 사례로 조금 더 깊이 고민을 해봅시다.

 

[복원추출]

15개의 제품 중에 5개가 불량품인 로트에서 랜덤하게 하나를 선택해 불량 여부를 검사한뒤 되돌려 놓고, 다시 추출하는 방식 (복원추출) 으로 3번 검사를 진행한다고 합니다. 이 경우 표본 공간은 \( S=\{ x_{1}, x_{2} , x_{3} \}\) 이며 ( 이 때 \( x_{i} \) 는 0 또는 1 ) 로 구성되며, 확률 P는 다음과 같이 구할 수 있습니다.

 

\[P{(x_{1}, x_{2}, x_{3})}=\frac{5}{10}^k \cdot \frac{5}{10}^{3-k} \]

 

따라서 복원 추출의 경우에는 확률 5/15인 베르누이 시행을 3번 수행한 것과 동일한 실험이 됩니다.

 

[비복원추출]

이번에는 제품을 하나 뽑아 검사한 뒤에 돌려놓지 않는 비복원 추출에 대해 생각해봅시다. i 번째 추출에서 불량품이 나오는 시행을 \(S_{i}\) 하고 해봅시다. 만약 두번째 추출에서 불량이 나오는 경우는 어떻게 될까요. 2번째 추출에서 불량이 나오는 경우는 불량 > 불량을 추출한 경우와 정상 > 불량을 추출한 확률을 모두 더해야 합니다. 

 

\begin{align*}
\text{P}\{ S_{2} \} 
&= \text{P}\{ S_{2} \mid S_{1} \} \cdot \text{P}\{ S_{1} \} + \text{P}\{ S_{2} \mid S_{1}^c \} \cdot \text{P}\{ S_{1}^c \} \\[8pt]
&= \frac{4}{15} \cdot \frac{5}{15} + \frac{5}{14} \cdot \frac{10}{15} = \frac{5}{15}
\end{align*}

 

\( \text{P}\{ S_{2} \mid S_{1} \} \) 와 \( \text{P}\{ S_{2} \} \) 값이 서로 다른걸 보면, 해당 베르누이 시행의 확률은 시행 마다 동일하지 않거나 독립이 아니라는 뜻입니다. 

 

그런데 모집단이 아주 크면 어떨까요. 모집단이 아주 크다면 앞선 시행에서 \( \text{P}\{ S_{2} \mid S_{1} \} \) 와 \( \text{P}\{ S_{2} \} \) 값이 거의 차이가 없게 됩니다. 가령 확률이 100/1000 이었다면, \( \text{P}\{ S_{2} \mid S_{1} \} \) 는 99/999 가 될테니 큰 차이가 없습니다. 따라서 모집단의 크기가 크고, 표본의 크기가 크지 않을 때는 비복원추출도 독립적인 시행으로 생각해도 무방합니다. 

 

II. 이항 분포

성공률이 p인 베르누이시행이 n번 독립적으로 반복시행 되었을 때 확률변수 X를 성공횟수 라고 합시다. 이 때 X의 확률분를 시행 횟수 n과  성공확률 p를 갖는 이항 분포 라고 합니다. 시행이 n번 이었으니 확률 변수가 가질 수 있는값은 0, 1 ... , n 이며, n회의 베르누이 시행 가운데 x 번 성공하고, n-x 번 실패하는 경우의 수는 아래와 같고,

\[ \binom{n}{x} \]

 

따라서 이항확률분포의 질량함수는 아래와 같이 표현할 수 있습니다.

\[ \text{P} \{ X=x \} = \binom{n}{x} p^x (1-p)^{n-x} \]

 

그리고 확률분포 X가 시행횟수 n, 성공확률 p인 이항분포를 따를 때는 아래와 같이 표현할 수 있습니다. 

\[ X \sim B(n, p) \]

 

그럼 n과 p에 값에 따라 이항분포는 어떻게 변하는지 알아 봅시다. 만약 성공확률이 1인 시행이 있다고 합시다. 이 시행을 5번 반복한다고 하면, 성공횟수가 1~4일경우는 0 입니다. 왜냐면 무조건 성공해야 하는 시행이니까요. 그럼 분포가 오른쪽 끝에 치우쳐 있는 형태일거고, 반대로 성공확률이 0인 시행이라면 아마 왼쪽 끝에 분포가 치우쳐 지는 형태가 나올 것입니다.  

 

 

import matplotlib.pyplot as plt
from scipy.stats import binom
import numpy as np

# 공통 설정
n = 6
x = np.arange(0, n + 1)
p_values = [0.5, 0.3, 0.7]

for p in p_values:
    y = binom.pmf(x, n, p)
    
    plt.figure(figsize=(6, 4))
    plt.bar(x, y, color='black', edgecolor='black')
    plt.title(f'Binomial Distribution (n=6, p={p})')
    plt.xlabel('Number of Successes')
    plt.ylabel('Probability')
    plt.xticks(x)
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.tight_layout()
    
    # 파일로 저장
    filename = f'binomial_n{n}_p{p}.png'
    plt.savefig(filename)

 

마지막으로 이항 분포의 평균과 확률에 대해 알아 봅시다. 이를 위해서는  먼저 베르누이확률변수와 이항분포의 관계에 대해 먼저 정리할 필요가 있습니다. \(Y_{1}\), \(Y_{2}\), .. , \(Y_{n}\) 을 서로 독립이고 동일한 성공확률 p를 가지는 베르누이확률변수들이라 할 때, \( \text{X} = Y_{1} + Y_{2} + ... + Y_{3} \) 이라면, \(X\) 는 시행횟수 n, 성공확률 p를 따르는 이항분포가 됩니다.

 

다시 말해

\[ X \sim B(n, p) \]

입니다. 그렇다면 \(Y_{1}\), \(Y_{2}\), .. , \(Y_{n}\) 은 서로 독립이므로, 평균과 독립은 아래와 같이 정의 됩니다. 베르누이시행의 기대값과 분산은 이 글의 맨 처음에 정리했으니 혹시 기억이 나지 않으시는 분은 찾아보세요.  

\[ \text{E}(X) =  \text{E}(Y_{1}) + \text{E}(Y_{2}) + \cdots + \text{E}(Y_{n}) = np \]

\[\text{Var}(X) = \text{Var}(Y_{1}) + \text{Var}(Y_{2}) + \cdots + \text{Var}(Y_{n}) = npq\]

'Statistics' 카테고리의 다른 글

정규 분포  (0) 2025.04.26
포아송 분포  (0) 2025.04.24
균일 분포  (1) 2025.04.20
초기하 분포  (1) 2025.04.19
확률분포의 기대값과 분산  (0) 2025.04.17