본문 바로가기

Statistics

포아송 분포

포아송 분포는 간단히 말하면 시행 횟수가 아주 많고, 사건의 발생 확률이 매우 작을떄의 이항분포입니다. 특히 단위 시간이나 단위 공간에서 희귀하게 일어나는 사건의 횟수 등에 유용하게 사용될 수 있습니다. 예를 들어 어느 교차로에서 교통 사고가 일어나는 수, 어느 지역에 벼락이 떨어지는 수, 타이핑된 보고서의 페이지당 오자의 수 등입니다. 

 

앞서 포아송 분포는 특정 조건에서의 이항 분포라고 하였습니다. 그럼 이항 분포로부터 포아송 분포를 유도해 보도록 합시다. 먼저 이항 분포는 \( B(n,p)\) 이고, 평균은 \( np=m \) 으로 정의 합시다. 그럼 아래와 같이 식을 유도할 수 있습니다.  

 

\begin{aligned}
\binom{n}{x} p^x (1-p)^{n-x} 
&= \frac{1}{x!} \cdot n(n-1)\cdots(n - x + 1) \left( \frac{m}{n} \right)^x \left( 1 - \frac{m}{n} \right)^{n - x} \\[8pt]
&= \frac{m^x}{x!} \left( 1 - \frac{m}{n} \right)^n \left( 1 - \frac{m}{n} \right)^{-x} \cdot 1 \cdot \left( 1 - \frac{1}{n} \right) \cdot \left( 1 - \frac{x - 1}{n} \right)
\end{aligned}

 

수식이 좀 복잡한가요? 첫 번째식의 뒤에서 두번째 항을 \( m^{x} \), \( n^{x} \) 로 나눕니다. \( m^{x} \)는 첫번째 항이랑 결헙하고, 두번째는 \( \binom{n}{x} \) 항에 n을 하나씩 적용해 나눠 줍니다. 그리고 첫번째 식의 마지막 항은 두개로 분리해서, 2번쨰 줄 수식의 2, 3번 항으로 들어갔습니다. 

 

여기서 n 이 충분히 크다고 하면, n이 분모에 있는 항들은 모두 1이 되며, 아래와 같이 쓸 수 있습니다. 

 

\[ \binom{n}{x} p^x (1-p)^{n-x} =   \frac{m^x}{x!} \left( 1 - \frac{m}{n} \right)^n  \]

 

그리고 n치 충분히 크다면 아래 지수방정식의 정의로 부터 아래 식을 유도할 수 있고, 

 

\[ \left( 1 - \frac{m}{n} \right)^n  \approx e^{-m} \]

 

따라서 포아송분포의 확률질량함수는 아래와 같이정리할 수 있습니다. 

\[
\text{P}\{X=x\} =\binom{n}{x} p^x (1 - p)^{n - x} \approx \frac{e^{-m} m^x}{x!}
\]

 

포아송 분포의 평균과 분산은 어떻게 계산할까요. 포아송 분포는 특정 조건에서이 이항 분포라고 하였습니다. 이항분포의 평균은 np, 분산은 np(1-p) 로 계산되는 것을 배웠습니다. n이 매우크다면 평균은 그냥 np로 쓸 수 있습니다. 그리고 분산의 경우에도 1-p가 1에 가까워지니, 역시 np로 쓸 수 있을 것입니다. 따라서 포아송 분포의 평균과 분산은 모두 np 입니다. 

 

조금 더 수학적으로 정리해보면 평균은 아래와 같이 유도할 수 있습니다. 중간에 테일러 급수로 정리된 부분이 있는데, 이건 다음 기회에 다시 설명하도록 하겠습니다. 

 

\begin{aligned}
\text{E}(X)  
&= \sum_{x=0}^{\infty} x \cdot \frac{e^{-m} m^x}{x!} \\[8pt]
&= m \sum_{x=1}^{\infty} \frac{e^{-m} m^{x-1}}{(x-1)!} \\[8pt]
&= m \cdot e^{-m} \sum_{k=0}^{\infty} \frac{m^k}{k!} \\[8pt]
&= m
\end{aligned}

 

분산은 다음과 같습니다.

 

\begin{aligned}
\text{Var}(X) 
&= \text{E}[X^2] - (\text{E}[X])^2 \\[8pt]
&= \text{E}[X(X - 1)] + \text{E}[X] - (\text{E}[X])^2  \\[8pt]
&= (m^2 + m) - m^2 = m
\end{aligned}

 

여기서 다시 추가로 수식을 증명해 보겠습니다. 

 

\begin{aligned}
\text{E}[X(X - 1)] 
&= \sum_{x=0}^{\infty} x(x - 1) \cdot \frac{e^{-m} m^x}{x!} \\[8pt]

&= \sum_{x=2}^{\infty} x(x - 1) \cdot \frac{e^{-m} m^x}{x!} 
\quad \text{(0과 1에서는 항이 0이 되므로 x=2부터)} \\[8pt]

&= e^{-m} \sum_{x=2}^{\infty} \frac{m^x}{x!} \cdot x(x - 1) \\[8pt]

&= e^{-m} \sum_{x=2}^{\infty} \frac{m^x}{(x - 2)!} \cdot \frac{1}{x(x - 1)} \cdot x(x - 1)
\quad \text{(분자와 분모의 } x(x-1) \text{ 약분)} \\[8pt]

&= e^{-m} \sum_{x=2}^{\infty} \frac{m^x}{(x - 2)!} \\[8pt]

&= e^{-m} m^2 \sum_{x=2}^{\infty} \frac{m^{x - 2}}{(x - 2)!} 
= e^{-m} m^2 \sum_{k=0}^{\infty} \frac{m^k}{k!} \quad \text{(여기서 } k = x - 2 \text{로 치환)} \\[8pt]

&= e^{-m} m^2 \cdot e^m = m^2
\end{aligned}

 

자, 마지막으로 예제를 풀어 봅시다. 한 보험회사의 조사에 따르면 어느 질병으로 한 사람이 1년 동안 사망할 확률이 0.0001 이라고 합니다. 만약 이 보험회사의 가입자가 10만명 이라고 한다면, 특정 1년 동안 이 질병으로 사망할 사람에게 보험금이 지급될 건수가 5건 이상인 확률을 얼마나 될까요?

 

문제에서 볼 수 있듯이 n은 매우 크고, p는 매우 작은 전형적인 포아송 분포 입니다. 만약 n과 p 값이 그렇게까지 크거나 작지 않아서 이항분포표에서 찾을 수 있으면 써도 되지만, 해당 숫자는 이항분포표에 존재하지는 않습니다. 그럼 5건 이상인 확률은 전체 확률 1에서 사건이 0~4번까지 일어날 확률의 합을 더해서 빼면 계산할 수 있습니다.   

 

\[ 1 - \frac{e^{-0.1} (0.1)^{0} }{1} - \frac{e^{-0.1} (0.1)^{1} }{1}  - \frac{e^{-0.1} (0.1)^{2} }{2}  - \frac{e^{-0.1} (0.1)^{3} }{6} - \frac{e^{-0.1} (0.1)^{4} }{24} = 0.004 \]

 

입니다.

'Statistics' 카테고리의 다른 글

표본분포  (0) 2025.04.27
정규 분포  (0) 2025.04.26
이항 분포  (0) 2025.04.22
균일 분포  (1) 2025.04.20
초기하 분포  (1) 2025.04.19