한국 고등학교에서 확률과 통계는 하나의 묶음으로 나옵니다. 통계학을 배울 때는 꼭 확률을 함께 배우는데 그 이유가 무엇일까요? 통계학이란 표본의 데이터를 이용해 모집단의 특성을 확률을 이용해 추론하는 학문입니다. 따라서 확률은 통계 기법을 전개하는데 있어 주요한 기초 이론입니다. 그럼 확률이 무엇인지에 대해 고민해봅시다.
I. 표본 공간과 사상
앞서 말했듯, 통계적 조사에서 조사대상의 일부만 관측하고도 조사대상 전체에 대한 결론을 이끌어 내는 데에 논리적 근거가 되는것은 확률의 개념입니다. 가령 주사위나 동전을 던질 때 어떤 값이 나올지 정확히 알 수는 없지만, 여러번의 시행을 통해 균등한 확률로 1~6까지 값이나 동전의 앞면 혹은 뒷면이 나왔다면 이 주사위나 동전은 특정 결과에 편향 되지 않았음을 알 수 있고, 이를 통해 우리는 어떤 값이 나올지에 대한 확률을 제시할 수 있게 됩니다. 확률의 개념을 조금 더 정확히 알기 위해 용어를 먼저 살펴 봅시다.
- 표본 공간 (sample space) : 통계적 조사에서 가능한 모든 실험 결과의 집합을 의미합니다. 하나의 주사위를 던지고 윗면에 나오는 눈의 수를 관찰한다면 표본공간 S = { 1, 2, 3, 4, 5, 6 } 으로 정의되고, 어떤 제품을 생산하는 공정에서 5개의 불량품이 제조될 때 까지 제조된 제품의 개수를 관측한다면 S = { 5, 6, 7... } 로 정의 할 수 있습니다. 또한 한 공장에서 생성된 전구의 수명 시간을 관측한다면 S={ t | t ≥ 0 } 와 같이 정의할 수 있습니다. 주사위나 불량품의 수 처럼 표본 공간의 원소를 하나씩 셀 수 있을 때 이 표본 공간을 이산 표본 공간이라 하고, 하나씩 셀 수 없는 경우 연속 표본 공간이라 합니다.
- 사상(사건) : 실험이나 관측 등의 행위에 의해 생긴 결과를 말합니다. 주사위 던지기의 예에서는 '나온눈'이 사상이 됩니다. 이를 조금 더 수학적으로 표현하면 표본공간 S의 부분 집합을 사상이라 말할 수 있습니다. 특히 한 개의 원소로 이루어진 사상을 근원사상(elementary event) 라고 합니다.
II. 확률
어느 사상이 얼마나 일어나기 쉬운지를 수치화 한 것이 확률의 의미입니다. 비슷한 현상이 반복해서 일어날 경우 어떤 사건이 발생할가능성을 0과 1사이의 숫자로 표현한 것이죠. 1은 항상 일어나고, 0은 절대 일어나지 않는다는 의미입니다. 따라서 모든 사상의 확률을 합하면 1이 됩니다. P.Laplace는 이러한 가능성에 대한 수치적 측도로서 확률(probability)를 정의 하였는데 그가 말한 확률의 정의는 다음과 같습니다.
N개의 실현 결과로 구성된 표본 공간 S = {e1, e2, ... , en} 에서
각각의 실현 결과가 일어날 가능성이 같은 경우에 m개의 실현 결과로 구성된 사상 A의 확률은
P(A) = m/N 으로 정의한다.
Laplace의 이러한 정의는 표본공간에서 근원 사건의 개수가 유한개이며, 각 근원 사건이 일어날 가능성이 같은 경우에 대하여 확률을 정의 하였습니다. 하지만 실제 현실에서는 이렇게 정의 되지 않는 사건들도 많이 있습니다. 가령 공장에서 생산한 제품의 경우에도 표본 공간이 유한하지도 않고, 불량품의 발생 확률도 일정하지 않으니 새로운 개념이 필요합니다.
통계적인 실험을 하다보면 한 사상이 발생하는 것은 일정한 법칙을 따른 다는 것을알 수 있습니다. 가령 주사위가 1이 나올 확률을 계산할 때 6번을 던졌을 때 1이 하번 나오는 것을 매번 경험할 수는 없지만, 주사위를 반복적으로 계속 던지다 보면 1이 나올 확률이 1/6에 근접하는 것 처럼 말입니다. A. N. Kologorov는 이러한 상대도수의 극한적 개념으로 확률을 정의 하였습니다.
확률의 공리적 정의
(a) 표본 공간 S에서의 임의의 사상 A에 대하여 0≤P(A)≤1
(b) P(S) = 1
(c) 서로 배반인 사상 A1, A2, A3.. 에 대하여 P(A1∪A2...) = P(A1) + P(A2)
를 만족할 때, P(A)를 사상 A의 확률이라 한다.
III. 조건부 확률
어떤 사건이 일어났다는 조건 하에 다른 사상이 일어날 확률에 대해 생각해 봅시다. 사상 A가 일어났다면 A의 여사상 (A를제외한 사건)에 속하는 결과는 일어날 수 없으므로, 사상 A를 모든 가능한 실현 결과이 집합, 즉 표본공간으로 간주할 수 있습니다. 따라서 A가 일어났다는 조건 하에서 B가 일어날 확률은 아래와 같이 정의하게 됩니다.
- 조건부 확률 : 사상 A가 주어졌을 때, B의 조건부 확률
\[ P\left(B|A\right)=\frac{P\left(A\bigcap B\right)}{P(A)}\quad(P(A)>0)\]
예를 들어 두 개의 주사위를 던지는 경우를 생각해 봅시다. 첫번째 던진 주사위의 눈이 두번째 던진 주사위의 눈보다 클 때, 두 주사위 눈의 합이 10일 확률을 구한다면 어떻게 될까요.
사상 A를 첫번째 던진 주사위의 눈이 두번째 던진 주사위의 눈보다 큰 경우
사상 B를 두 눈의 합이10인 경우로 가정해 봅시다.
표본 공간의 수는 36 이고, 사상 A의 확률은 (2,1), (3,2), (3,1).. 총 15개로 P(A) = 15/36 입니다.
사상 B는 {(4,6), (5,5), (6,4)} 이고 P(A∩B) = 1/36 이므로 저희가 구하고자하는 조건부 확률은 1/15 입니다.
- 승법 공식 : 조건부 확률의 정의로 부터 아래 수식이 도출됩니다. 계산에 용이한 수식이니 알아둡시다.
\[P(A \cap B) = P(A) \cdot P(B \mid A) = P(B) \cdot P(A \mid B) \]
IV. 독립사상
반대로 사상 A가 일어났다고 하더라도, 사상 B가 일어날 확률에 아무런 영향을 미치지 않는다면, A와 B를 독립사건이라 합니다.
\[P\left(B|A\right)=P\left(B\right)\]
만약 A와 B가 독립이면, 조건부 확률 정의로부터 아래와 같은 관계를 유도할 수 있습니다.
\[ P\left(B\right)=\frac{P\left(A\bigcap B\right)}{P(A)}\quad > \quad P(A|B)=P(A)P(B)\]
가령 동전을 두번 연속 던질 때 모두 뒷면이 나오는 확률을 계산해 봅시다. 표본공간은 {(H,H), (H,T), (T,H), (T,T)} 이고 첫번째 동전이 뒷면이 나올 사상의 확률 P(A) = 1/2, 두번째 동전이 뒷면이 나올 확률 P(B) = 1/2 이됩니다. 두개 모두 뒷면이 나올 확률은 표본 공간에서 1/4이 되는데요, 여기서 P(A∩B)=P(A)P(B) 이므로, 이 사건은 독립임을 알 수 있습니다.
'Statistics' 카테고리의 다른 글
확률분포의 기대값과 분산 (0) | 2025.04.17 |
---|---|
확률변수와 확률분포 (0) | 2025.04.15 |
상관계수 (0) | 2025.04.12 |
평균과 분산 (0) | 2025.04.10 |
통계학의 정의와 분류 (2) | 2025.04.09 |