I. 확률변수와 확률분포
통계적 조사 또는 실험의 결과는정량적일 수도 있고, 정성적일 수도 있습니다. 정량적이라는 말은 수치로 표현할 수 있는 양적(Quantity) 데이터를 의미하고, 정성적인 주관적이거나 서술적인 질적(Quality) 데이터를 의미합니다. 가령 신생아의 체중을 조사한다고 할 때에는 조사 결과인 체중은 정량적 데이터 입니다만, 신생아의 혈액형을 조사한다면 그 결과는 'O', 'AB', 'B', 'A' 와 같이 정성적입니다. 정성적 혹은 정량적 데이터의 표본 공간은 수직선에 대응해서 생각해 볼 수 있습니다 . 표본 공간에서 함수 X를 X(Head) = 0, X(Tail) = 1 로 정의 하면, X는표본 공간에서 정의된 함수로서 X=0, X=1에 대응하는 확률은 각각 1/2이 됩니다. 즉, 표본공간 S와 그 위에 주어진 확률이 함수 X에 의해 수직선과 수직선 위의 확률에 대응되게 됩니다.
일반적으로 표본공간에서 정의된 실수값 함수를 확률 변수(Random Variable) 이라고 합니다. 예를 들어 동전을 2개 던져 앞면의 수를 센다고 해봅시다. 우선 표본 공간은 다음과 같이 정해집니다 S = {HH, HT, TH, TT} 그리고 확률변수 X는 = {2, 1, 1, 0} 로 정의 될 수 있습니다. 그리고 확률 분포는 표본 공간의 부분 집합 A에 대해 확률 P{X ∈ A)를 대응시켜 주는 관계를 확률 변수 X의 확률 분포 또는 분포라고 합니다.
따라서 동전 2개를 던져 앞면의 개수를 세는 시행에 대해 확률 변수와 확률 분포를 정의 하면 다음과 같습니다.
X | P(X) | A (EVENT) |
0 | 1/4 | {TT} |
1 | 1/2 | {HT}, {TH} |
2 | 1/4 | {HH} |
II. 확률 질량 함수 (Probability Mass Function)
확률 변수 X가 취할 수 있는 모든 값을 셀 수있을 때 X를 이산 확률 변수 라고하며, 이산 확률 변수 X가 취할 수 있는 값에 대해 확률을 대응시켜 주는 관계를 X의 확률 질량 함수라고 합니다. 식으로 표현하면 아래와 같이 정의되는 함수 f를 확률 변수 X의 확률질량함수라고 합니다.
\[
f(x) =P(X = x) \quad x=x_{j} \, (j=1,2,3, ...)
\]
그리고 확률질량함수는 다음과 같은 성질을 가집니다.
\[
1)\; f(x_j) \geq 0 \quad \text{for all } j, \qquad \sum_{j=1}^{\infty} f(x_j) = 1
\]
\[2)\;P\left\{a<X\leq b\right\}=\sum_{a<x_{j}\leq b}^{}f\left(x_{j}\right)\]
예제를 한번 봅시다. 어느 공장에서 생산한 제품 15개 중 5개가 불량품이라고 합니다. 검수자가 임의로 3개를 택했을때 그 중 불량품의 개수를 X라 하고, 이때 X의 확률 분포를 구해 봅시다.
우선 X가 가질 수 있는 표본 공간은 S = {1, 2, 3} 입니다. 각각의 확률 변수에 대해 확률을 구해보면,
P{X=0} = 10C3 / 15C3 (여기서 C는 Combination입니다.) = 120/455 = 24/91,
P{X=1} = 10C2 x 5C1 / 15C3 = 45/91
P{X=2} = 10C1 x 5C2 / 15C3 = 20/91
P{X=3} = 5C3 / 15C3 = 2/91 입니다. 이를 표로 정리하면 아래와 같은 확률분포표를 얻을 수 있습니다.
x | 0 | 1 | 2 | 3 |
P{X=x} | 24/91 | 45/91 | 20/91 | 2/91 |
III. 확률 밀도 함수 (Probability Density Function)
이번에는 정량적인 데이터에 대해 생각해 봅시다. 불량품의 개수, 동전 던지는 횟수 등 이산값을 취하는 확률변수도 존재하나, 신생아의체중이나 신장처럼 어떤 범위 내의 모든 값을 실험의 결과로 생각해야 할 때가 훨씬 많습니다. 이렇게 구간 내의 모든 값을 취하는 확률 변수를 연속 확률 변수 라고 하며, 연속 확률 변수의 어떤 구간에 대해 확률을 대응시켜주는 함수를 확률 밀도 함수라고 합니다.
확률 밀도 함수는 연속 확률 변수 X가 어떤 구간 [a, b]의 모든 값을 취하고, 우 구간 위에서 함수 f(x)가 아래 조건을 만족할 때 확률변수 X를 연속 확률 변수라 하며, 함수 f(x)를 X의 확률 밀도 함수라고 합니다.
\[ 1) \quad f(x)\geq 0,\quad\int_{a}^{b}f(x)dx=1\]
\[ 2) \quad P\left\{a\leq X\leq b\right\}=\int_{a}^{b}f(x)dx\]
이산확률변수의 경우에는 수직선 상의 각각의 변수가 확률을 나타냈지만, 연속확률변수의 확률밀도함수의 값 f(x)는 확률이 아니라는 점이 특징입니다. 확률밀도함수의 값 자체는 사실상 아무 의미도 없습니다. 이를 증명해 보겠습니다. 충분히 작은 △x에 대해 근사적으로 아래와 같은 식을 쓸 수있습니다.
\[P\left\{c\leq X\leq c+\triangle x\right\}\approx f(c)\triangle x\]
여기서 △x를 0으로 근접시키면 아래와 같은 결과를 얻게 됩니다.
\[P\left\{X=c\right\}=0\]
따라서 확률 밀도 함수의 값은 X의 구간으로 정의되어야 하며, 경계는 의미가 없음을 알 수 있습니다.
'Statistics' 카테고리의 다른 글
초기하 분포 (1) | 2025.04.19 |
---|---|
확률분포의 기대값과 분산 (0) | 2025.04.17 |
확률의 기본 개념 (0) | 2025.04.14 |
상관계수 (0) | 2025.04.12 |
평균과 분산 (0) | 2025.04.10 |