I. F분포
F분포는 두정규모집단의 분산의 비교에 대한 추론에 주로 사용되는 분포입니다. 바로 F분포의 정의에 대해 알아봅시다.
\( V_1\) 과 \( V_2\) 를 각각 자유도 \( k_1 \), ( k_2 \) 인 카이제곱분포를 따르는 서로 독립인 확률변수들이라 할 때,
\[ \text{F} = \frac{ V_1 / K_1 }{ V_2 / K_2 } \]
인 분포를 자유도 \( (k_1, k_2) \) 인 F분포라 합니다, 기호는 아래와 같이 나타냅니다 .
\[ \text{F} \sim \text{F}(k_1, k_2) \]
F분포는 각 표본의카이제곱분포를 자유도로 나눈 값의 비율로 정의됩니다. 카이제곱분포를 자유도로 나누는 것은 표준화를 위함입니다. 카이제곱분포는 자유도에 따라크기가 달라집니다. 카이제곱분포 글에서 설명했 듯이 카이제곱분포는 자유도 만큼의 표준정규분포로부터 데이터를 추출해 제곱해서 더한 값입니다. 따라서 이 값에 자유도를 나눠줌으로써 평균제곱값을 구하게 되고, 이 값을 이용해야 공정한 비교가 가능합니다.
그럼 분산비의 분포는 왜 F분포를 추종하는지를 알아봅시다. 먼저 두 변수 x, y에 대해 아래와 같은 식을 정의 해봅시다.
\[ \frac{ (1 / \sigma_x^2) \sum (x_i - \mu_x)^2 }{ (1 / \sigma_y^2) \sum (y_i - \mu_y)^2 } \]
이 식의 분자와 분모는 카이제곱분포를 따르는 것을 알 수 있습니다. 따라서 이 식 자체는 카이제곱분포의 비가 되는, 즉 F분포를 따른다는 것도 알 수 있습니다. 그럼 이 식에서 x, y가 동일한 모집단에서 추출된 것이라 생각해 봅시다. 그러면 아래 식을 만족하게 되어
\[ \mu_x = \mu_y = \mu, \; \sigma_x^2 = \sigma_y^2 = \sigma^2 \]
처음 식은 다음과 같이 변형을 할 수 있습니다.
\[ \frac{ (1 / \sigma_x^2) \sum (x_i - \mu_x)^2 }{ (1 / \sigma_y^2) \sum (y_i - \mu_y)^2 } = \frac{ \sum (x_i - \mu_x)^2 }{ \sum (y_i - \mu_y)^2 } = \frac{ \sum (x_i - \mu_x)^2 / n }{ \sum (y_i - \mu_y)^2 /n } \]
여기서 마지막 항은 x, y의 분산비이며, 따라서 분산비가 F분포를 따른 다는 것을 알 수 있습니다.
그럼 두 정규모집단에서의 표본분산들의 비율에대한 분포를 F분포를 이용해 알아봅시다.
\( X_1 \), \( X_2 \), ... \( X_n \) 과 \( Y_1 \), \( Y_2 \), ... \( Y_{n2} \) 를 각각 두 정규모집단 \( N( \mu_1, \sigma_1^2) \) , \( N( \mu_2, \sigma_2^2) \) 에서의 서로 독립인 확률표본이라 하고, \( S_1^2 \), \( S_2^2 \) 을 각각 두 확률표본에서의 분산으로 정의 하면, 앞서 카이제곱분포 글에서 정의한대로
\[ \frac{(n_1-1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1-1), \quad \frac{(n_2-1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2-1) \]
로 나타낼 수 있고, 각각 자신의 자유도로 나눈 후의 비율은 자유도 \( (n_1-1, n_2-1) \) 인 F분포를 따르게 됩니다.
즉, 아래와 같은 식으로 정리할 수 있습니다.
\[ \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{S_1^2}{S_2^2} \sim \text{F} (n_1-1, n_2-1) \]