본문 바로가기

Statistics

통계분석 방법의 종류

I. 통계분석 방법의 종류 

지금까지는 한 모집단의 평균, 분산, 모비율 등에 대한 추론에 대해 설명했습니다. 하지만 실제 현실에서는 두 개 이상의 모집단의 특성을 비교하게 되는 경우가 많습니다. 그리고 자연이나 사회 현상의 규명에 있어서 관련된 변수들 간의 상호관련성을 함수의 형태로 정의 해야 하는 일도 많이 있습니다. 이러한 상황에서 사용할 수 있는 통계 분석 방법을 간단히 정리하면 아래와 같습니다.

 

 

II. 통계분석 방법의 특성

1. t-test 

t 검정은 두 집단의 평균의 차이를 비교하는데 사용됩니다. 두 집단의 평균을 비교해서 이들의 차이가 모집단에도 있다고 해도 좋을지의 여부를 확률로 판정합니다. t-test는 대응이 있는 두 집단과, 대응이 없는 두 집단(독립)에 따라 검정통계량의 계산법이 달라집니다. 

  • 대응이 없는 두 집단 : 지역간의 성적 및 소득 차이를 비교하는 문제의 경우 두 집단에는 동일한 개체가 존재할 수 없습니다. 특정 지역의 남성과 여성의 소득 차이를 비교하는문제도 마찬가지입니다. 두 모집단으로 부터 각각 독립적으로 관측된 표본을 비교하는 경우입니다. 
  • 대응이 있는두 집단 : 어떤 약의 효과를 검증하는데 있어서 대응이 없는 두 집단을 비교하게 되면, 여러 요인의 영향을 받을 수 있습니다. 이러한 경우에는 동일한 사람에 대해 투약 전 후를 비교하는 방식이 합리적입니다. 즉, 동일한 개체를 두 조건으로 측정한 다음 이를 비교하는 방식입니다. 

  2. ANOVA (Analysis of Variance)

분산분석은 실험의목적이 되는 요인이 결과에 영향을 미쳤는지의 여부를 판정하는데 목적이 있습니다. 평균차이의 검정을 세 집단 이상으로 확정한 것으로, F 분포를 사용해 검정합니다. 집단간 비교에서 t-test을 반복해서 사용해서는 안됩니다. 동일 실험으로 얻어진 데이터에 대해 검정을 반복하면 비록 하나하나의 검정에서는 5%의 유의수준으로 실시해도 전체로 보면 몇몇 검정에서는 잘못될 확률이 높아지기 때문입니다. 

 

실험의 목적이 되는 요인이 하나인 경우 일원배치 분산분석이라 하고, 둘 이상인 경우를 이원배치 분산분석이라 합니다. 분산분석은 데이터 전체의 분산(총변동)은 목적이 되는 요인의 효과에 의한분산(군간변동)과 목적 이외의 요인인 오차의 효과에 의한 분산(군내변동)으로 구성됩니다. 그리고 이 두 변동을 비교해 군간변동이 상대적으로 크면 목적이 되는요인의 효과가 있다고 주장하는 방법입니다. 그리고 이원배치 분산분석의 경우 군간 변동을 다시 주효과에 의한 변동과 교호작용에 의한 변동으로 나눌 수 있습니다. 

 

  

3. 회귀분석 (Regression)

회귀분석은 변수 X(원인)가 변수 Y(결과)에 주는 영향을 알기 위한 방법으로 변수 X, Y 사이에 있는 관계를 즉선 또는 곡선의 식으로 나타낸 것을 회귀선이라고합니다. 회귀석은 직선 또는 곡선의 방정식이므로 변수 X의 계수와 절편이 존재합니다. 이러한 파라미터는 최소제곱법 (OLS : Ordinary Least Squares) 또는 최대우도법 (MLE, Maximum Likelihood Estimation)을 통해 계산할 수 있습니다. 변수 X가 여러개 있을 경우에는 중회귀분석을 이용합니다.   

'Statistics' 카테고리의 다른 글

t-검정 : 모비율 / 모분산의 비교  (0) 2025.05.22
t-검정 : 모평균의 비교  (0) 2025.05.20
검정 : 모비율과 모분산  (0) 2025.05.16
검정 : 모평균  (0) 2025.05.14
검정의 원리  (0) 2025.05.12