본문 바로가기

Statistics

상관계수

I. 상관계수 (Coefficient of Correlation)

1. 상관계수 정의 

먼저 작성한 블로그에서는 한 변수에 대한 자료를 정리하는 방법을 배웠습니다. 평균, 분산, 4분위 등이 있었죠. 이제 두 변수인 경우를 생각해 봅시다. 데이터가 (x1, x2), (x2, y2), (x3, y3) ... , (xn, yn) 일 때 각 변수에 대한 값의 집한인 {x1, x2, x3, ..., xn}, {y1, y2, y3, ..., yn} 의 평균이나 표준편차 외에 두 집단의 관계를 나타내는 수치로 상관계수가 있습니다. 상관이란 마케팅 비용과 매출, 수면 시간과 키 등 두변수 사이에서 정의되는 '한쪽이 증가하면 다른 쪽도 증가한다', '한쪽이 증가하면 다른쪽은 감소한다' 와 같은 직선 적인 관계를 의미 합니다. 

 

그리고 상관계수는 두 변수 간의 선형 관계의 정도와 방향을 나타내는 수치로, 상관관계의 강도를 측정하는 척도입니다. 상관계수는 -1에서 1 사이의 값을 가지며, 0에 가까울수록 선형 관계가 약해집니다. 보통 상관계수라 하면 Pearson의 상관계수를 말하며 다음과 같이 정의 됩니다. 

 

$$
r = \frac{1}{n - 1} \sum_{i=1}^{n} \left( \frac{x_i - \overline{x}}{s_x} \right) \left( \frac{y_i - \overline{y}}{s_y} \right)
$$

 

여기서 x, y의 평균과 분산은 아래와 같이 정의 됩니다. 

 

\[
\overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad, \overline{y} = \frac{1}{n} \sum_{i=1}^{n} y_i \]

\[
s_x = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \overline{x})^2 } \quad, s_y = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} (y_i - \overline{y})^2 }
\]

 

예를 들어, 공부시간과 성적의 상관관계를 아래 데이터를 이용해 계산하다고 생각해봅시다. 피어슨 상관계수를 아래와 같이 계산할 수 있습니다. 

student study hour score study hour - avg study hour score - avg score
A 2 60 -2 -14
B 3 70 -1 -4
C 4 75 0 1
D 5 85 1 11
E 6 90 2 16
avg 4.0 74.0 - -

 

\[
r = \frac{
(-2)(-14) + (-1)(-4) + (0)(1) + (1)(11) + (2)(16)
}{
\sqrt{(-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2} \cdot 
\sqrt{(-14)^2 + (-4)^2 + 1^2 + 11^2 + 16^2}
} \approx 0.902
\]

 

2. 상관계수 성질

  • 상관계수 r은 -1에서 1까지의 범위를 갖습니다. 
  • r은 x와 y 간의 선형 관계를 나타내는 측도이며, r이 양이면 양의 상관관계가 있고, 음이면 음의 상관관계가 있습니다. 
  • r이 1에 가까우면 양의 상관 (한쪽이 증가하면 다른 쪽이 증가한다, 또는 한쪽이 감소하면 다른 쪽도 감소한다) 이 강해져, 산포도상의 점은 오른쪽 위에 분포하게 됩니다.
  • 반대로 -1에 가까우면 음의 상관 (한쪽이 증가하면 다른 쪽은 감소한다. 또는 한쪽이 감소하면 다른 쪽은 증가한다) 이 강해져, 산포도상의 점은 오른쪽 아래에 분포하게 됩니다.
  • 0에 가까운 경우는 상관이 없음을 나타내고, 산포도상의 점은 원을 그리듯 분포하게 됩니다. 

 

II. 순위상관계수 (Coefficient of Rank Correlation)

순위 상관계수는 순위 데이터 밖에 사용할 수 없는 경우나, 두 변수 간의 곡선적인 관계가 상정되는 경우에 사용합니다. 가장 대표적인 순위상관계수로는 스피어만의 순우 상관계수와, 켄달의 순위 상관계수가 있습니다. 

 

1. 스피어만 순위 상관계수 (Spearman's rho)

순위 데이터에 대해 계산한 피어슨의 확률상관계수가 스피어만의 순위 상관계수입니다. 만약 데이터가 연속변수(연속적인값을 취하는 변수)일 경우는 먼저 순위 데이터로 변환이 필요합니다.  스피어만 순위 상관계수의 수식은 아래와 같이 정의 됩니다. 여기서 d는 두집단의 편차입니다.  

 

\[
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
\]

 

스피어만의 상관계수는 주로 다음의 경우에 사용합니다.  

  • 두 변수의 정확한 수치 관계보다는 순서의 일치에 관심 있을 때
  • 데이터가 정규분포를 따르지 않거나 이상치가 많은 경우

예를 들어 학생들의 영어 성적과 수학 성적의 등수의 관계를 보고자 하며 아래와 같이 계산할 수 있습니다.

student eng score math score eng rank math rank rank diff rank diff ^2
A 90 80 1 2 -1 1
B 85 85 2 1 1 1
C 70 70 3 3 0 0
D 60 60 4 4 0 0

 

\[
\sum d_i^2 = 2,\quad n = 4 \Rightarrow 
\rho = 1 - \frac{6 \cdot 2}{4(16 - 1)} = 1 - \frac{12}{60} = 0.8
\]

 

2. 켄달의 순위 상관계수 (Kendall’s tau)

 

켄달의 순위 상관계수는 x에 대한 순위와 y에 대한 순위가 일치하는지의 여부에 주목해서 상관의 정도를 측정하는 지표 입니다. 예를 들어소비자 1의 순위 데이터 (x1, y1)과 소비자 2의 순위 데이터(x2, y2)에 대해 

  • x1 < x2 이고, y1 < y2 이거나 x1 > x2 이고 y1 > y2 일 때 순위는 일치합니다. 
  • x1 < x2 이고, y1 > y2 이거나 x1 > x2 이고 y1 < y2 일 때 순위는 불일치합니다.

스피어만의 상관계수는 순위 편차를 이용하는 반면, 켄달의 순위 상관계수는 모든 순위 쌍 일치/불일치 여부를 활용 하는 차이점이 있습니다. 계산은좀 더 복잡하지만, 순위가 일치하는 쌍이 얼마나 있는 직접 측정하기 떄문에 해석은 직관적입니다. 역시 이해가 잘 되지 않을 수 있으니 예를 들어 설명 해보겠습니다. 만약 4명의 소비자에 대해 x, y에 대한 순위가 아래와 같이 존재한다고 합시다. 순위 상관계수 계산을 위해서는 세 소비자에 대해 순위기 일치하는지 아닌지를 표시 합니다. 

consumer rank x rank y consumer1 consumer2 consumer3
1 1 2      
2 2 1 x    
3 3 4 o o  
4 4 3 o o x

 

consumer1 컬럼을 봅시다. 먼저 consumer1 은 자신과 비교를 할 필요가 없으니 넘어갑니다. consumer2 와 비교를 하게 되면, consumer1은 x가 y보다 순위가 높지만 consumer2는 반대입니다. 따라서 이 경우는 x 입니다. 대신 3, 4번 consumer에 대해서는 순위가 동일 하니 o를 표시합니다. 이번에는 consumer2번을 봅시다. consumer1 컬럼에서 2번과 비교를 했으니 다시 검토할필요가 없고, 여기서는 consumer3, 4와 비교를 하면됩니다.  

 

  consumer1 consumer2 consumer3 total
o의 수 2 2 0 4
x의 수 1 0 1 2

 

켄달의 상관계수는 다음과 같이 정의 됩니다. 

A = 일치 쌍 수 / o의 수, B = 불일치 쌍 수 / x의 수, n = 데이터 쌍의 수

 

\[
\tau = \frac{(\text{일치 쌍 수} - \text{불일치 쌍 수})}{\frac{n(n - 1)}{2}}
\]

 

앞서 계산한 예제에서는 (4-2) / 6 = 0.33 으로 계산할 수 있습니다. 

 

3. 스피어만 순위 상관 계수와 켄달의 순위 상관 계수 비교

두 개의 상관계수 중 어느 방식을 사용할지에 대한 명확한 기준은 존재하지 않습니다만, 일반적인 차이를 비교하면 아래와 같습니다. 어디까지나 참고로만 이용해주세요. 

 

구분 스피어만 순위 상관계수 켄달 순위 상관계수 
기반 순위 차이의 제곱 사용 순위 쌍 간의 일치/불일치 쌍 수 사용
해석 방식 선형적인 순위 일치 정도 전체 쌍 중에서 순서 일치 비율
수식 복잡도 상대적으로 간단 약간 복잡
값의 크기 경향 스피어만이 더 크게 나올 수 있음 좀 더 보수적인 값
민감도 이상치에 덜 민감 순위 순서 자체에 더 민감

 

상황 추천 지표
값의 순위 차이 자체에 관심이 있을 때 스피어만
순위의 일치 비율(쌍 단위)이 중요할 때 켄달
데이터가 작거나 이상치에 민감할 때 켄달
비교적 큰 데이터에서 연산이 간단한 것이 필요할 때 스피어만

'Statistics' 카테고리의 다른 글

확률분포의 기대값과 분산  (0) 2025.04.17
확률변수와 확률분포  (0) 2025.04.15
확률의 기본 개념  (0) 2025.04.14
평균과 분산  (0) 2025.04.10
통계학의 정의와 분류  (2) 2025.04.09