확률변수와 확률분포
I. 확률변수와 확률분포통계적 조사 또는 실험의 결과는정량적일 수도 있고, 정성적일 수도 있습니다. 정량적이라는 말은 수치로 표현할 수 있는 양적(Quantity) 데이터를 의미하고, 정성적인 주관적이거나 서술적인 질적(Quality) 데이터를 의미합니다. 가령 신생아의 체중을 조사한다고 할 때에는 조사 결과인 체중은 정량적 데이터 입니다만, 신생아의 혈액형을 조사한다면 그 결과는 'O', 'AB', 'B', 'A' 와 같이 정성적입니다. 정성적 혹은 정량적 데이터의 표본 공간은 수직선에 대응해서 생각해 볼 수 있습니다 . 표본 공간에서 함수 X를 X(Head) = 0, X(Tail) = 1 로 정의 하면, X는표본 공간에서 정의된 함수로서 X=0, X=1에 대응하는 확률은 각각 1/2이 됩니다. 즉,..
상관계수
I. 상관계수 (Coefficient of Correlation)1. 상관계수 정의 먼저 작성한 블로그에서는 한 변수에 대한 자료를 정리하는 방법을 배웠습니다. 평균, 분산, 4분위 등이 있었죠. 이제 두 변수인 경우를 생각해 봅시다. 데이터가 (x1, x2), (x2, y2), (x3, y3) ... , (xn, yn) 일 때 각 변수에 대한 값의 집한인 {x1, x2, x3, ..., xn}, {y1, y2, y3, ..., yn} 의 평균이나 표준편차 외에 두 집단의 관계를 나타내는 수치로 상관계수가 있습니다. 상관이란 마케팅 비용과 매출, 수면 시간과 키 등 두변수 사이에서 정의되는 '한쪽이 증가하면 다른 쪽도 증가한다', '한쪽이 증가하면 다른쪽은 감소한다' 와 같은 직선 적인 관계를 의미 합니..