Statistics (29) 썸네일형 리스트형 베이즈 통계학 I. 통계학의 분류 통계학은 크게 기술 통계확과 추측 통계학으로 나뉘며, 추측 통계학은 다시 빈도론적 통계학과 베이즈 통계학으로 나눌 수 있습니다. 앞서 이 블로그에서 설명한 신뢰구간의 추정, 두 집단의 평균차이 검정, 비모수 통계 등 관측한 데이터로부터 모집단의 특징을 추정, 검정하는 분야를 말합니다. 검정의 경우 귀무가설이 옳다는 전제하에서 데이터가 관측되는 확률을 구하고, 그 확률이 작으면 귀무가설이 잘못된 것으로 판단합니다. 이에 비해 베이즈 통계학은(Bayesian statistics)은 베이즈 정리(Bayes' theorem)를 기반으로 하는 통계적 추론 방법입니다. 이는 주어진 데이터와 사전 확률을 활용하여 사후 확률을 추정하는 방식입니다. 베이즈 통계학은 모집단을 확률 변수처럼 간주하고.. 비모수 통계 I. 비모수 검정전통적인 통계적 추론 방법은 모집단에 대한 가정하에 진행되는 것이 일반적입니다. 이에 비해 비모수검정은 모집단이 특정 분포를 따른다는 전제가 필요없는 통계 방식을 말합니다. 모수검정인 t 검정이나 분산분석은 모집단이 정규분포를 따른다는 전제가 있는 경우이므로 귀무가설하에서 실험 결과가 일어나는 확률을 계산할 수 있습니다. 하지만 모집단이 아무런 확률분포도 전제할 수 없다면 양 집단의 평균값에서 벗어난 정도를 평가할 방법이 없습니다. 따라서 실험결과가 일어날 확률을 간접적으로 계산하는 방식이 필요하며, 이를 비모수 검정 (non-parametric methods) 라고 합니다. 비모수 검정이 유요한 경우는 우선 질적 데이터인 경우 입니다. 명목 척도(데이터를 범주로 구분할 때 사용하는 .. 범주형 자료의 분석 I. 범주형 자료 (Categorical Data)범주형 자료란 모집단이나 측정결과를 범주에 따라 분류시켜 도수화한 자료를 의미합니다. 가령 통계조사 결과를 남자, 여자로 분류하거나, 연령대 별로 분류하는 것을 말합니다. 범주형 자료를 이용한 통계적 추론 방법은 크게 3가지가 있습니다. 적합도 검정 (goodness-of-fit test) : 관측 결과가 특정한 분포로부터의 관측값인지를 검정하는 것 동질성 검정 (test of homogeneity) : 범주에 따른 관측 결과의 분포가 동일한 것인지를 검정하는 것독립성 검정 (test of independece) : 요인간에 관계가 있는지를 검정하는 것 범주형 자료를 분석하는데 필요한 기본적인 분포는 다항분포입니다. 먼저 다항분포에 대해 알아보도록 합시다.. 분산분석 : 이원배치 I. 이원배치법이원배치법은 특성값에 영향을 주는 2개의 인자에 대해 그 영향을 조사하고자 할 때 사용하는 분산분석법입니다. 앞서 일원배치법은 반복수가 동일한 경우, 동일하지 않은 경우 크게 두 가지로 나눌 수 있었는데, 이원배치법은 반복이 있는 경우와 반복이 없는 경우 두 가지로 나누어 생각해 볼 수 있습니다. 그리고 이원배치법의 가장 큰 특성은 교호작용에 대한 검정입니다. 교호작용은 여러 요인 사이에서 특정 수준이 조합되었을 때 생기는 상승이나 상쇄효과를 말합니다. 그리고 이러한 교호작용에 대한 검정에는 각 수준의 조합내에서 반복 실험을필요로 합니다. 그럼 조금 더 자세한 내용을 살펴보도록 합시다. II. 반복이 없는 경우 1) 자료 구조 두 개의 인자를 A, B로 표시하고 인자 A, B의 수준을 각각.. 분산분석 : 일원배치 I. 일원배치법 일원배치법은 특성값에 대해 하나의 인자에 대한 영향을 조사하고자 할 때 사용하는 분석 방법으로, 인자의 각 수준이 처리가 됩니다. 가장 간단한 모형은 2개의 처리 효과를 비교하는 것으로 t-검정에서 설명한 내용입니다. 하지만 이 경우는 2개의 처리효과를 비교할 때 사용하는 방법이고, 3개 이상을 비교하고자 할 때는 t-검정이 효과적으로 사용할 수 없습니다. 3개 이상을 비교하기 위해 t-검정을 여러번 사용하게 되면 1종 오류를 범할 확률이 증가하기 떄문입니다. 일원배치법은 다음과 같은 특징이 있습니다.각 수준에서의 반복수는 같지 않아도 됩니다. 실험의 측정은 랜덤하게 선택된 순서에 의하여 독립적으로 이뤄져야 합니다. 그럼 반복수에 따라 일원배치법의 자료 구조 및 검정방법에 대해 알아보도.. t-검정 : 모비율 / 모분산의 비교 I. 두 모비율의 비교 두 모평균을 비교하는 검정의 경우 두 제조 설비에서 생산된 제품의 특성의 평균을 비교하는 문제를 예로 들어설명한 적이 있습니다. 모비율의 경우는 각각의 제조설비에서 생산되는 제품의 합격 비율을 비교하는 문제로 생각해볼 수 있습니다. 만약 A설비에서 생산된 제품의 합격율이 \(P_1\), B설비에서 생산된 제품의 합격율이 \(P_2\)이라고 할 때, \(P_1\), \(P_2\)의 차이는 어떻게 검정할 수 있는지 알아봅시다. 우선 자료 형태는 다음과 같습니다. 1) 자료 형태 - 집단 1 : 모집단 1로부터 크기 \(n_1\)의 표본 추출, 성공횟수 \(X\), \(\hat{p_1} = X/n_1\)- 집단 2 : 모집단 2로부터 크기 \(n_2\)의 표본 추출, 성공횟수 \(.. t-검정 : 모평균의 비교 I. 독립표본 t-검정1) 독립표본독립표본은 서로 다른 두 모집단에서 수집된 데이터로, 각 데이터 포인트가 다른 데이터 포인트에 영향을 받지 않는 표본을 말합니다. 즉, 한표본의 값이 다른 표본의 값에 영향을 주지 않도록 표본들이 서로 독립적으로 수집되어야 합니다. 예를 들어 지역에 따른 학력차를 알아보기 위해 두 도시의 학생 n명을 램던하게 추출하여 동일한 시험을 치른다고 합시다. 이 시험의 성적은 두 모집단으로 부터의 확률표본으로 생각할 수 있고, 두 확률표본이 두 모집단으로 부터 각각 독립적으로 관측되었다고 볼 수 있습니다. 이제 각각의 모집단에서 크기 \(n_1\), \(n_2\) 인확률표본을 이용해 두 모평균의 차이를 추론하는 법을 알아봅시다. 우선 자료의 형태는 다음과 같습니다. 1) 자료 .. 통계분석 방법의 종류 I. 통계분석 방법의 종류 지금까지는 한 모집단의 평균, 분산, 모비율 등에 대한 추론에 대해 설명했습니다. 하지만 실제 현실에서는 두 개 이상의 모집단의 특성을 비교하게 되는 경우가 많습니다. 그리고 자연이나 사회 현상의 규명에 있어서 관련된 변수들 간의 상호관련성을 함수의 형태로 정의 해야 하는 일도 많이 있습니다. 이러한 상황에서 사용할 수 있는 통계 분석 방법을 간단히 정리하면 아래와 같습니다. II. 통계분석 방법의 특성1. t-test t 검정은 두 집단의 평균의 차이를 비교하는데 사용됩니다. 두 집단의 평균을 비교해서 이들의 차이가 모집단에도 있다고 해도 좋을지의 여부를 확률로 판정합니다. t-test는 대응이 있는 두 집단과, 대응이 없는 두 집단(독립)에 따라 검정통계량의 계산법이 달라.. 이전 1 2 3 4 다음