본문 바로가기

전체 글

(49)
확률분포의 기대값과 분산 I. 확률분포의 기대값 앞서 데이터나 자료에 대한 측도로서 평균과 분산을 설명한 적이 있습니다. 평균과 분산 다시보기 자료의 중심위치에 대한 지표로 평균을, 산포에 대한 지표로 분산을 사용한다고 설명을 했었는데요, 오늘 이야기 할 내용은 확률분포의 특성을 나타내는 지표입니다. 확률 변수에서도 평균 또는 중심값에 해당하는 값이 존재하고 이를 기대값이라 합니다. 확률분포의 기대값은 확률 변수와 확률 분포의 값을 이용한 가중 평균을 통해 구합니다. 이산확률변수 X가 취하는 값이 \(x_1\), \(x_2\), ... 이고 \(X=x_i\) 일 확률이 \[f(x_{i}) = P( X=x_{i}) \quad (i=1,2,3...) \] 로 주어질 때 아래 수식을 이산확률변수 X의 평균 또는 기대값 이라하..
확률변수와 확률분포 I. 확률변수와 확률분포통계적 조사 또는 실험의 결과는정량적일 수도 있고, 정성적일 수도 있습니다. 정량적이라는 말은 수치로 표현할 수 있는 양적(Quantity) 데이터를 의미하고, 정성적인 주관적이거나 서술적인 질적(Quality) 데이터를 의미합니다. 가령 신생아의 체중을 조사한다고 할 때에는 조사 결과인 체중은 정량적 데이터 입니다만, 신생아의 혈액형을 조사한다면 그 결과는 'O', 'AB', 'B', 'A' 와 같이 정성적입니다. 정성적 혹은 정량적 데이터의 표본 공간은 수직선에 대응해서 생각해 볼 수 있습니다 . 표본 공간에서 함수 X를 X(Head) = 0, X(Tail) = 1 로 정의 하면, X는표본 공간에서 정의된 함수로서 X=0, X=1에 대응하는 확률은 각각 1/2이 됩니다. 즉,..
확률의 기본 개념 한국 고등학교에서 확률과 통계는 하나의 묶음으로 나옵니다. 통계학을 배울 때는 꼭 확률을 함께 배우는데 그 이유가 무엇일까요? 통계학이란 표본의 데이터를 이용해 모집단의 특성을 확률을 이용해 추론하는 학문입니다. 따라서 확률은 통계 기법을 전개하는데 있어 주요한 기초 이론입니다. 그럼 확률이 무엇인지에 대해 고민해봅시다. I. 표본 공간과 사상 앞서 말했듯, 통계적 조사에서 조사대상의 일부만 관측하고도 조사대상 전체에 대한 결론을 이끌어 내는 데에 논리적 근거가 되는것은 확률의 개념입니다. 가령 주사위나 동전을 던질 때 어떤 값이 나올지 정확히 알 수는 없지만, 여러번의 시행을 통해 균등한 확률로 1~6까지 값이나 동전의 앞면 혹은 뒷면이 나왔다면 이 주사위나 동전은 특정 결과에 편향 되지 않았음을 알 ..
상관계수 I. 상관계수 (Coefficient of Correlation)1. 상관계수 정의 먼저 작성한 블로그에서는 한 변수에 대한 자료를 정리하는 방법을 배웠습니다. 평균, 분산, 4분위 등이 있었죠. 이제 두 변수인 경우를 생각해 봅시다. 데이터가 (x1, x2), (x2, y2), (x3, y3) ... , (xn, yn) 일 때 각 변수에 대한 값의 집한인 {x1, x2, x3, ..., xn}, {y1, y2, y3, ..., yn} 의 평균이나 표준편차 외에 두 집단의 관계를 나타내는 수치로 상관계수가 있습니다. 상관이란 마케팅 비용과 매출, 수면 시간과 키 등 두변수 사이에서 정의되는 '한쪽이 증가하면 다른 쪽도 증가한다', '한쪽이 증가하면 다른쪽은 감소한다' 와 같은 직선 적인 관계를 의미 합니..
평균과 분산 기술 통계학은 앞선 글에서 설명드린 것처럼 조사하거나 측정된 데이터의 특징을 수치, 표, 그래프로 파악하는 분야를 말합니다. 저희가 중고등학교 시절에 배웠던 평균이나 분산, 표준편차가 이에 해당합니다. 사람들에게 친숙하고 너무 쉬운 내용이지만 의미를 다시 한번 짚고 넘어가 봅시다. 그리고 학교 때 다 배우지 못한 개념들도 있을 수 있으니 천천히 읽어 보시면 도움이 될지도 모릅니다. I. 평균평균은 데이터의 중심적인 값을 의미합니다. 중심이 어떤 의미일까요? 기하학에서 원이란 평면 위의 한점에 이르는 거리가 일정한 평면 위의 점들의 집합을 의미합니다. 그리고 이 평면 위의 한점을 원의 중심이라 부릅니다. 이렇듯 원의 중심은 평면에서 원을 이루는 수 많은 점들의 한 가운데 위치합니다. 평균의 정의에서 말하는..
통계학의 정의와 분류 I. 통계학 (Statistics)통계학은 다량의 데이터를 관찰하고 정리, 분석하는데 필요한 기법들을 연구하는 수학의 한 분야 입니다. 쉽게 설명하기 위해 실제로 통계학이 사용되는 예를 들어 봅시다.  어느 학교에서 1학년 학생의 키가 어느 정도인지를 조사하고 싶어 합니다. 모든 학생의 키를 재어 종이에 기록을 했는데, 이 조사 결과를 설명하기 위해서는 수집된 데이터의 성격을 나타낼 수 있는 대표 값이 필요합니다. 가령 학생들을 키 순서대로 줄 세웠을 때 중간에 서 있는 학생의 키는 얼마인지? 학생들 사이의 키는 어느 정도로 차이가 있는지? 와 같은 질문에 대해 답할 수 있는 값들 말입니다.  반면 대통령 선거를 앞두고 어느 후보의 지지율이 높을지 조사를 해야 한다면 어떤 문제가 있을까요. 이 경우 지지..
Jupyter notebook I. Jupyter notebook?Jupyter notebook은 Jupyter에서 제작한 웹기반 인터랙티브 플랫폼입니다. Jupyter에서 지원하는 3개의 핵심언어인 Julia, Python, R에서 따온 이름으로 알려져 있습니다. 웹기반이라 웹브라우저에서 쉽게 사용이 가능하며, 심지어 무료입니다. 사람들이 데이터 분석에 있어서 Jupyter notebook을 많이 사용하는 이유는 무엇보다 편리성입니다. 대화형 모드를 지원해, 코드를 입력할 때 마다 그 결과를 바로 확인할 수있습니다. 저도 회사에서 업무를 할 때 데이터 분석과 관련된 EDA나 시각화 등은 Jupyter notebook을 활용합니다. 그리고 확정된 모델을 주기적으로 서비스 해야 할 때는 scala나 python 코드로 변환해 airfl..
Anaconda 가상 환경 만들기 I. 가상 환경가상 환경이 필요한 이유에 대해서는 앞 선 글에서 설명을 한 적이 있습니다. 다시 요약하면 각각의 프로젝트의 개발환경을 분리하여 라이브러리 버전 간의 충돌을 방지 하기 위함입니다. 저희가 OS를 사용하면서도 업무 성격이나 목적에 맞게 여러 폴더를 나눠 파일을 관리 합니다. 만약 하나의 폴더 안에 모든 파일들을 한꺼번에 넣는다면 어떨까요. 파일간의 충돌이 일어나는 경우는 없겠지만 동일한 파일 이름을 사용하지 못하는 문제도 있을 것이고, 각 프로젝트 별 업무 구족 어떻게 되어 있는지 파악하기도 어려울 것입니다. 이와 같이 파이썬을 활용하는데 있어서도 프로젝트 별로 독립적인 공간을 할당하는 것이 매우 중요합니다. II. 가상 환경 생성1. 가상 환경 리스트 확인  우선 현재 설치 되어 있는 환경..