오늘도 데이터: 통계 기초 1 [평균, 분산, 표준편차, 정규분포, 회귀분석]

딥러닝에서 왜 통계를 다루는 이유는 딥러닝을 배우려면 초기 모델부터 가야 하는데, 초기 모델은 대부분 통계에서 시작 되기 때문이다. 초기의 뉴런은 회귀 방정식에서 나온 직선 가지고 검증을 하였기 때문이다. 통계 기초는 다른 깊은 부분을 이야기 하기 보다는 회귀 분석 까지 가기 까지의 과정만 이야기 할 예정 이다.

회귀분석까지 가려면, 아래의 그림과 같다. 그리고, 통계 기초에 대해서는 이 한 개의 포스트로 정리 한다.

1. 평균

중심위치의 여러 측정 방법 중에서 가장 일반적으로 쓰이는 평균은 산술 평균을 말하며, 조사된 모든 자료의 총합을 표본의 크기로 나누어 구한다. 아래는 10가구를 임의로 뽑아 집집마다 자녀수를 조사한 자료 이다.

2 3 0 2 1 0 3 0 1 4

이것에 대한 평균을 구해보면 1.6 이다. 아래 그림을 보면 표본 평균 ( $\bar{x}$) 전체 모든 값에 대한 평균 μ 가 있다. 통계 및 수학에서는 기호가 기본 중에 기본이다.

2. 모집단의 분산

평균이 자료의 중심위치를 나타내는 통계량으로 쓰일 때 산포의 측도로 가장 일반적으로 사용하는 통계량을 표준 편차이다.

자료의 표준편차를 구하기 위해서는 우선 분산을 구해야 한다. 분산은 관찰치와 평균의 차이를 구하여 각각을 제곱해서 합한 후 자료의 개수로 나누어 평균 제곱을 구한 것이다.

3. 정규분포

정규분포를 하는 이유는 딥러닝에서 데이터 전처리 시 데이터 레벨을 맞추고자 데이터 스케일을 한다. 이때 바로 정규 분포를 이용한다.

정규 분포는 아래 그래프와 같이 남학생의 신장 또는 수학능력 시험 성적 조사를 하면, 아래 그림과 같이 자료들이 평균 근처에 많이 모여 있고, 평균에서 멀어질수록 자료들의 수가 적으며, 평균중심으로 좌우 대칭이다.

표준 정규 확률 변수를 정규 확률 변수로 바꾸는 것이 표준화 변환 Z 이다.

$$ z = { x - \mu \over \sigma} $$

이것을 모바일 사용자를 위하여 다시 쓰면 z = (x-μ)/σ 이다.

수능에서는 서로 다른 영역이나 문제 난이도 차이 때문에 원점수 차이 조정을 하는데 조정하는 예는 아래와 같다.

예시 1) 영어 영역 원 점수 평균 40, 표준편차 20, 100점 만점에 80점 맞았을 경우

Z = (80-40)/20 =2 표준점수 = (2X20) + 100 = 140

예시 2) 물리 원점수 평균 35, 표준편차 10, 50점 만점에 30점 맞았을 경우는

Z = (30-35)/10 = -0.5, 표준점수 (-0.5X10) + 50 = 45

4. 회귀분석

프랜시스 골턴경 (Sir Francis Galton, FRS, 1822년 2월 16일 ~ 1911년 1월 17일)은 영국의 인류학자이다. 이래스머스 다윈의 외손자이고, 찰스 다윈은 그의 배다른 외사촌 형이었다.

회귀(regress)의 사전적의미는 "go back an earlier and worse condition" (옛날 상태로) 돌아감을 의미한다. 이런 용어를 사용하게 된 것은 영국의 유전학자 Francis Galton의 연구에 기인 하게 된다.

Galton은 부모의 키와 자녀의 키 사이 관계를 연구하면서 928명의 성인 자녀 키(여기는 키에 1.08배)와 부모 키 아버지 키와 어머니 키의 평균을 조사하여, 키는 무한정 커지거나 무한정 작어지는 것이 아니라 전체 키평균으로 돌아가려는 경향이 있다는 것을 발견 하였다.

그가 제안한 분석방법을 "회귀 분석" 이라 명명 하였다.

자녀키와 부모키의 히스토그램을 분석 하면, 종 모양의 정규 분포를 띄고 있다. 그러나 희귀 분석의 R2(R 제곱) 값에 의하면, 부모키가 크다고 해서 자녀키가 크다 거나, 부모키가 작다고 해서 자녀키가 작은 것이 아니다.

5.최소 제곱법

표본으로 부터 모형식을 추정하여 얻은 직선을

$$ \hat{Y} = b_0 + b_1x $$

이와 같은 직선은 추정된 회귀직선, 또는 간단히 회귀선이라고 한다. 여기에서 $b_0, b_1$은 각각 $ {\beta}_0 $, $ {\beta}_1 $의 추정값이며, $ \hat{Y}$ (헷이라고 읽음) 주어진 X에서의 기대값 E(Y)의 추정 값이 다. 여기에서 $b_0$는 X= 0일 때, $ \hat{y}$의 값으로서 추정된 회귀직선의 절편(intercept)이라고 한다. $b_1$은 X가 한 단위 증가 할 때에 $ \hat{y}$의 증가량을 나타내며, 이를 기울기(slop) 라고 한다.

이제 회귀계수 $b_0$, $b_1$을 구하는 방법을 알아보자, n개의 관찰점 $ (X_1, Y_1), (X_2, Y_2), \dot{}\dot{}\dot{} , (X_n, Y_n)$ 이 있을 때 이 데이터를 이용하여 회귀직선을 구하는 방법으로 가장 널리 이용되는 방법이 최소제곱법 (method of least squares)이다. 아래식

$$ Y_i = \beta_0 + \beta_1X_i + \epsilon_i $$

에서 오차제곱들의 합

$$ S = \sum_{i=1}^n(Y_i - \beta_0 - \beta_1X_i)^2 $$

을 최소로 하는 $ \beta_0 $와 $\beta_1$의 값들을 추정값 $b_0$와 $b_1$으로 하는 방법이다. 오차 제곱합 S를 최소화 시키는 $\beta_0$ 와 $\beta_1$의 값을 구하려고 S를 $\beta_0$와 $\beta_1$으로 각각 편미분 하면 다음과 같다.

$$ { \partial S \over \partial \beta_0} = -2\sigma(Y_i - \beta_0 - \beta_1X_i) $$$$ {\partial S \over \partial \beta_1} = -2\sigma X_i(Y_i - \beta_0 - \beta_1X_i) $$

위에서 $\sigma$는 $\sum_{i =1}^n $을 의미한다. 위 식의 편미분값을 0으로 만드는 $\beta_0$ 와 $\beta_1$을 각각 $b_0$ 와 $b_1$으로 대체하여 정리 하면

$$b_0n + b_1 ΣX_i = Σ Y_0$$$$ b_0Σ X_i + b_1Σ X_i^2 = Σ X_iY_i $$

가 되는데 이 식을 정규 방정식(normal equation) 이라고 부른다. 위의 정규방정식 $b_0$와 $b_1$에 대하여 풀면

$$ b_1 = { Σ(X_i - \bar{X}) (Y_i - \bar{Y}) \over Σ(X_i - \bar{X})^2} $$$$ b_0 = \bar{Y} -b_1\bar{X}$$ 가 된다.

나중에 최소 제곱법을 이용하여 딥러닝의 Loss 값을 산출 한다. 이때는 가중치 w 를 이용해서 Loss 가 최소가 되는 값을 찾는다.

오늘도 데이터

통계 기초 1 [평균, 분산, 표준편차, 정규분포, 회귀분석]

2. 모집단의 분산

3. 정규분포

댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

전체 페이지뷰