R로 하는 기초통계 [강의자료 ] 분산과 표준편차

  분산과 표준편차 정말 많이 쓰이는 것이다.   분산과 표준편차는 주식시장에서 가장 많이 쓰이는 단어이다.   수익의 변화율을 분산이라고 하는데, 즉 변화율이 높다는 것은 분산과 표준편차가 크다는 것이다.   분산과 표준편차를 기반으로 포트폴리오 이론이 정립되었다. 


자산구성 분산과 표준편차


분산과 표준편차 

   확률변수 X의 기대값(모평균)을 μ = E(X) 라 할 때, X와 모평균의 차이를 제곱한 것의 기대값 $E(X - μ)^2 $을 X의 분산 (variance) 또는 모분산 (population variance) 이라고도 한다.

 다음 식은 V(X) 또는 $σ^2$을 나타낸다.  
             $$ σ^2 = V(X) = E((X-μ)^2),  μ = E(X) $$

분산의 제곱근인 
          $$ σ = \sqrt{ E((X-μ)^2)  }  $$
   
 을 표준편차(standard deviation)이라고 한다. σ(시그마)는 알파벳 s 에 해당하는 그리스 문자이다. SD 라고 쓸 때도 있다. 

 X에서 꺼낸 n개의 $X_1, X_2, \cdot\cdot\cdot , X_n$은 다음 식을 만족한다. 
              $$   E((X_1- μ)^2 + (X_2 - μ)^2 +  \cdot\cdot\cdot + (X_n - μ^2) = nσ^2 $$

하지만 모평균 (모집단 평균값) μ는 실제로 알 수 없는 값이다.  μ 대신 표본평균 $ \bar{X} = { 1\over n } (X_1 + X_2 + \cdot\cdot\cdot + X_n)$ 의 값을 사용하면 위 식의 왼쪽 변의 값이 작아 지며 다음 식이 성립 된다. 
      $$  s^2 = {  1 \over n-1 }((X_1 - (\bar{X}))^2 +(X_2 -(\bar{X}))^2 + \cdot\cdot\cdot +  (X_n - (\bar{X}))^2  $$

그러면 $ S^2$의 기대값은 모분산과 일치 한다. 
$$ E(s^2) = σ^2$$

여기에서 이야기 하는 요점은 표준분산 n 으로 나누는 방법이 아니라, n-1로 나누는 것이다. 



※ 통계학 교과서적인 내용
   표본분산 계산에서 표본의 크기를 n-1로 나누는 것은 n으로 나누는 것에 비해서 일반적으로 더 정확한 추정이 가능 하기 때문이다.  여기서 n-1을 자유도(degree of freedom)라고 하고 그 직관적인 의미는 다음과 같다.  자료로 부터 평균까지의 편차합을 구하면 항상 0 이 되어서 n -1개 자료의 편차만 알면 나머지 하나의 편차를 알 수 있게 된다.  따라서 전체 n개의 자료값 중에서 n-1개의 자료값 만이 자유롭게 변화 할  수 있다는 의미에서 자유도 라고 한다.     

 위에 있는 의미를 이해하기 매우 어려우니 R을 이용한 간단한 수식으로 실험해 보자 

> # 모분산 추정 예제

>   x = 1:5

>   var(x) 

[1] 2.5

>

> # 아무 숫자나 하나를 빼보자

>   var(c(2, 3, 4, 5)) 

[1] 1.666667

>   var(c(1, 3, 4, 5))

[1] 2.916667

>   var(c(1, 2, 4, 5))

[1] 3.333333

>   var(c(1, 2, 3, 5))

[1] 2.916667

>   var(c(1, 2, 3, 4))

[1] 1.666667

>

>   mean(c(1.666667, 2.916667, 3.333333, 2.916667, 1.666667)) 

[1] 2.5



 위의 R예제를 보면, 한 개씩 빼고 계산하여도 원래의 분산은 같다. 

일반적으로 전체에서 임의로 몇 개가 사라져도 n-1로 나눈 분산이라면 기대값은 원래 분산과 같다.  시험점수의 분산 구할 때, 누군가 시험날 빠졌다고 해도 분산이 (정확히 말해 분산의 기대값이) 작아지지 않는다. 

  실무 TIP (엑셀 사용에 있어서 함수 사용 유의 사항)


# n으로 나누는 분산을 구하는데 사용하는 Excel 함수는 VARP()와 VAR.P()가 있다. 

>   vars <- function(x) { var(x) *(length(x)-1) / length((x)) }

>   vars(1:5)

[1] 2

>   var(1:5)

[1] 2.5



표본을 사용해 표준편차를 구할 때 일반적으로 다음 식을 사용한다. 

$$  s = \sqrt{s^2 } = \sqrt{ { 1 \over n-1 } \sum_{i=1}^n  (X_i - \bar{X})^2  }  $$

위의 공식은 R에 내장된 표준편차 함수 sd()를 사용한다. 

>   x <- 1:5

>   sd(x)    

[1] 1.581139



  변이 계수는 측정 단위가 다르거나 평균이 크게 차이가 나는 두 자료의 산포를 비교하는 것으로 산식은 아래와 같다. 

      변이계수 : 모집단 = $ { σ  \over μ  } × 100 \% $ ,   표본 = $ { s \over μ } × 100\% $

>   x <- 1:5

>   sd(x)/mean(x)

[1] 0.5270463



분산과 표준편차의 개념을 모르면 앞으로 있을 회귀 분석 / 딥러닝 등  여러가지 문제를 해결 하기 어렵다.  이 분은 꼭 집고 넘어가야 한다. 

참고서적 : 누구나 통계 with R  길벗 출판사
              통계학 개론  KNOU Press


              

댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...