우리가 통계학을 처음 접하면서 어려움을 겪는 문제가 바로 기호들이다. 대표값에 대한 기호들이다. μ(평균), σ(분산) 등이다. 이번에는 각종 기호들의 정의와 각종 변수로 모집단의 무엇이며, 표본이 어떠한 것 인지를 다를 것이다.
히스토그램 대표값 |
1. 데이터 척도
변수의 종류 |
2. 대표값
모집단의 평균 |
$\bar{X} $ '엑스바' 라고 읽는 다. R에서 함수 mean()으로 계산 할 수 있다.
> # NA 값 무시하고 평균 구하기
>
Y = c(0, 7, 8, NA, 0/0)
>
Y
[1]
0 7 8 NA
NaN
> mean(Y)
[1] NA
>
mean(Y, na.rm = TRUE)
[1] 5
※ 결측값을 무시하고 싶겠지만 단순히 무시하면 편향된 결과가 나타나기 때문에, 결측값을 다룰 때는 항상 조심해야 하고 필요시 보고서에 기록을 남겨야 한다.
절사 평균은 운동 경기에서 채점 할 때 극단 적으로 준 심사위원이 있다. 이러한 영향을 줄이려면 절사평균을 구하여야 한다. 아래의 예는 양쪽 20% 씩 (함쳐서40%)를 뺀 것이다.
> # 절사 평균
>
mean(X, trim = 0.2)
[1] 8
> # 중앙값
>
median(X)
[1] 8
여기에서 대표값은 중앙값을 사용하는 경우도 있다. 이건은 데이터의 상황과 사정에 따라서 바뀌므로 유의 하여 사용하여야 한다.
중앙값은 사용하는 Case는 100명이내의 중소기업 월급 평균이 가장 적당해 보인다.
참고서적 : 누구나 통계 with R 길벗출판사
댓글 없음:
댓글 쓰기