우리가 통계학을 처음 접하면서 어려움을 겪는 문제가 바로 기호들이다. 대표값에 대한 기호들이다. μ(평균), σ(분산) 등이다. 이번에는 각종 기호들의 정의와 각종 변수로 모집단의 무엇이며, 표본이 어떠한 것 인지를 다를 것이다.
 |
| 히스토그램 대표값 |
1. 데이터 척도
 |
변수의 종류
|
※ 위의 것을 아는데, 매우 헤깔리다. 분석 하고자 하는 목적과 방법에 따라 매우 다르기 때문이다. 우선 변수를 설명을 할 때는, 위의 방법을 먼저 설명 하고, 목적에 대한 방법은 이어서 설명 하겠다.
1) 독립변수(independent variable) : 생산직의 기량 및 생산환경(온도, 습도 등..)
2) 종속변수(dependent variable) : 생산량(※ 영향을 받음), 반응 변수
3) 외생변수 : 우리가 뜻하지 않은 변수 (안전사고, 생산설비 고장 등)
정의를 할때, 제조업 공장의 기준으로 하였다. 일반통계적인 방법은 위와 같고, 머신러닝/ 딥러닝에서 많이 불러지는 경우가 있다.
1) feature = 독립변수
2) target = 종속변수
둘 다 같은 의미이지만, 부르는 방법이 다르다, 즉 통계관련된 종사자와 이야기 할때는 독립변수, 종속변수로 의사 소통을 하지만, 머신러닝/딥러닝 종사자에게는 feature와 target으로 이야기 많이 한다.
 |
| 데이터 유형 |
데이터 크게 양적 자료와 범주형 자료로 나뉜다. 양적자료는 계산이 가능한 자료이다. 즉 양적 자료 값을 가지고, 평균, 분산과 같은 값을 계산 할 수 있다.
범주형 자료는 머신러닝에서 분류를 다룰대, 주로 사용된다. 분류의 문제에서 범주형 자료를 feature를 쓰려고 하면, 원 핫 인코딩 하여야 한다.
2. 대표값
N 개의 값 $ X_1 + X_2 + \cdot\cdot\cdot , X_n $ 이 주어졌을 때 이 값을 대표 하는 값으로 많이 사용하는 값이 평균(average) 이다.
 |
| 모집단의 평균 |
$\bar{X} $ '엑스바' 라고 읽는 다. R에서 함수 mean()으로 계산 할 수 있다.
이런 경우 결측값을 무시하고 평균을 구하는 것이 대부분이다.
> # NA 값 무시하고 평균 구하기
>
Y = c(0, 7, 8, NA, 0/0)
>
Y
[1]
0 7 8 NA
NaN
>
mean(Y)
[1] NA
>
mean(Y, na.rm = TRUE)
[1] 5
※ 결측값을 무시하고 싶겠지만 단순히 무시하면 편향된 결과가 나타나기 때문에, 결측값을 다룰 때는 항상 조심해야 하고 필요시 보고서에 기록을 남겨야 한다.
절사 평균은 운동 경기에서 채점 할 때 극단 적으로 준 심사위원이 있다. 이러한 영향을 줄이려면 절사평균을 구하여야 한다. 아래의 예는 양쪽 20% 씩 (함쳐서40%)를 뺀 것이다.
> # 절사 평균
>
mean(X, trim = 0.2)
[1] 8
> # 중앙값
>
median(X)
[1] 8
여기에서 대표값은 중앙값을 사용하는 경우도 있다. 이건은 데이터의 상황과 사정에 따라서 바뀌므로 유의 하여 사용하여야 한다.
중앙값은 사용하는 Case는 100명이내의 중소기업 월급 평균이 가장 적당해 보인다.
참고서적 : 누구나 통계 with R 길벗출판사
댓글 없음:
댓글 쓰기