R로 하는 기초통계 [강의자료 ] 데이터 척도, 변수의 종류 및 대표값

   우리가 통계학을 처음 접하면서 어려움을 겪는 문제가 바로 기호들이다.   대표값에 대한 기호들이다.   μ(평균), σ(분산) 등이다.  이번에는  각종 기호들의 정의와  각종 변수로 모집단의 무엇이며,  표본이 어떠한 것 인지를 다를 것이다.    

히스토그램   대표값


1. 데이터 척도 

변수의 종류

  ※ 위의 것을 아는데,  매우 헤깔리다.    분석 하고자 하는 목적과 방법에 따라 매우 다르기 때문이다.   
우선 변수를  설명을 할 때는,  위의 방법을 먼저 설명 하고,  목적에 대한 방법은 이어서 설명 하겠다. 

  1) 독립변수(independent variable) :  생산직의 기량 및 생산환경(온도, 습도  등..)
  2) 종속변수(dependent variable)  : 생산량(※ 영향을 받음), 반응 변수
  3) 외생변수 : 우리가 뜻하지 않은 변수 (안전사고,  생산설비 고장 등)

정의를 할때,  제조업 공장의 기준으로 하였다.   일반통계적인 방법은 위와 같고, 머신러닝/ 딥러닝에서 많이 불러지는 경우가 있다. 
  
   1) feature = 독립변수
   2) target = 종속변수 

둘 다 같은 의미이지만,  부르는 방법이 다르다,  즉  통계관련된 종사자와 이야기 할때는 독립변수, 종속변수로 의사 소통을 하지만,  머신러닝/딥러닝 종사자에게는 feature와 target으로 이야기 많이 한다. 


데이터 유형


 데이터 크게 양적 자료와  범주형 자료로 나뉜다.   양적자료는  계산이 가능한 자료이다.  즉  양적 자료 값을 가지고,  평균,  분산과 같은 값을 계산 할 수 있다.  

범주형 자료는  머신러닝에서 분류를 다룰대,  주로 사용된다.    분류의 문제에서  범주형 자료를 feature를 쓰려고 하면, 원 핫 인코딩 하여야 한다. 



2. 대표값

  N 개의 값 $ X_1 + X_2 + \cdot\cdot\cdot , X_n $ 이 주어졌을 때  이 값을 대표 하는 값으로 많이 사용하는 값이 평균(average) 이다. 
    
모집단의 평균


$\bar{X} $ '엑스바' 라고 읽는 다.   R에서 함수  mean()으로 계산 할 수 있다. 

이런 경우 결측값을 무시하고 평균을 구하는 것이 대부분이다. 

> # NA 값 무시하고 평균 구하기

>   Y = c(0, 7, 8, NA, 0/0)

>   Y 

[1]   0   7   8  NA NaN

>   mean(Y) 

[1] NA  

>   mean(Y, na.rm = TRUE) 

[1] 5

 ※  결측값을 무시하고 싶겠지만 단순히 무시하면 편향된 결과가 나타나기 때문에,  결측값을 다룰 때는 항상 조심해야 하고  필요시 보고서에 기록을 남겨야 한다. 


  절사 평균은 운동 경기에서 채점 할 때 극단 적으로 준 심사위원이 있다.  이러한 영향을 줄이려면 절사평균을  구하여야 한다.  아래의 예는 양쪽 20% 씩 (함쳐서40%)를 뺀 것이다. 


> # 절사 평균

>   mean(X, trim = 0.2)

[1] 8

> # 중앙값

>   median(X)

[1] 8

여기에서 대표값은 중앙값을 사용하는 경우도 있다.  이건은 데이터의 상황과 사정에 따라서 바뀌므로 유의 하여 사용하여야 한다.  

    중앙값은 사용하는 Case는 100명이내의 중소기업 월급 평균이 가장 적당해 보인다. 


참고서적 : 누구나 통계 with R 길벗출판사 




댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...