R 기초 사용 빈도가 높은 통계 함수

    데이터를 받고 나서 탐색 첫단계를 통계 함수를 보는 것이다.   데이터의 평균, 범위값, 

중앙값, 불편 분산, 표준편차,  사분점,   사분위 범위, 통계 요약량 등이다. 

  금번 데이터 분석 시에는 금관구가 용어가 있어서,  금천구 지역의 아파트를 볼 예정 이다.

지금은 거제에 있지만, 내가 살던 고향이다. 


사용 빈도가 높은 통계 함수는 아래와 같다 

함수이름

내역

sum

합계

mean

산술평균

max

최대값

min

최소값

range

범위(최대값-최소값)

median

중앙값

var

불편 분산

sd

표준 편차

quantile

사분위수

summary

통계 요약량


1. 데이터 셋 준비 

library(rio)  
library(dplyr)
library(readxl)
library(httr)

# 파일을 불러오는 path를 url 변수로 정의      
url = "https://drive.google.com/u/0/uc?id=1JE-OQNMws1HfVWKCSX4JFwHBUPgnQzP8&export=download"
GET(url, write_disk(tf <- tempfile(fileext = ".xlsx")))
apt <- read_excel(tf, 1L)  # 1L은 sheet 

library(formattable)
# 아파트 파일을 필터 하고, 평당가격 구하기(기간 201707 ~ 202103) df <- apt %>% filter(동 == "시흥동") %>% filter(단지명 =="관악산신도브래뉴") %>% mutate(평당가격 = 거래금액_만원/ (전용면적_m3 / 3.3)) %>% select(평당가격, 거래금액_만원) # 평당 가격하고 거래금액 벡터화 하기 평당가격 = df$평당가격 거래금액 = df$거래금액_만원 # 거래금액 합계 sum(거래금액)
## [1] 1985300

  데이터 셋은 서울시 2017년 7월 부터 2021년03월 까지의 국토부 공공 데이터 셋을 근거로 했다.  

  dplyr  " %>% " 파이프 연산자를 이용 하여 filter를 하고,  mutate "필드 추가"를 하여, 평당 가격을 구한 다음 select 함수로 평당가격과 거래금액_만원을 선택한 것이다. 

# 천단위로 보면 190억 거래
  comma(sum(거래금액),  format = "d")
## [1] 1,985,300

sum은 합계를 구하는 것이다 거래 금액을 보기가 어려워서  "formattable" 패키지에서 comma라는 함수를 이용하여 세자리수 마다 콤마를 찍었다. 


# 평당 평균값
  mean(평당가격)
## [1] 1865.65
# 평당 최대값 (max)
  max(평당가격)
## [1] 2502.392
# 평당 최소값 (min)
  min(평당가격)
## [1] 1326.189
# 범위 (최대값 - 최소값)
  range(평당가격)
## [1] 1326.189 2502.392
# 중앙값 median 
  median(평당가격)
## [1] 1783.105

모두 알고  있는 평균값, 최대값, 최소값,  범위, 중앙값까지는  하였다.


분산과 표준 편차는 아래 공식에 의해서 계산 이 된다.     


# 분산 값 var 
  var(평당가격)
## [1] 98572.84
# 표준편차 sd
  sd(평당가격)
## [1] 313.9631

사분위 점은 아래 그래프와 같이  0%, 25%, 50%, 75%, 100% 까지의 값을 박스플랏에 표시된 값을 나타낸 것이다. 


# 사분점 quantile
  quantile(평당가격)
##       0%      25%      50%      75%     100% 
## 1326.189 1635.407 1783.105 2089.157 2502.392
# 통계요약량 
  summary(df)
##     평당가격    거래금액_만원  
##  Min.   :1326   Min.   :33000  
##  1st Qu.:1635   1st Qu.:40575  
##  Median :1783   Median :44150  
##  Mean   :1866   Mean   :47269  
##  3rd Qu.:2089   3rd Qu.:52412  
##  Max.   :2502   Max.   :79250

마지막으로 통계 요약량은 사분위 점을 나타낸 것이다.   사분위수를 보면 데이터가 어느정도 변화가 있었는지 대략적으로  감지 할 수 있다.  



댓글 없음:

댓글 쓰기

공무 스케줄 AI Agem에 대한 생각

     지금 상황이 아비 규환이다.  어느 부서든 회사가 인수 합병되고 나서  투자를 기획하는 경영기획이 특히 않이 정신이 없고, 우리부서도 전부 미국 필리 조선소로 인원이 나가 있어,  사실상 10년 이상 고기량자는 거의 없다.   우리부서에 남아...