R 기초 사용 빈도가 높은 통계 함수

    데이터를 받고 나서 탐색 첫단계를 통계 함수를 보는 것이다.   데이터의 평균, 범위값, 

중앙값, 불편 분산, 표준편차,  사분점,   사분위 범위, 통계 요약량 등이다. 

  금번 데이터 분석 시에는 금관구가 용어가 있어서,  금천구 지역의 아파트를 볼 예정 이다.

지금은 거제에 있지만, 내가 살던 고향이다. 


사용 빈도가 높은 통계 함수는 아래와 같다 

함수이름

내역

sum

합계

mean

산술평균

max

최대값

min

최소값

range

범위(최대값-최소값)

median

중앙값

var

불편 분산

sd

표준 편차

quantile

사분위수

summary

통계 요약량


1. 데이터 셋 준비 

library(rio)  
library(dplyr)
library(readxl)
library(httr)

# 파일을 불러오는 path를 url 변수로 정의      
url = "https://drive.google.com/u/0/uc?id=1JE-OQNMws1HfVWKCSX4JFwHBUPgnQzP8&export=download"
GET(url, write_disk(tf <- tempfile(fileext = ".xlsx")))
apt <- read_excel(tf, 1L)  # 1L은 sheet 

library(formattable)
# 아파트 파일을 필터 하고, 평당가격 구하기(기간 201707 ~ 202103) df <- apt %>% filter(동 == "시흥동") %>% filter(단지명 =="관악산신도브래뉴") %>% mutate(평당가격 = 거래금액_만원/ (전용면적_m3 / 3.3)) %>% select(평당가격, 거래금액_만원) # 평당 가격하고 거래금액 벡터화 하기 평당가격 = df$평당가격 거래금액 = df$거래금액_만원 # 거래금액 합계 sum(거래금액)
## [1] 1985300

  데이터 셋은 서울시 2017년 7월 부터 2021년03월 까지의 국토부 공공 데이터 셋을 근거로 했다.  

  dplyr  " %>% " 파이프 연산자를 이용 하여 filter를 하고,  mutate "필드 추가"를 하여, 평당 가격을 구한 다음 select 함수로 평당가격과 거래금액_만원을 선택한 것이다. 

# 천단위로 보면 190억 거래
  comma(sum(거래금액),  format = "d")
## [1] 1,985,300

sum은 합계를 구하는 것이다 거래 금액을 보기가 어려워서  "formattable" 패키지에서 comma라는 함수를 이용하여 세자리수 마다 콤마를 찍었다. 


# 평당 평균값
  mean(평당가격)
## [1] 1865.65
# 평당 최대값 (max)
  max(평당가격)
## [1] 2502.392
# 평당 최소값 (min)
  min(평당가격)
## [1] 1326.189
# 범위 (최대값 - 최소값)
  range(평당가격)
## [1] 1326.189 2502.392
# 중앙값 median 
  median(평당가격)
## [1] 1783.105

모두 알고  있는 평균값, 최대값, 최소값,  범위, 중앙값까지는  하였다.


분산과 표준 편차는 아래 공식에 의해서 계산 이 된다.     


# 분산 값 var 
  var(평당가격)
## [1] 98572.84
# 표준편차 sd
  sd(평당가격)
## [1] 313.9631

사분위 점은 아래 그래프와 같이  0%, 25%, 50%, 75%, 100% 까지의 값을 박스플랏에 표시된 값을 나타낸 것이다. 


# 사분점 quantile
  quantile(평당가격)
##       0%      25%      50%      75%     100% 
## 1326.189 1635.407 1783.105 2089.157 2502.392
# 통계요약량 
  summary(df)
##     평당가격    거래금액_만원  
##  Min.   :1326   Min.   :33000  
##  1st Qu.:1635   1st Qu.:40575  
##  Median :1783   Median :44150  
##  Mean   :1866   Mean   :47269  
##  3rd Qu.:2089   3rd Qu.:52412  
##  Max.   :2502   Max.   :79250

마지막으로 통계 요약량은 사분위 점을 나타낸 것이다.   사분위수를 보면 데이터가 어느정도 변화가 있었는지 대략적으로  감지 할 수 있다.  



댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...