데이터를 받고 나서 탐색 첫단계를 통계 함수를 보는 것이다. 데이터의 평균, 범위값,
중앙값, 불편 분산, 표준편차, 사분점, 사분위 범위, 통계 요약량 등이다.
금번 데이터 분석 시에는 금관구가 용어가 있어서, 금천구 지역의 아파트를 볼 예정 이다.
지금은 거제에 있지만, 내가 살던 고향이다.
사용 빈도가 높은 통계 함수는 아래와 같다
1. 데이터 셋 준비
library(rio)
library(dplyr)
library(readxl)
library(httr)
# 파일을 불러오는 path를 url 변수로 정의
url = "https://drive.google.com/u/0/uc?id=1JE-OQNMws1HfVWKCSX4JFwHBUPgnQzP8&export=download"
GET(url, write_disk(tf <- tempfile(fileext = ".xlsx")))
apt <- read_excel(tf, 1L) # 1L은 sheet
library(rio)
library(dplyr)
library(readxl)
library(httr)
# 파일을 불러오는 path를 url 변수로 정의
url = "https://drive.google.com/u/0/uc?id=1JE-OQNMws1HfVWKCSX4JFwHBUPgnQzP8&export=download"
GET(url, write_disk(tf <- tempfile(fileext = ".xlsx")))
apt <- read_excel(tf, 1L) # 1L은 sheet
library(formattable)
# 아파트 파일을 필터 하고, 평당가격 구하기(기간 201707 ~ 202103)
df <- apt %>%
filter(동 == "시흥동") %>%
filter(단지명 =="관악산신도브래뉴") %>%
mutate(평당가격 = 거래금액_만원/ (전용면적_m3 / 3.3)) %>%
select(평당가격, 거래금액_만원)
# 평당 가격하고 거래금액 벡터화 하기
평당가격 = df$평당가격
거래금액 = df$거래금액_만원
# 거래금액 합계
sum(거래금액)
## [1] 1985300
데이터 셋은 서울시 2017년 7월 부터 2021년03월 까지의 국토부 공공 데이터 셋을 근거로 했다.
dplyr " %>% " 파이프 연산자를 이용 하여 filter를 하고, mutate "필드 추가"를 하여, 평당 가격을 구한 다음 select 함수로 평당가격과 거래금액_만원을 선택한 것이다.
# 천단위로 보면 190억 거래
comma(sum(거래금액), format = "d")
## [1] 1,985,300
sum은 합계를 구하는 것이다 거래 금액을 보기가 어려워서 "formattable" 패키지에서 comma라는 함수를 이용하여 세자리수 마다 콤마를 찍었다.
# 평당 평균값
mean(평당가격)
## [1] 1865.65
# 평당 최대값 (max)
max(평당가격)
## [1] 2502.392
# 평당 최소값 (min)
min(평당가격)
## [1] 1326.189
# 범위 (최대값 - 최소값)
range(평당가격)
## [1] 1326.189 2502.392
# 중앙값 median
median(평당가격)
## [1] 1783.105
모두 알고 있는 평균값, 최대값, 최소값, 범위, 중앙값까지는 하였다.
분산과 표준 편차는 아래 공식에 의해서 계산 이 된다.
# 분산 값 var
var(평당가격)
## [1] 98572.84
# 표준편차 sd
sd(평당가격)
## [1] 313.9631
사분위 점은 아래 그래프와 같이 0%, 25%, 50%, 75%, 100% 까지의 값을 박스플랏에 표시된 값을 나타낸 것이다.
# 사분점 quantile
quantile(평당가격)
## 0% 25% 50% 75% 100%
## 1326.189 1635.407 1783.105 2089.157 2502.392
# 통계요약량
summary(df)
## 평당가격 거래금액_만원
## Min. :1326 Min. :33000
## 1st Qu.:1635 1st Qu.:40575
## Median :1783 Median :44150
## Mean :1866 Mean :47269
## 3rd Qu.:2089 3rd Qu.:52412
## Max. :2502 Max. :79250
마지막으로 통계 요약량은 사분위 점을 나타낸 것이다. 사분위수를 보면 데이터가 어느정도 변화가 있었는지 대략적으로 감지 할 수 있다.
댓글 없음:
댓글 쓰기