다수의 회귀 분석도 전처리 분야 중에서 하나이다. 즉 어떤 동네에 있는 아파트가 가격을 추세적으로 잘 설명할 수 있는가 인데, 일반적으로 R2으로 설명을 한다.
데이터 탐색 과정에서 R2값으로 한다. 아래 예제와 같이 아파트 지역 한 군데 예측 해보자, 저번까지 이야기 한 강남구 논현동 "아크로힐스논현" 이다.
1. 회귀분석 Basic
library(rio)
library(dplyr)
library(readxl)
library(httr)
# 파일을 불러오는 path를 url 변수로 정의
url = "https://drive.google.com/u/0/uc?id=1JE-OQNMws1HfVWKCSX4JFwHBUPgnQzP8&export=download"
GET(url, write_disk(tf <- tempfile(fileext = ".xlsx")))
## Response [https://doc-0s-58-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/q8qtsj6d15mhkh8l5im60pdeqdrvnims/1625579250000/07297316292192978319/*/1PT_0-xJvM9KGp5zzx1jjcPAaS25epx4l?e=download]
## Date: 2021-07-06 13:48
## Status: 200
## Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
## Size: 18.6 MB
## <ON DISK> /tmp/Rtmp4IrrFt/filec844a09097b.xlsx
apt <- read_excel(tf, 1L) # 1L은 sheet 1을 이야기 하는 것이다.
df <- apt %>%
filter(단지명 == "아크로힐스논현") %>%
group_by(계약일자) %>%
summarise(거래금액_만원 = mean(거래금액_만원))
fit <- lm(계약일자~거래금액_만원, data = df )
summary(fit)
## ## Call: ## lm(formula = 계약일자 ~ 거래금액_만원, data = df) ## ## Residuals: ## Min 1Q Median 3Q Max ## -13053 -6527 -1005 5019 20350 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 2.014e+07 4.806e+03 4189.939 < 2e-16 *** ## 거래금액_만원 2.621e-01 2.869e-02 9.136 3.76e-13
***
## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 7442 on 63 degrees of freedom ## Multiple R-squared:
0.5699
, Adjusted R-squared: 0.5631 ## F-statistic: 83.47 on 1 and 63 DF, p-value:
3.764e-13
plot(fit)
2. 회귀분석 진단
Signif. codes 계수는 계약일자 시간이라는 종속 변수(금액)에 얼마나 영향을 미치는 것을 확신 할 수 있느것이냐에 대한 것인데, 0.001 '**' 는 유의수준 99.99% 이므로, 99.99%가 중요하다고 볼 수 있고, "***"는 거의 확실하다고 할 수 있다.
R-squared : 0.5699 는 회귀 지수의 설명력을 이야기 하는 것으로, 경제나 부동산 분석에서는 0.3이상이면 어느 정도 설명이 가능하다.
p-value는 독립변수가 통계적으로 유의한 예측능력을 가지고 있는지 여부를 판단 할수 있게 한다. 일반적으로 p 값이 5% 미만이면 유의성을 나타낸다.
이것은 종속변수의 영향성도 있고, p 값도 유의 하기 때문에, R-squared 가 중요한데, Normal Q-Q 플랏에서 거래점이 정규분포의 범위를 벗어나는 특이점은 번호로 표시 된다. 여기에서는 37, 65, 58로 표시됨
이것은 종속변수의 영향성도 있고, p 값도 유의 하기 때문에, R-squared 가 중요한데, Normal Q-Q 플랏에서 거래점이 정규분포의 범위를 벗어나는 특이점은 번호로 표시 된다. 여기에서는 37, 65, 58로 표시됨
그럼 특이점을 버려야 하는지?, 아니면, 그대로 가져가야 하는지? 아니면 그때 계약 시 어떠한 조건이나, 정책 변화가 있었는지 봐야 한다. 에너지 공단에서 에너지의 R-squared 값 0.8을 이야기 하고, 국제 인증기관은 0.5를 이야기 한다. 어찌 되었든 전부 다르다.
그렇지만 항상 업무 하면서 개선점은 특이값 에서 나타난다. 우리가 분석 하면서 모형의 정확성을 논하는 것보다, 모델에 영향을 주는 특이값을 먼저 논하는 것이 좋지 않을 까라는 생각이 든다.
댓글 없음:
댓글 쓰기