제목에 있는 readxl, rio 패키지는 tidyvers 패키지안데 내장 되어 있다. tidyvers 패키지를 설치 하였다면, 굳이 위의 패키지를 설치 할 필요가 없다.
분석 하는 전체 Process 중에서 가장 먼저 하는 것은 데이터 받아오기(import)하는 것이다. 처음 시작 하는 초보자들에게는 이것이 매우 중요하다. 어찌 되었든 자신이 가지고 있는 데이터를 분석 하고자 하는데, 데이터 파일을 열지 못한다면, 시작 자체를 할 수 없다. 예전에는 시스템 디렉토리 패스부터 정리 하였는데, 지금은 그럴 필요가 없어 졌다. 아래와 같이 하면 매우 간단하게 할 수 있다.
아래를 클릭 하여 2021년도 소프트웨어 기술 종사자 임금 데이터 셋을 아래와 같이 받는다.
https://drive.google.com/u/0/uc?id=1qdr8A90jGnkST-FYnyaSTNQyB7VHdLhs&export=download
1. Rstudio에서 파일을 import 하는 방법
번호대로 설명 하면
1. upload 아이콘을 클릭 한다.
2.파일 선택 아이콘을 클릭 한다.
3. 파일을 선택 한다.
4.열기를 선택 한다.
5. ok를 선택 한다.
데이터를 데이터프레임으로 불러오는 것을 순서를 번호 대로 설명 하면,
데이터를 데이터프레임으로 불러오는 것을 순서를 번호 대로 설명 하면,
1. 엑셀화일을 클릭 한 후 import Dataset 을 클릭 한다.
2.아래 칸에 있는 소스코드를 crlt+c 를 이용한여 복사 한다.
3.그리고 Cancel 버튼을 클릭 한다. (이유는 import를 클릭 하면 소스코드를 활용 할수 없기 때문)
4. script 입력 창에 불어 넣기 한다.
대략 이렇다, 파일 업로드 하는데 정말 어렵지 않다.
그리고 엑셀 파일을 데이터 셋에서 R DataFrame으로 불러 오는 것이다. 여기에서 데이터프레임(DataFrame)이란 일반 엑셀과 같이 행렬과 필드 이름으로 된 집합체 임, 눈으로 보기에는 엑셀과 같음
그러면 swwage라는 데이터 프레임이 생성 된다.
2. 받은 데이터 셋 평균, 중간값, 초고값, 최소값 구하기
위와 같이 readxl을 입력 해서 데이터 셋을 swwage라는 데이터 프레임을 불어온다. 여기에서 서브세팅 $ 데이터 프레임에 필드명을 하면, vector가 만들어 지는데, 거기에 mean이라는 함수를 사용하게 되면 SW 기술자 평균 임금이 나온다.
추가로 format에 big.mark 옵션을 넣으면, 금액 단위로 읽을 수 있게 점이 찍힌다. 단 주의 사항은 1000이라는 숫자나, 100000이라는 숫자는 Big mark가 지원되지 않는다. 다른 함수를 써야 한다. 기초적인 내용을 다루므로 여기에서는 패스 한다.
library(readxl)
swwage <- read_excel("dataset/swwage.xlsx")
# SW 기술자 평균임금
swwage_mean <- mean(swwage$일평균임금)
format(swwage_mean, big.mark = ",") #읽기 쉽게 , 표시
## [1] "354,289.4"
최고 임금을 알고 싶으면 max 함수를 사용 한다.
# SW 기술자 최고임금
swwage_max <- max(swwage$일평균임금)
format(swwage_max, big.mark = ",")
## [1] "532,243"
중간 임금을 알고 싶으면 median 함수를 사용한다.
# SW 기술자 중간 임금
swwage_median <- median(swwage$일평균임금)
format(swwage_median, big.mark = ",")
## [1] "347,670"
최저 임금을 알고 싶으면, min 함수를 사용한다.
# 기술자 최저 임금
swwage_min <- min(swwage$일평균임금)
format(swwage_min, big.mark = ",")
## [1] "203,918"
DT 패키지 tidyvers 내장 패키지를 불러서 웹테이블 표시 한다.
library(DT)
datatable(swwage, options = list(pageLength = 30))
IT 업계의 먹이사슬 최상단에 위치한 발주처 위치 한 필자는 위의 표를 주고 산정 하지 않는다. 이건 실제로 받는 사람이고, 도급, 하도급, 하하 도급 구조이기 때문에, 이 것보다는 좀 더 많은 금액으로 예산을 책정 한다.
개발 리스트 펼처 두고, M/H 계산 하고, 견적을 받는데, 어느 누구가 개발 화면 하나에 몇 M/D가 들어가는지 아는가? 쉬운 기능 4시간 만에 끝날 수도 있고, 어려운 것은 기능 하나에 한 달 들어 간것도 있는데, 사실상 시수 가지고, 인건비를 산정 하는 것은 맞지 않는 일이다.
rio 패키지로 데이를 읽어 올때 아래와 같이 한다.
library(rio)
swwage <- import("dataset/sswage.xlsx")
댓글 없음:
댓글 쓰기