readxl, rio 엑셀 데이터 읽어오는 패키지


제목에 있는 readxl, rio 패키지는 tidyvers 패키지안데 내장 되어 있다.  tidyvers 패키지를 설치 하였다면,  굳이 위의 패키지를 설치 할 필요가 없다. 

 분석 하는 전체 Process 중에서 가장 먼저 하는 것은 데이터 받아오기(import)하는 것이다.  처음 시작 하는 초보자들에게는 이것이 매우 중요하다.   어찌 되었든 자신이 가지고 있는 데이터를 분석 하고자 하는데,   데이터 파일을 열지 못한다면,  시작 자체를 할 수 없다.   예전에는 시스템 디렉토리 패스부터 정리 하였는데,  지금은 그럴 필요가 없어 졌다.   아래와 같이 하면 매우 간단하게 할 수 있다. 


아래를 클릭 하여 2021년도 소프트웨어 기술 종사자 임금 데이터 셋을 아래와 같이 받는다. 
https://drive.google.com/u/0/uc?id=1qdr8A90jGnkST-FYnyaSTNQyB7VHdLhs&export=download


1. Rstudio에서 파일을 import 하는 방법

  여기를 클릭 하고 나면 아래와 같이 파일을 업로드 한다.   (단 Linux 운영 체계에서 Rstudio Server를 설치 한 경우)

 번호대로 설명 하면

   1. upload 아이콘을 클릭 한다.
   2.파일 선택 아이콘을 클릭 한다. 
   3. 파일을 선택 한다. 
   4.열기를 선택 한다. 
   5. ok를 선택 한다. 

데이터를 데이터프레임으로 불러오는 것을 순서를 번호 대로 설명 하면, 
   1. 엑셀화일을 클릭 한 후 import Dataset 을 클릭 한다. 
   2.아래 칸에 있는 소스코드를 crlt+c 를 이용한여 복사 한다. 
   3.그리고 Cancel 버튼을 클릭 한다.  (이유는 import를 클릭 하면 소스코드를 활용 할수 없기 때문)
   4. script 입력 창에 불어 넣기 한다. 

 대략 이렇다,  파일 업로드 하는데 정말 어렵지 않다.  

그리고 엑셀 파일을 데이터 셋에서 R DataFrame으로 불러 오는 것이다.   여기에서 데이터프레임(DataFrame)이란  일반 엑셀과 같이 행렬과 필드 이름으로 된 집합체 임,  눈으로 보기에는 엑셀과 같음
그러면 swwage라는 데이터 프레임이 생성 된다. 



 2.  받은 데이터 셋 평균, 중간값, 초고값, 최소값 구하기 

library(readxl)
swwage <- read_excel("dataset/swwage.xlsx")

# SW 기술자 평균임금
swwage_mean <-  mean(swwage$일평균임금) 
format(swwage_mean, big.mark = ",") #읽기 쉽게 , 표시
## [1] "354,289.4"
 최고 임금을 알고 싶으면 max 함수를  사용 한다. 
# SW 기술자 최고임금
swwage_max <- max(swwage$일평균임금)
format(swwage_max, big.mark = ",")
## [1] "532,243"
 중간 임금을 알고 싶으면 median 함수를 사용한다.  
# SW 기술자 중간 임금
swwage_median <- median(swwage$일평균임금)
format(swwage_median, big.mark = ",")
## [1] "347,670"
최저 임금을 알고 싶으면,  min 함수를 사용한다. 
# 기술자 최저 임금 
swwage_min <- min(swwage$일평균임금)
format(swwage_min, big.mark = ",")
## [1] "203,918"
DT 패키지 tidyvers 내장 패키지를 불러서 웹테이블 표시 한다.  
library(DT)
datatable(swwage, options = list(pageLength = 30))
  IT 업계의 먹이사슬 최상단에 위치한  발주처 위치 한 필자는 위의 표를 주고 산정 하지 않는다.  이건 실제로 받는 사람이고,  도급, 하도급,  하하 도급 구조이기 때문에,  이 것보다는 좀 더 많은 금액으로 예산을 책정 한다. 

개발 리스트 펼처 두고,  M/H 계산 하고, 견적을 받는데,  어느 누구가 개발 화면 하나에 몇 M/D가 들어가는지 아는가?   쉬운 기능 4시간 만에 끝날 수도 있고,  어려운 것은  기능 하나에 한 달 들어 간것도 있는데,  사실상 시수 가지고, 인건비를 산정 하는 것은 맞지 않는 일이다. 


rio 패키지로 데이를 읽어 올때 아래와 같이 한다. 

library(rio)
swwage <- import("dataset/sswage.xlsx")


댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...