실무에 사용된 R 패키지 종류

 

 4년 동안 실무에서  R을 다루면서 사용했던 R 패키지 이다.    R 패키지는 3가지 영역을 다루고 있다. 데이터를 전처리 하는 과정 대표적인게 tidyverse이다.  R을 진입 하려면  아래와 같은 패키지를 알고 있어야 한다. 

  데이터 전처리(원어:data manipulation)는  "데이터 조작" 이런 용어 사용하면, 우리나라 정서에는 맞지 않으니까?   데이터 전처리 라고 부르겠다.  

tidyvers안에 있는 데이터 전처리는 데이터는 가져오는 것에 대한 많은 것에 대한 입출력(예, 인터넷 크롤링,  csv, txt, excel 화일, DB, ODBC)을 다루고,  그래프와  모델을 다수로 돌려 한꺼번에 결과를 나타내는 것이다.   설비 자산 규모가 2조인 회사에서는  많은 데이터가 나온다.   

오히려 데이터 전처리 할때 부터 회귀모델을 돌리거나,  공분산을 돌려 값을 확인 하는 경우가 매우 많다.   예를 들자면, 자재 아이템이 10만개가 있는데,  10만개 전부 회귀 모형으로 돌리까? 라는 퀘스천 이다. 

그리고 데이터 시각화는 데이터의 패턴을 보는 것이다.  일반적인 웹에서는 3만개 데이터가 Max라고 하면,   R에서는 100만개 데이터 그래프 표현 거뜬 하다.   그리고 ggplot으로 그래프를 그릴 때, 통계모형을 근사해서 그리는 옵션이 있다. 

모델은  시계열 모형(녹색)과,  생존 분석 모형(녹색)이 있다.   시계열은 추세가 계절성이냐 선형성이나를 따지는 것이고 생존 분석 모형은 주로 품질관리나 생명과학쪽에 쓰인다.  

 그리고 머신러닝 (주황색)은 데이터 분류기를 표현 한 것인데,  요새는 이것을 머신러닝이라고 주로 부른다.   R에서는 파이썬 보다 속도는 늦지만,  통계량 등과 같은 면에서 무엇보다 뛰어 나다.  



댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...