R 이란! 오픈 소스 시스템으로 대화식(명령어 한 줄을 입력하면 바로 처리 결과가 나타나는 형식)으로 많이 사용되며 통계 데이터 해석과 통계 그래프 작성 능력이 뛰어 나다.
R의 전신인 S는 1976년대 부터 AT&T Bell 연구소 통계학자들이 개발 했다 Bell 연구소는 Unix와 C언어가 태어난 곳이 기도 하다. C언어의 전통을 따라 S언어도 이름이 문자 하나 다.
S 언어의 상용 버전은 S-PLUS로 무료로 배포되는 버전을 R로 발전했다. 오픈 소스인 R은 1990대 뉴질랜드 오클랜드 대학에서 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Rboert Gentleman)이 배포 했다.
로스 이하카, 로버트 젠틀맨 R 배포 |
빅데이터 개념이 있기 전 까지는 R을 통계를 분석 하기 위한 통계 패키지로서의 활용도가 높았다. 2016년 이후 빅데이터 열풍이 불면서 해들리 위컴의 dplyr 패키지와 ggplot을 필두로 하여, 다양한 패키지들이 나오면서, 단순한 통계 분석의 영역을 넘어서 비정형 데이터 계산 및 머신러닝, 딥러닝 등 다양한 분야의 부분의 분석이 가능 하게 되었다.
금번 교육은 빅데이터 개념이 있기 전에 통계학 학부에서 다루는 기초통계의 내용을 다루고 있다
이번 교육에서 다룰 영역
R분석 영역 |
1. 데이터 핸들링 : 데이터 수집 가공
2. 데이터 시각화
: 수리적 이해를 돕기 위해 사용
3. 데이터 모델링
: 기초 통계 부분만 다룸
(비전공자 수준의 통계 분석)
이번 교육에서는 비전공자 수준의 통계 분석을 주로 한다. 실제로 R을 실무에서 가장 많이 하는 것은 1. 데이터 핸들링 부분이다.
R과 Python
R은 프로그램밍을 전공한 사람들 보다 전공자지 않은 사람들이 더 많이 사용한다.
R의 장점과 단점
1) 장점
- 무료로 사용 할 수 있다. (오픈 소스)
- 프로그래밍에 익숙하지 않아도 설치와 사용환경 구축이 간편하다.
- 윈도우, 맥, 리눅스 등 다양한 운영체계에서 동작 한다.
- 다른 프로그래밍 언어에 비해 한글 처리가 쉽다(맥, 리눅스 환경에서 만)
2) 단점
- 범용 프로그래밍 언어(C, 파이썬, 자바 등)에 비해 처리 속도가 느림
사유: 통계분석에 용이하게 시스템이 설계 되었기 때문
- 데이터 분석에만 특화되어 있다 보니, 대규모 IT 서비스 개발에 접목하기 어려움
※ 하지만, 전문적인 DBA와 시스템 엔지니어만 갖추어지면 대규모 IT 서비스 개발 가능하다.
- 문제가 발생 하였을 때, 스스로 해결해야 한다. → 커뮤니티 발전됨(문제 구글링 해결)
※ 처음에 R을 서버 버전으로 도입하자고 하였 을때, 내부 시스템 엔지니어 및 데이터 관리자들의 반대가 많았다. 사유는 문제가 발생하였을 경우 해결 할 수 있는 업체가 없다는 것이다.
나는 맨 처음에 이게 무슨 말인지 잘몰랐다. 하지만, 대우조선해양의 용접 자동화 설비 및 로봇, 딥러닝 엔지니어로서 나중에 AS 할 업체가 중요함을 알았다.
지금은 전문적으로 관리 하는 DBA와 시스템 엔지니어와 함께 시스템을 안정적으로 관리 하고 있다.
참고로 이 교육 자료는 아래의 서적을 Base로 하여 작성 할 예정 이다.
기초 통계가 대부분 이지만, 일부는 수리 통계학에서 다루는 내용이 있어 위의 서적을 보려면, 잘 선별해서 봐야 한다.
서적의 있는 내용을 그대로 표현 하면, 강의 할때 수강생들이 어려워 할 경우를 대비 해서, 가능 하면 쉬운 표현으로 기재를 한다.
댓글 없음:
댓글 쓰기