오늘도 데이터: R기초

레이블이 R기초인 게시물을 표시합니다. 모든 게시물 표시

dplyr %>% 파이프 연산자 부분 집합 및 필터 filter,distinct, sample_n ubuntu R

dplyr %>% 파이프 연산자 부분 집합 및 필터 filter 는 데이터 셋 가져오면 가장 많이 사용하는 기능 이다. 부동산의 데이터면 내가 궁금해 하던 지역의 아파트 가격을 알 수가 있다. 어찌 보면 dplyr 에서 가장 많이 쓰는 기능 중에 하나 이다.

dplyr 설치 및 설정은 아래와 같은 페이지를 보면 알 수 있다.

https://rdmkyg.blogspot.com/2021/12/dplyr-tidyr-ubuntu-r-41.html

데이터 핸들링 dplyr 그리고 tidyr 설치 및 데이터 요약 및 보기 ubuntu R 4.1

R에서 가장 많이 사용하고 있는 패키지이다. 잘 사용하면 엑셀 보다 더 좋은 패키지이다.

dplyr은 주로 집계 쪽에 많이 사용하고 tidyr 은 데이터 모형을 변경 하는데 많이 사용한다.

실제 업무에 있어서 엑셀을 대체 할 정도로 많이 사용하는 패키지이다. 이것에 대한 예제를 가지고 이야기 하겠다. 물론 예제는 아래에 있는 Cheat Sheet 기반으로 작성 하였다.

https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

python list 와 R vector 와 비교 문자열 편

python list 와 R vector는 유사점이 많다. 하지만 매우 같은 것이 아니다.

같은 부분이 있다면, 요소를 추가, 삭제, 가능 하다는 정도이고, 다르다면, Python list는 중괄호 []를 선택 하고 R vector는 소괄호()를 선택 해야 한다는 다른 점이 있다.

그럼 아래와 같이 파이썬의 리스트 사항부터 보자.

>>>names = ['a', 'b', 'c']

>>># 리스트에서 추출하기

>>>names[0]

'a'

>>>names[1]

'b'

>>>#리스트 추가하기

>>>names.append("d")

>>>names

['a', 'b', 'c', 'd']

>>>#리스트 인덱싱하기

>>>names[0:2]

['a', 'b']

>>># 리스트 길이 구하기

>>>len(names)

>>># 리스트 수정하기

>>>names[3] = 'e'

>>>names

['a', 'b', 'c', 'e']

>>> #리스트 삭제하기

>>> del names

리스트 인덱싱은 약간 특이하다. 0부터 시작해야 한다. 길이도 구할 수 있고, 인덱싱도 전부 할 수 있다.

R에서도 이것과 같이 수행 할 수 있다.

> # R 벡터 만들기

> names <- c("a", "b", "c")

> # R 벡터에서 추출하기

> names[1]

'a'

># 벡터 추가

>names <- c(names,"d")

> names

'a' 'b' 'c' 'd'

># R 벡터 인덱싱하기

> names[1:2]

'a' 'b'

># 벡터 수정하기

>names[4] ="e"

> names

'a' 'b' 'c' 'e'

># 벡터 삭제하기

>rm(names)

R이나 파이썬 무언가 집합이나 배열 형태로 만들어 가는 것은 거의 같다. R에는 list라는 개념이 있는데, 이것은 개념이 매우 다르다.

R에서 list라는 개념을 알려면, matrix를 알아야 한다. matrix는 numpy에서 자주 나오는 것이다. 이것은 R 과 Python을 이야기하기 위한 기초적인 것이다.

구글 드라이브 파일 다운로드 법 R에서 URL 다운로드 법

R에서 데이터를 가져올때, 파일 다운로드 방식으로 가져온다. 물론 개인적으로 Owncloud라고 별도의 클라우드를 가지고 있으나, 개인적으로 사용하려면, 안정적인 서버가 있어야 하고, 이것 또한 이중화 되어 있어야 한다.

나는 서버 전문가가 아니므로, 내가 설치한 서버가 언제까지 존재 할지는 알 수 없다. Owncloud에서는 URL에서 다운로드 하는 것이 정해져 있는데, 구글 드라이브에서는 URL에서 다운로드 하는 것을 어렵게 한다.

야간 시간 시급 조건문 계산 lubridate

네이저 지식인에 이 이렇게 질문이 왔다.

코딩 문제를 풀어야 하는데.. 식을 어떻게 해야할지 몰라서요...ㅠㅠㅠㅠㅠ

문제가.. 저녁 10시 이전에는 시간당 만원이고

저녁 10시를 초과하면 시간당 만오천원으로 지급하는 경우 근무시간 입력받으면 출력으로 임금이 계산되도록 하라는 문제인데..... 너무 어려워요.ㅠㅠㅠㅠㅠㅠ

숙제인데.... 무슨말인지 모르겠어요.ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ

제발 제발 설명이랑 어떻게 풀어야할까요?ㅠㅠㅠㅠㅠㅠㅠㅠ

R & Python 문자열 포메팅 print 문

Python에서 문자열 포메팅은 모델을 결과를 보여 줄때, 예를 들면, 강아지와 고양이, 모델의 결과를 보여 보여 줄 때, 사용된다. 즉 Python에서 Print 문에서 숫자나 텍스트를 받고 문장을 표현 할 때 사용된다.

문자열 포메팅 사용사례

R로 하는 기초통계 [강의자료 ] 분산과 표준편차

분산과 표준편차 정말 많이 쓰이는 것이다. 분산과 표준편차는 주식시장에서 가장 많이 쓰이는 단어이다. 수익의 변화율을 분산이라고 하는데, 즉 변화율이 높다는 것은 분산과 표준편차가 크다는 것이다. 분산과 표준편차를 기반으로 포트폴리오 이론이 정립되었다.

자산구성 분산과 표준편차

R로 하는 기초통계 [강의자료 ] 확률변수, 난수, 모집단, 표본

변수 X 값을 알아 보려고 조회 할 때 마다 값이 변하는 변수를 수학에서는 확률변수(random variable)이라 하며, 컴퓨터에서는 난수(random number)라고 부른다.

통계학에서는 모집단(population)은 통계적인 관찰의 대상이 되는 집단 전체를 말한다.

모집단과 평균

R로 하는 기초통계 [강의자료 ] 패키지 설치 , 엑셀에서 데이터 가져오는 법

패키지 설치 및 엑셀에서 데이터 가져오는 법은 처음 R을 진입 하려는 초급자들을 위한 준비 교육이다. 실제로 학부에서 R을 배웠을때, 가장 어려운 것은 text, 엑셀 데이터 로딩이 었다. 2000년대 후반에는 상당히 어려운 방법으로 데이터를 읽어 왔다. 물론 그대는 R studio도 없었다. 이번에는 아주 쉬운 방법을 논의 하겠다.

R packages

R로 하는 기초통계 [강의자료 ] 간단한 계산, 데이터 입력, 도움말, 데이터 프레임, 그래프 그리는 법

R로 하는 기초통계에서는 처음 R을 접하는 사람에게 쉽게 적용 할 수 있는 간단한 계산, 데이터 입력, 그래프 그리는 법 부터 시작 한다. 일단 기초적인 사용법 부터 알아야, 그 다음 단계를 나갈 수 있다.

간단한 계산, 데이터 프레임, 그래프 그리는 법

R로 하는 기초통계 [강의 자료] Windows R & Rstudio 설치

요새 들어 Windows R이 안정성이 많이 높아 졌다. 예전 버전에서는 한글 인코딩 문제로, 코딩 후에 알 수 없는 문제를 겪었다. 하지만, 지금은 그러한 문제가 많이 해결 되었다. 한글 인코딩 문제도 풀리고, Windows R에서 하기 어려웠던 멀티코어 코딩 문제도 많이 해결 되었다.

따라서 예전에는 R을 시작 할 때, 맥북을 사용하거나, 아니면 우분투를 사용 해야, 정말로 R에 진입 하려 나 보다 생각을 했다.

R & RStudio

R 기초 벡터 vector 사용법 , paste(문자열 붙이기) ,nchar(문자열세기), substr(문자열자르기), strsplit(하위 문자열 분리)

R실무를 하면서, 문자열, paste, nchar, substr, strsplit, grep 및 정규화 표현식은 많이 사용되어 진다. 아래와 같이 위 함수를 정의한다.

paste : 문자형 벡터에서 문자열을 붙일 때 사용한다.
nchar : 문자형 벡터에서 문자열을 셀 때 사용한다.
substr : 문자형 벡터에서 부분 문자열을 추출하거나 교체 한다.
strsplit : 문자형 벡터에서 하위 문자열을 분리 한다.

만약에 위의 명령어를 사용하지 못한 다면, R의 데이터 전처리 할때, 어떻게 해야 할지 몰라, 그냥 엑셀에서 전처리를 전부 하고, R에서는 모델링을 하게 된다. 어떠한 책을 보더라도, 이 부분이 있다는 것을 설명 할 뿐 어떻게 사용하는지 알 수 없다.

R vector 사용법

R 기초 데이터 표준화 (Standardization) 및 데이터 정규화(Normalization) 방법, 유방암 데이터 셋 머신러닝

데이터 표준화 및 정규화는 머신러닝에 있어서, 매우 중요한 사항이다. 서로 데이터의 크기가 맞지 않을 경우 정확 한 계산을 할 수 없다. 아래는 유방암 데이터 세트이다. 이 데이터는 머신러닝으로 모델 만들기 전에 반드시, 표준화 및 정규화 작업을 해야 하다.

데이터 스케일

위의 그림을 보면 데이터의 크기 차이가 많이 난다. 이럴 경우에는 전부 스케일 하여, 훈련셋과 테스트 셋을 만들어야 한다.

오늘도 데이터