이건은 R을 처음 시작 하는 사람을 위한 것이고, 가장 기초적인 것을 나타낸다. 하지만, R은 기초가 조금 어려운 부분이 있다. 기초 적인 부분이 잘 정리 되면, R은 쉽게 접근 할 수 있다.
피드 구독하기:
덧글 (Atom)
css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소
앞에서는 html의 간단한 sheet를 소개 하였습니다. html은 주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다. 아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다. body 부분의 css 코딩 ...
-
통계학에서 베이블 분포(Weibull distribution)는 연속확률 분포로써 고장 확률에 대한 예측에 대하여 많이 쓰인다. 신뢰도를 측정하는데 많이 쓰이는데, 시스템 혹은 부품이 작동을 시작하여 그 시점까지 고장 나지 않고 여전히...
-
Windows R은 관리자 권한으로 실행하지 않으면 패키지도 로딩이 안되고, 제대로 패키지를 설치 할 수 없다. 따라서 제대로 설치 하고 실행 하려면, 아래와 같이 관리자 권한으로 실행 하여야 한다. 1.아이콘에서 관리자 권한 실행 법 ...
-
Rstudio는 2009년에 개발 되었고, 처음 안 것은 2017년도 되었다. 어찌 되었던 학부에서 통계학을 배우고 있을 때는 2000년대 였으니, 콘솔을 사용한 R을 사용하였는데, 데이터 읽어 오는데, 많이 고생한 기억이 난다. ...
-
t-검정은 두 데이터 셋의 평균값을 비교하고 동일한 모집단의에서 나온 것인지 결정 할 수 있다. 아래의 데이터 셋의 예에서 Group 1과 Group 2의 다른 샘플은 가진다면, 동일한 평균과 표준편차를 가질 것이라고 기대할 수 없다. ...
-
과대적합을 해결 하는 대표적인 방법 중 하나인 가중치 규제(regularization) 이다. 가중치 규제란 말 그대로 가중치의 값이 커지지 않도록 제한 하는 기법이다. 가중치를 규제하면 모델의 일반화 성능이 올라간다. 아래 경사가 급...
-
분산과 표준편차 정말 많이 쓰이는 것이다. 분산과 표준편차는 주식시장에서 가장 많이 쓰이는 단어이다. 수익의 변화율을 분산이라고 하는데, 즉 변화율이 높다는 것은 분산과 표준편차가 크다는 것이다. 분산과 표준편차를 기반으로 포트폴리오 이...
-
딥러닝에서 왜 통계를 다루는 이유는 딥러닝을 배우려면 초기 모델부터 가야 하는데, 초기 모델은 대부분 통계에서 시작 되기 때문이다. 초기의 뉴런은 회귀 방정식에서 나온 직선 가지고 검증을 하였기 때문이다. 통계 기초는 다른 깊은 부분을...
-
정렬, 순위, 순서 중 실무에서 가장 많이 하는 것이 정렬이다. R에서는 데이터의 성격을 미리 보자고 할 때, 사용을 한다. 주식의 시세의 차이를 계산 하다든지 증감율을 계산을 하고 싶다면 반드시 해야하는 것이 정렬이다. house 데...
-
matplotlib 는 통계적으로 분석 할 수 있는 그래프가 있다. 대표적인 것이 scatterplot 산점도이다. 산점도는 변수간의 관계성이 있는지에 관한 이야기이다. 아래는 소득과 행복간의 관계를 따지는 산점도를 그릴 것이다.
-
현업에 있으면, 직면하는 데이터는 항상 범주형(카테고리) 데이터 셋이다. 다른 모델로 하였을 경우 범주형 데이터는 항상 원-핫 인코딩을 하여 계산 하여야 만 했다. 하지만, 원-핫 인코딩을 하지 않고, 범주형 데이터를 이용하는 것에 대...