R에서 행렬(matrix)와 배열(array)를 쓰는 이유는 연산 속도의 사유로 많이 사용하게 된다. dataframe으로 된 데이터 셋을 연산하게 되면 속도가 매우 느린 현상이 발생 하게 된다. R에서 멀티코어 코딩을 하려면, 반드시 알고 넘어가야 하는 것이 행렬(matrix)와 배열(array)이다.
집합 union(합집합), intersect(교집합), setdiff(차집합) 계산
R에서 vector union(합집합), intersect(교집합), setdiff(차집합)은 실무에서는 데이터 기준을 세우고 돌릴때, 사용이 많이 된다. 벡터를 추가 하거나, 필요한 것만 불러 올 경우에는 집합 계산을 할 수 있다.
포아송(Poisson) 분포 이론 및 R 예제
일반적으로 매우 회귀하여 일어날 확률이 아주 작은 경우에 포아송(Poisson) 분포를 사용한다. 예를 들어 고속도로 상에서 하루동안 발생하는 교통사고에 의한 사망자수, 어느 집에 한 시간 동안 걸려 오는 전화 통화수, 1주일간 어떤 동사무소에 접수되는 사망신고수, 하루동안 정전되는 횟수 등과 같이 회귀한 사건의 수를 확률 변수로 할때 이다.
구체적으로 포아송 분포가 적용되기 위해서는 다음의 가정을 만족하여야 한다.
- 독립성 : 한 단위 시간이나 공간에서 출현하는 성공횟수와 중복되지 않는 다른 단위 시간이나 공간에서 출현하는 성공횟수는 서로 독립이다.
- 비집략성 : 극히 작은 시간이나 공간에서 둘 또는 그 이상의 성공이 같이 일어날 확률은 매우 작으며 0으로 간주된다.
- 비례성 : 단위 시간이나 공간에서 성공의 평균출현횟수는 일정하며, 이는 시간이나 공간에 따라 변하지 않는다.
확률 분포 X가 위의 세가지 조건을 만족 할때, 성공의 평균출현 횟수를 m이라고 하고 하면 X의 확률 분포는 다음의 포아송 분포를 따른다.
R 4.2 Windows rJava 및 KOLNP 설치
KoLNP 로딩하면 아래와 같은 메시지가 나올 경우가 있다.
warning message: in i.p(...) : 패키지 ‘c:/users/rdmkyg/appdata/local/temp/rtmps6vlku/file23e45dd83537/konlp_0.80.2.tar.gz’의 설치가 0이 아닌 종료상태를 가졌습니다
요새 R 4.2 버전을 설치 하면 나오는 메세지이다.
unique와 duplicated의 차이 이해
실무에서는 unique와 duplicated는 많이 사용하는 데이터 이다. 예를 들어 부동산의 구별로 평당 가격 추세를 그리는 데이터셋을 정리하기 위한 함수를 그릴때, unique를 이용하고, duplicated는 데이터를 취합 할때, 중복이 없는지 확인 한다. 실무에서 데이터 전처리 하거라 모델을 사용할때 많이 사용하므로, R을 진입 할때는 반드시 알고 넘어가야 한다.
r download Edge 버전 흠… 이 페이지에 연결할 수 없습니다. cran.r-project.org이(가) 연결을 거부했습니다.
Edge 버전에서 R download가 아래와 같이 안될때가 있다.
흠… 이 페이지에 연결할 수 없습니다.
cran.r-project.org이(가) 연결을 거부했습니다.
다음을 시도해 보세요.
- 연결을 확인하는 중
- 프록시 및 방화벽 점검 중
R-4.2.0 for Windows downloag 페이지 오류 cran.r-project.org에서 연결을 거부했습니다.
R Base를 다운로드 하려 하니 아래와 같은 문제가 발생 하였다. 구글링에서 r download 치고 검색하고 들어가면 아래와 같은 메세지가 뜬다.
사이트에 연결할 수 없음
cran.r-project.org에서 연결을 거부했습니다.
다음 방법을 시도해 보세요.
- 연결 확인
- 프록시 및 방화벽 확인
css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소
앞에서는 html의 간단한 sheet를 소개 하였습니다. html은 주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다. 아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다. body 부분의 css 코딩 ...
-
R 하고 Python을 같이 사용하게 되면, 두개의 문법이 매우 헤깔리다. 헤깔린 부분을 해결하려면, 나름대로 기록이 필요하다. R에서는 paste 또는 paste0로 하지만, Python은 문자열 + 문자열로 한다. 문자열을 그대...
-
통계학에서 베이블 분포(Weibull distribution)는 연속확률 분포로써 고장 확률에 대한 예측에 대하여 많이 쓰인다. 신뢰도를 측정하는데 많이 쓰이는데, 시스템 혹은 부품이 작동을 시작하여 그 시점까지 고장 나지 않고 여전히...
-
칼만 필터 Kalman filter는 충분히 성숙한 방법이다. 시계열로 부터 새로운 정보를 결합하는 데 사용되고 과거에 알려진 내부 상태 추정 정보를 지능적으로 결합해 준다. 칼만 필터의 최초 사용 사례로는 아폴로 11호 apollo 11 mis...
-
실세계에서 서로 관련성이 있는 여러 시계열은 병렬로 존재할 수 있다. 이미 이러한 데이터를 정리하고 정렬하는 방법은 살펴 보았다. 이제 정리된 데이터를 최대한 활용하는 방법을 배워볼 차례이다. 그 중 여러 변수에 대한 AR(p) 모델을 생성해 ...
-
mariaDb 인코딩 셋 에러가 나서 아래와 같이 간단하게 정리 한다. 이것은 R 연결 까지 되어 있고, R source 코드까지 기록되어 있다. 지금 내가 세팅 한것은 UTF8버전으로 잘되어 있는거 같은데, 회사 것은 그렇지 않아 보인다...
-
현업에 있으면, 직면하는 데이터는 항상 범주형(카테고리) 데이터 셋이다. 다른 모델로 하였을 경우 범주형 데이터는 항상 원-핫 인코딩을 하여 계산 하여야 만 했다. 하지만, 원-핫 인코딩을 하지 않고, 범주형 데이터를 이용하는 것에 대...
-
텍스트 마이닝은 현업에서 은근히 많이 사용하는 기능이다. 즉, 텍스트 데이터를 처리를 엑셀로 하기 어렵고, 응용 해야 할 문제 들이 많이 있다. 아래의 내용은 " 쉽게 배우는 R 텍스트 마이닝"을 Base로 분...
-
야나두 딥러닝 강의를 하는 데, 질문이 나왔다. linear regression(회귀 분석)을 할 때, 경사 하강 법에 의해 계산 된 것이 좋은지 , 아니면, 통계학은 계산 된 최소 제곱법을 간단 하게 정리 하여 계산 한것이 좋은지 확인 ...
-
필자가 근무하고 있는 부서는 보전(maintenance Dept') 부서이다. 생존분석이 매우 중요하다. 고장확률은 아래와 같다. 고장확률 = 1 - 생존확를 센서에서 고장에 대한 Event 알람 신호를 받아,...
-
KoLNP 로딩하면 아래와 같은 메시지가 나올 경우가 있다. warning message: in i.p(...) : 패키지 ‘c:/users/rdmkyg/appdata/local/temp/rtmps6vlku/file23e45dd83537/konlp...