Pandas는 DataFrame을 아주 쉽게 파이썬에서 사용할 수 있도록 만든것이다. 서적에는 원리나, 기본적인 방법을 설명하는 것이 매우 많이 적혀 있지만, 실무에서 거의 쓰지 않는 것까지 포함되어 있다. 이 부분은 다른 언어(R)로 주로 일을 하였지만, 실제 실무에서 많이 사용하는 것만 정리 하겠다. 쓰지 않는 것 까지 익히려고 애를 쓰게 되면 될 수록 학습의 피로감만 높아 진다.
피드 구독하기:
글 (Atom)
공무 스케줄 AI Agem에 대한 생각
지금 상황이 아비 규환이다. 어느 부서든 회사가 인수 합병되고 나서 투자를 기획하는 경영기획이 특히 않이 정신이 없고, 우리부서도 전부 미국 필리 조선소로 인원이 나가 있어, 사실상 10년 이상 고기량자는 거의 없다. 우리부서에 남아...
-
칼만 필터 Kalman filter는 충분히 성숙한 방법이다. 시계열로 부터 새로운 정보를 결합하는 데 사용되고 과거에 알려진 내부 상태 추정 정보를 지능적으로 결합해 준다. 칼만 필터의 최초 사용 사례로는 아폴로 11호 apollo 11 mis...
-
텍스트 마이닝은 현업에서 은근히 많이 사용하는 기능이다. 즉, 텍스트 데이터를 처리를 엑셀로 하기 어렵고, 응용 해야 할 문제 들이 많이 있다. 아래의 내용은 " 쉽게 배우는 R 텍스트 마이닝"을 Base로 분...
-
Mysql을 R에서 사용하는 것은 흔한 케이스가 아니다. 하지만, Mysql에서 R을 사용하게 되면 여러가지 이점이 있다. 첫번째, 예전에 사용하는 SQL 쿼리를 사용하게 되므로써, 기존 개발 인력과 협업이 가능하다. 두번째, ...
-
Iptime NAS2daul를 구입 할 때 고려 할 사항이 클라우드 및 FTP 성능이 Dropbox나, 구글 Drive, MS OneDrive와 같다고 생각 하면, 안돼요. owncloud에서 제 성능 내려면, 유료버전을 ...
-
통계학에서 베이블 분포(Weibull distribution)는 연속확률 분포로써 고장 확률에 대한 예측에 대하여 많이 쓰인다. 신뢰도를 측정하는데 많이 쓰이는데, 시스템 혹은 부품이 작동을 시작하여 그 시점까지 고장 나지 않고 여전히...
-
KoLNP 로딩하면 아래와 같은 메시지가 나올 경우가 있다. warning message: in i.p(...) : 패키지 ‘c:/users/rdmkyg/appdata/local/temp/rtmps6vlku/file23e45dd83537/konlp...
-
R과 Python의 가장 큰 차이가 나는 것이, 문자열 인덱싱과 슬라이싱 일 것이다. 즉, 인덱싱은 문자에도 각 순번이 있어, 순번대로 가져오는 것이다. 그런데 R 과 파이썬 둘의 차이가 매우 크다, 어떻게 보면, 문자열을 초기에...
-
R을 진입 하는 시기에는 항상 시계열 그래프 그리는데, 한참이나 헤메었다. 이유는 데이터 속성 때문인데, 데이터 타입이 Date Type 인가? character Type 인가? 에 따라서 그래프 그리는 방법이 달랐기 때문이다. ...
-
네이버 지식인에서 아래와 같은 이메일이 왔다. R을 이용한 결측치 예측 제가 가지고 있는 데이터셋은 연속형 변수인 x1,x2,x3과 y로 이루어져 있는데, y 변수에 결측치들이 군데군데 존재합니다. 이 결측치를 제거하지 않는 방법을 찾아보니 회...
-
예전에 필자도 설문조사 하였다. 하지만, 설문지 문항에 대한 신뢰도는 조사는 하지 않고, 그냥 평균만 분석해서 보고 한 적이 있었는데, 이번에는 설문문항 신뢰도에 대해 다루어 볼 예정 이다. 설문문항 신뢰도 R을 다룰 때는...