Pandas는 DataFrame을 아주 쉽게 파이썬에서 사용할 수 있도록 만든것이다. 서적에는 원리나, 기본적인 방법을 설명하는 것이 매우 많이 적혀 있지만, 실무에서 거의 쓰지 않는 것까지 포함되어 있다. 이 부분은 다른 언어(R)로 주로 일을 하였지만, 실제 실무에서 많이 사용하는 것만 정리 하겠다. 쓰지 않는 것 까지 익히려고 애를 쓰게 되면 될 수록 학습의 피로감만 높아 진다.
matplotlib 그래프 그리기 scatterplot 산점도 소득과 행복간의 관계
matplotlib 는 통계적으로 분석 할 수 있는 그래프가 있다. 대표적인 것이 scatterplot 산점도이다. 산점도는 변수간의 관계성이 있는지에 관한 이야기이다. 아래는 소득과 행복간의 관계를 따지는 산점도를 그릴 것이다.
R & Python 문자열 인덱싱 및 슬라이싱
R과 Python의 가장 큰 차이가 나는 것이, 문자열 인덱싱과 슬라이싱 일 것이다. 즉,
인덱싱은 문자에도 각 순번이 있어, 순번대로 가져오는 것이다. 그런데 R 과 파이썬 둘의 차이가 매우 크다, 어떻게 보면, 문자열을 초기에 핸들링 하기에는 Python이 더욱 쉬워 보인다.
아래의 주어진 문자의 예를 들어 설명해 보자.
text = "나는 고요한 아침의 나라 대한민국에서 살고 있습니다."
피드 구독하기:
글 (Atom)
공무 스케줄 AI Agem에 대한 생각
지금 상황이 아비 규환이다. 어느 부서든 회사가 인수 합병되고 나서 투자를 기획하는 경영기획이 특히 않이 정신이 없고, 우리부서도 전부 미국 필리 조선소로 인원이 나가 있어, 사실상 10년 이상 고기량자는 거의 없다. 우리부서에 남아...
-
텍스트 마이닝은 현업에서 은근히 많이 사용하는 기능이다. 즉, 텍스트 데이터를 처리를 엑셀로 하기 어렵고, 응용 해야 할 문제 들이 많이 있다. 아래의 내용은 " 쉽게 배우는 R 텍스트 마이닝"을 Base로 분...
-
현업에 있으면, 직면하는 데이터는 항상 범주형(카테고리) 데이터 셋이다. 다른 모델로 하였을 경우 범주형 데이터는 항상 원-핫 인코딩을 하여 계산 하여야 만 했다. 하지만, 원-핫 인코딩을 하지 않고, 범주형 데이터를 이용하는 것에 대...
-
Rstudio는 2009년에 개발 되었고, 처음 안 것은 2017년도 되었다. 어찌 되었던 학부에서 통계학을 배우고 있을 때는 2000년대 였으니, 콘솔을 사용한 R을 사용하였는데, 데이터 읽어 오는데, 많이 고생한 기억이 난다. ...
-
Mysql을 R에서 사용하는 것은 흔한 케이스가 아니다. 하지만, Mysql에서 R을 사용하게 되면 여러가지 이점이 있다. 첫번째, 예전에 사용하는 SQL 쿼리를 사용하게 되므로써, 기존 개발 인력과 협업이 가능하다. 두번째, ...
-
딥러닝을 맨 처음 테스트로 배우는 쉬운 예제로 mnist 데이터셋을 사용한다. 사람이 우편번호를 적은 숫자를 컴퓨터가 얼마나 잘 인식 하는지에 대한 문제이다. 복잡한 그림의 문제는 CNN의 Convolution filter를 이용해서 Ne...
-
데이터 프레임에도 sql 쿼리와 다르지만 업데이트 하는 것이 있다. 데이터 프레임에서 데이터 업데이트 할 케이스는 여러가지 케이스가 있는데, 예를 들자면, 수없이 많은 모델을 업데이트를 할 필요성이 있을때가 있다. 그런데, 바로...
-
역시 ggplot2는 다른 툴에 비해서 매우 뛰어난 시각화 기능을 가지고 있다. 실제 실무 사례에서도 많이 쓰일 수 있는 데이터 셋과 그래프로 구성 되어 있다. 글을 쓰고 있는 나도, 예전에 사내 주유소 시스템 만들어서 요일별, 시간 대별...
-
Rstudio 4.1.1 버전하고 Rstudio 2021.09.0의 계정 이름이 한글 일 때 아래와 같은 오류가 발생 한다. package ‘devtools’ successfully unpacked and MD5 sums checked The do...
-
보안이 매우 중요한 회사에서는 웹사이트가 접속이 제한이 된다. 그래서, R CRAN Mirror 사이트를 선택해서 설치 해야 한다. 앞으로의 보안 정책은 전부다 막고, 일부만 풀어 주는 방식으로 될 것이며, 물론 보안 신청 한...
-
통계학에서 베이블 분포(Weibull distribution)는 연속확률 분포로써 고장 확률에 대한 예측에 대하여 많이 쓰인다. 신뢰도를 측정하는데 많이 쓰이는데, 시스템 혹은 부품이 작동을 시작하여 그 시점까지 고장 나지 않고 여전히...