Pandas는 DataFrame을 아주 쉽게 파이썬에서 사용할 수 있도록 만든것이다. 서적에는 원리나, 기본적인 방법을 설명하는 것이 매우 많이 적혀 있지만, 실무에서 거의 쓰지 않는 것까지 포함되어 있다. 이 부분은 다른 언어(R)로 주로 일을 하였지만, 실제 실무에서 많이 사용하는 것만 정리 하겠다. 쓰지 않는 것 까지 익히려고 애를 쓰게 되면 될 수록 학습의 피로감만 높아 진다.
matplotlib 그래프 그리기 scatterplot 산점도 소득과 행복간의 관계
matplotlib 는 통계적으로 분석 할 수 있는 그래프가 있다. 대표적인 것이 scatterplot 산점도이다. 산점도는 변수간의 관계성이 있는지에 관한 이야기이다. 아래는 소득과 행복간의 관계를 따지는 산점도를 그릴 것이다.
R & Python 문자열 인덱싱 및 슬라이싱
R과 Python의 가장 큰 차이가 나는 것이, 문자열 인덱싱과 슬라이싱 일 것이다. 즉,
인덱싱은 문자에도 각 순번이 있어, 순번대로 가져오는 것이다. 그런데 R 과 파이썬 둘의 차이가 매우 크다, 어떻게 보면, 문자열을 초기에 핸들링 하기에는 Python이 더욱 쉬워 보인다.
아래의 주어진 문자의 예를 들어 설명해 보자.
text = "나는 고요한 아침의 나라 대한민국에서 살고 있습니다."
피드 구독하기:
덧글 (Atom)
css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소
앞에서는 html의 간단한 sheet를 소개 하였습니다. html은 주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다. 아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다. body 부분의 css 코딩 ...
-
통계학에서 베이블 분포(Weibull distribution)는 연속확률 분포로써 고장 확률에 대한 예측에 대하여 많이 쓰인다. 신뢰도를 측정하는데 많이 쓰이는데, 시스템 혹은 부품이 작동을 시작하여 그 시점까지 고장 나지 않고 여전히...
-
t-검정은 두 데이터 셋의 평균값을 비교하고 동일한 모집단의에서 나온 것인지 결정 할 수 있다. 아래의 데이터 셋의 예에서 Group 1과 Group 2의 다른 샘플은 가진다면, 동일한 평균과 표준편차를 가질 것이라고 기대할 수 없다. ...
-
논리연산자 AND,OR는 실무에서 많이 쓰이는 방법이다. R을 처음 시작 하는 컴퓨터 프로그래머는 for문을 많이 사용한다. 하지만 R에서 for문은 속도 측면에서 최악이다. 그리고 AND, OR, IF 문도 for문을 돌리지 않고 dpl...
-
요새 들어 Windows R이 안정성이 많이 높아 졌다. 예전 버전에서는 한글 인코딩 문제로, 코딩 후에 알 수 없는 문제를 겪었다. 하지만, 지금은 그러한 문제가 많이 해결 되었다. 한글 인코딩 문제도 풀리고, Windows R에서 ...
-
현업에 있으면, 직면하는 데이터는 항상 범주형(카테고리) 데이터 셋이다. 다른 모델로 하였을 경우 범주형 데이터는 항상 원-핫 인코딩을 하여 계산 하여야 만 했다. 하지만, 원-핫 인코딩을 하지 않고, 범주형 데이터를 이용하는 것에 대...
-
딥러닝을 그냥 시작 하면 매우 어려울 수도 있다. 왜냐 하면, 선형대수학이나, 통계학에 대한 기초 이론이 있어야 어느 정도 가능 하다. 이번에 하는 시간은 매우 적지만, 기초에 대한 부분을 우선 적으로 다룰 예정이다. 1. 딥...
-
필자가 근무하고 있는 부서는 보전(maintenance Dept') 부서이다. 생존분석이 매우 중요하다. 고장확률은 아래와 같다. 고장확률 = 1 - 생존확를 센서에서 고장에 대한 Event 알람 신호를 받아,...
-
강의 시간 질문이 광범위 해서, 2번째 주제를 접하는데, 2번째 주제는 사실상 모델링 하기전에 미리 데이터 탐색용도로는 쓰이지 않고 사람이 보고 직관적으로 분석 하는 그래프이다. 실제로는 2번째 주제의 그래프가 많이 쓰이는데, 2...
-
KoLNP 로딩하면 아래와 같은 메시지가 나올 경우가 있다. warning message: in i.p(...) : 패키지 ‘c:/users/rdmkyg/appdata/local/temp/rtmps6vlku/file23e45dd83537/konlp...
-
Rstudio는 2009년에 개발 되었고, 처음 안 것은 2017년도 되었다. 어찌 되었던 학부에서 통계학을 배우고 있을 때는 2000년대 였으니, 콘솔을 사용한 R을 사용하였는데, 데이터 읽어 오는데, 많이 고생한 기억이 난다. ...