Python 분류 산점도 seaborn 그래프

    iris 붓꽃 데이터는 머신러닝용으로 아주 유명한 데이터이다.  R을 배우건 Python을 배우건 무조건 경험 하는 것인데,   처음에 보면  데이터가 매우 생소하다 .  간단하게 설명 하면 꽃받침및 꽃잎의  길이,  넒이 가지고 꽃의 종을 결정 하는 데이터 이다.   데이터 표현에 있어서,  매우 용이한 데이터 셋이다.


  분류 산점도는 seaborn의 lmplot() 함수를 이용한다.  이것에 대한 문법에 있어서,  약간 특이 사항이 있다면, hue(색조)라는 것인데,  꽃의 종(데이터 그룹)을 분류하는  매계변수가 된다.   



아래는 implot() 함수의 파라메터 설명이다.


x : x 점의 위치

y: y 점의 위치

data : 데이터 세트

fit_reg : True인 경우 선형 회귀 적합 선 표시

hue : 데이터의 하위 집합을 정의하는 변수

legend : True인 경우 범례 추가


예제는 아래와 같다. searborn에서 iris 데이터 셋을 받을 수 있다.

import seaborn as sns import matplotlib.pyplot as plt


#Map a color per group

df1 = sns.load_dataset('iris')


아래는 iris 붗꽃 데이터 셋을 이용하여 각 종별 색상을 그릴 수 있다. 아래 그래프에서 기본 그래프에서 범주를 false (보이지 않게) 처리 하였고, 회귀선인 fit_geg는 선형 회귀선을 보는 것인데, 이것은 분류의 문제로 필요하지 않아 false 처리 하였다.

# Use the 'hue' argument to provide a factor variable

sns.lmplot( x="sepal_length", y="sepal_width", data=df1, fit_reg=False, hue='species',

legend=False)

# Move the legend to an empty part of the plot

plt.legend(loc='lower right')

plt.show()

범주형 분류 그래프


범주형 분류 그래프로 어느 정도 분류가 될 것이라고 판단 되면 머신러닝을 돌릴 수 있다.







댓글 없음:

댓글 쓰기

공무 스케줄 AI Agem에 대한 생각

     지금 상황이 아비 규환이다.  어느 부서든 회사가 인수 합병되고 나서  투자를 기획하는 경영기획이 특히 않이 정신이 없고, 우리부서도 전부 미국 필리 조선소로 인원이 나가 있어,  사실상 10년 이상 고기량자는 거의 없다.   우리부서에 남아...