Python 분류 산점도 seaborn 그래프

    iris 붓꽃 데이터는 머신러닝용으로 아주 유명한 데이터이다.  R을 배우건 Python을 배우건 무조건 경험 하는 것인데,   처음에 보면  데이터가 매우 생소하다 .  간단하게 설명 하면 꽃받침및 꽃잎의  길이,  넒이 가지고 꽃의 종을 결정 하는 데이터 이다.   데이터 표현에 있어서,  매우 용이한 데이터 셋이다.


  분류 산점도는 seaborn의 lmplot() 함수를 이용한다.  이것에 대한 문법에 있어서,  약간 특이 사항이 있다면, hue(색조)라는 것인데,  꽃의 종(데이터 그룹)을 분류하는  매계변수가 된다.   



아래는 implot() 함수의 파라메터 설명이다.


x : x 점의 위치

y: y 점의 위치

data : 데이터 세트

fit_reg : True인 경우 선형 회귀 적합 선 표시

hue : 데이터의 하위 집합을 정의하는 변수

legend : True인 경우 범례 추가


예제는 아래와 같다. searborn에서 iris 데이터 셋을 받을 수 있다.

import seaborn as sns import matplotlib.pyplot as plt


#Map a color per group

df1 = sns.load_dataset('iris')


아래는 iris 붗꽃 데이터 셋을 이용하여 각 종별 색상을 그릴 수 있다. 아래 그래프에서 기본 그래프에서 범주를 false (보이지 않게) 처리 하였고, 회귀선인 fit_geg는 선형 회귀선을 보는 것인데, 이것은 분류의 문제로 필요하지 않아 false 처리 하였다.

# Use the 'hue' argument to provide a factor variable

sns.lmplot( x="sepal_length", y="sepal_width", data=df1, fit_reg=False, hue='species',

legend=False)

# Move the legend to an empty part of the plot

plt.legend(loc='lower right')

plt.show()

범주형 분류 그래프


범주형 분류 그래프로 어느 정도 분류가 될 것이라고 판단 되면 머신러닝을 돌릴 수 있다.







댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...