오늘도 데이터: Python 분류 산점도 seaborn 그래프

iris 붓꽃 데이터는 머신러닝용으로 아주 유명한 데이터이다. R을 배우건 Python을 배우건 무조건 경험 하는 것인데, 처음에 보면 데이터가 매우 생소하다 . 간단하게 설명 하면 꽃받침및 꽃잎의 길이, 넒이 가지고 꽃의 종을 결정 하는 데이터 이다. 데이터 표현에 있어서, 매우 용이한 데이터 셋이다.

분류 산점도는 seaborn의 lmplot() 함수를 이용한다. 이것에 대한 문법에 있어서, 약간 특이 사항이 있다면, hue(색조)라는 것인데, 꽃의 종(데이터 그룹)을 분류하는 매계변수가 된다.

아래는 implot() 함수의 파라메터 설명이다.

x : x 점의 위치

y: y 점의 위치

data : 데이터 세트

fit_reg : True인 경우 선형 회귀 적합 선 표시

hue : 데이터의 하위 집합을 정의하는 변수

legend : True인 경우 범례 추가

예제는 아래와 같다. searborn에서 iris 데이터 셋을 받을 수 있다.

import seaborn as sns import matplotlib.pyplot as plt

#Map a color per group

df1 = sns.load_dataset('iris')

아래는 iris 붗꽃 데이터 셋을 이용하여 각 종별 색상을 그릴 수 있다. 아래 그래프에서 기본 그래프에서 범주를 false (보이지 않게) 처리 하였고, 회귀선인 fit_geg는 선형 회귀선을 보는 것인데, 이것은 분류의 문제로 필요하지 않아 false 처리 하였다.

# Use the 'hue' argument to provide a factor variable

sns.lmplot( x="sepal_length", y="sepal_width", data=df1, fit_reg=False, hue='species',

legend=False)

# Move the legend to an empty part of the plot

plt.legend(loc='lower right')

plt.show()

범주형 분류 그래프

범주형 분류 그래프로 어느 정도 분류가 될 것이라고 판단 되면 머신러닝을 돌릴 수 있다.

오늘도 데이터

Python 분류 산점도 seaborn 그래프

댓글 없음:

댓글 쓰기

공무 스케줄 AI Agem에 대한 생각

전체 페이지뷰