레이블이 graph인 게시물을 표시합니다. 모든 게시물 표시
레이블이 graph인 게시물을 표시합니다. 모든 게시물 표시

Python 분류 산점도 seaborn 그래프

    iris 붓꽃 데이터는 머신러닝용으로 아주 유명한 데이터이다.  R을 배우건 Python을 배우건 무조건 경험 하는 것인데,   처음에 보면  데이터가 매우 생소하다 .  간단하게 설명 하면 꽃받침및 꽃잎의  길이,  넒이 가지고 꽃의 종을 결정 하는 데이터 이다.   데이터 표현에 있어서,  매우 용이한 데이터 셋이다.


  분류 산점도는 seaborn의 lmplot() 함수를 이용한다.  이것에 대한 문법에 있어서,  약간 특이 사항이 있다면, hue(색조)라는 것인데,  꽃의 종(데이터 그룹)을 분류하는  매계변수가 된다.   

matplotlib 그래프 그리기 scatterplot 산점도 소득과 행복간의 관계

 matplotlib 는 통계적으로 분석 할 수 있는 그래프가  있다. 대표적인 것이  scatterplot 산점도이다.  산점도는 변수간의 관계성이 있는지에 관한 이야기이다.    아래는 소득과 행복간의 관계를 따지는 산점도를 그릴 것이다. 

R 중급 ggplot2 New York Taxi cabs 그래프 그리기 [ part 2, 택시 운행 거리, 택시 운임]

    지난번 주제인 New York Taxi cabs  그래프 그리기 2번째  파트이다.   이번에도 저번 시간 시간에 했던 것을 이어서 하는 것이지만,   맨 처음 전처리 하는 과정을 오늘도 같이 가겠다. 

지난번하고 방법론은 크게 바뀐 것이 없지만,  그래도 이야기는 끝가지 정리하는 것이 좋을 것 같아 정리 하려 한다. 


New York Taxi ggplot2


R 중급 ggplot2 New York Taxi cabs 그래프 그리기 [ part 1, 택시 운행 횟수, 운행기간]

  역시  ggplot2는 다른 툴에 비해서 매우 뛰어난 시각화 기능을 가지고 있다.  실제 실무 사례에서도 많이 쓰일 수 있는 데이터 셋과 그래프로 구성 되어 있다.  

글을 쓰고 있는 나도,  예전에 사내 주유소 시스템 만들어서 요일별, 시간 대별 주유 횟수를 그려, 그래프를 개발자에게 그려 달라고 하여,  기능을 사용하였다.  그 때 당시에는 굉장히 신기 했는데, 지금 ggplot2에서는 데이터만 있으면 아주 쉽게 이용 할 수 있다.    


뉴욕 택시 데이터 셋 ggplot2

아래는 UCSanDiego  분석한 뉴욕 택시 자습서(New York Taxi cabs) 그래프 그리는 것이다.  

  이것은  쉽게 설명 하려고,  스크립트 코드를 길고 자세 하게 구성 하였다. 



  

그래프 그리기 2편 막대그래프 (bar graph), 원 그래프(pie chart) , 버블 차트(bubble chart) 야나두 딥러닝

    강의 시간 질문이 광범위 해서,  2번째 주제를 접하는데,   2번째 주제는  사실상  모델링 하기전에 미리 데이터 탐색용도로는 쓰이지 않고 사람이 보고 직관적으로 분석 하는 그래프이다.  실제로는 2번째 주제의 그래프가 많이 쓰이는데,   2번째 주제에 대한 그래프는 R이나 파이썬 같은 것보다는 파워포인트나 엑셀에서 작성 하는 것이 훨씬 좋다.   

엑셀이나 파워포인트에 이러한 기능 들이 잘 들어가 있다. 


파이썬 그래프 툴


그래도 대량의 데이터는 엑셀이나 파워포인트에서는 할수 없으니,  여기에서 다루어 보겠다. 


R 중급 각 년도별 색이 다르게 월별 데이터 그리기 AirPassengers, USAccDeaths

  R 함수에 내장되어 있는 시계열 데이터 셋을 분리 해서 데이터 프레임으로 만든 다음 월별로 다르게 하려면 많은 데이터 핸들링이 필요 하다.   이런 사항은 현업 실무에서 빅데이터 셋준비 할때,  많이 사용한다. 


AirPassengers 데이터 사전 탐색 

# package loading
  library(tseries)
  library(forecast)
  library(dplyr)
  library(tidyr)
  library(stringr)
  library(ggplot2)

# R에서 제공하는 AirPassengers 데이터 셋은 1949년 ~1960년 사이의 항공
#승객수를 월벼로 나타낸 것이다. Air Passengers 데이터 셋에서 1949, 1955,
#1960년의 월별 승객수 선그래프로 작성 하는데,  3개년도의 선의 색을 다르게
#하시오.

  data(AirPassengers)
  
  AP <- AirPassengers
  
  plot(AP,xlab="Date", ylab = "Passenger numbers (1000's)",main="Air Passenger numbers from 1949 to 1961")

역시 생각 하였던 바와 같이 시계열에 적합 한데이터 이다. 



네이버 지식인 질문 사항 중에서 

 문제 1. R에서 제공하는 AirPassengers 데이터 셋은 1949년 ~1960년 사이의 항공 승객수를 월벼로 나타낸 것이다. Air Passengers 데이터 셋에서 1949, 1955,1960년의 월별 승객수 선그래프로 작성 하는데,  3개년도의 선의 색을 다르게 하시오.


 데이터를 입력 한다. 변수를 년도로 쓸수 없다. 
  pa1949 <-  c(112, 118, 132, 129, 121, 135, 148, 148, 136, 119, 104, 118)
  pa1955 <-  c(242, 233, 267, 269, 270, 315, 364, 347, 312, 274, 237, 278)
  pa1960 <-  c(417, 391, 419, 461, 472, 535, 622, 606, 508, 461, 390, 432)
  months <- c("01월", "02월", "03월", "04월", "05월", "06월",
               "07월", "08월", "09월", "10월", "11월", "12월")
  
# 데이터 프레임으로 만들고
  df<-data.frame(pa1949, pa1955, pa1960)
  df <- gather(df, key = "년도", value ="승객수")

#pa를 replace 한다. 
  df$년도<- gsub("pa","", df$년도)

# 월별 데이터 묶기 
  df <- cbind(df, months) %>% 
         rename(월 = months)

# 월별 승객수 선색 다르게 선그래프 작성 
   df %>% 
     group_by(년도,월) %>% 
     ggplot(aes(월,승객수, group = 년도,  colour = 년도))+
       geom_line()
년도별 색 다르게 그래프 표현



데이터를 입력을 하였고,  그래프를 그릴수 있게  데이터를 gather 하였다. 아래는 해들리 위컴이 작성한 자료 이다. 


변수를 숫자를 넣을 수 없어서,  pa를 붙였고,  나중에 문자열 변경 gsub("변경전", "변경후", vector) 으로 변경 하여,  넣었다.  


문제 2.   R에서 제공하는 USAccDeaths 데이터 셋은 1973년 ~1978년 사이의 사고 사망자 숫자를 월별로 나타낸 것이다. USAccDeaths 데이터 셋에서 1973, 1975, 1977년의 월별 사망자 숫자를 선그래프로 작성 하는데,  3개년도의  선의 색을 다르게 하시오. 

6 R에서 제공하는 USAccDeaths 데이터 셋은 1973년 ~1978년 사이의 사고 
# 사망자 숫자를 월별로 나타낸 것이다. USAccDeaths 데이터 셋에서 1973,
# 1975, 1977년의 월별 사망자 숫자를 선그래프로 작성 하는데,  3개년도의 
# 선의 색을 다르게 하시오. 

# 벡터 명을 숫자로 할수 없으니, pa를 임시로 붙인다.       
  USA1973 <- USAccDeaths[1:12]
  USA1975 <- USAccDeaths[25:36]     
  USA1977 <- USAccDeaths[49:60]

#  데이터 프레임으로 만들고 
  df1 <-data.frame(USA1973, USA1975, USA1977)
  df1 <- gather(df1, key = "년도", value ="사망자수")

#pa를 replace 한다. 
  df1$년도<- gsub("USA","", df1$년도)
   
# 월별 데이터 묶기 
  df1 <- cbind(df1, months) %>% 
    rename(월 = months)         

# 월별로 사망자수를 색을 다르게 그리기 
df1 %>% 
  group_by(년도,월) %>% 
  ggplot(aes(월,사망자수, group = 년도,  colour = 년도))+
  geom_line()
년도별 색 다르게 데이터 표현

 이것도 위의 것과 별로 다를게 없어  같은 형태로 하였다. 


css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...