모형에 많이 사용 되어 지는 통계 및 인공지능은 아래와 같다. 선형 예측 보다는 Classifier 들이 더 많이 존재 한다. 실무에서는 Classifier가 거의 없다. 거의 대부분은 변화 하는 수가 아니라, 정의 되어 있는 수 (즉 Information 정보) 데이터 이다.
종속 변수에 영향을 주는 독립 변수가 대부분 1개 ~2개 정도 되기 때문에 Classifier를 사용하기가 어렵다. 변수들의 구성을 보았을때, 정보성 변수등 등급이 있는 경우가 있다. 회사내에서는 직급, 근속년수, 근무지역 별로 나누어 지는데, 어떤 것을 분석 하느냐에 따라서, 전부 달라 진다.
위의 PPT 자료는 선형 회귀 빼고는 모두 Classifier를 사용한 모형이다. 하지만, Random forest 랜덤 포레스트는 Classifier 말고 회귀 분석을 하는 경우가 있다.
Linear Regression : 종속변수 y와 한 개 이상의 독립변수 X와의 선형상관관계 모델링
Logistic Regression : 독립변수의 선형 결합을 이용하여 사건의 발생 가능성 예측
종속변수가 범주형 데이터를 대상으로 하여 분류문제로 봄
Decision Tree : 입력 변수를 바탕으로 목표변수의 값을 예측 하는 분류 모델
K-Nearest Neighbor : 입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성되어 있다.
Support Vector Machine : 기계 학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용한다.
Random forest : 분류 , 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로 훈련 과정에서 다수의 결정트리로 부터 분류 또는 평균 예측치를 출력 함으로 동작됨
분석하는 데이터 성격에 따라 다르기는 하지만, 일반적으로 데이터를 돌리면 Random forest가 제일 잘 나온다. 하지만, 컴퓨터 연산도 많이 이루어 진다.
위 부분을 사용하기 위해서는 다수의 독립변수들이 존재 하여야 한다. 하지만, 실제 데이터들은 독립 변수들이 존재 하지 않는 경우가 대부분이다. 독립 변수가 존재 하는 대표적인 것은 부동산과, 사람의 신용정보 인데, 산업 현장에서 이런 데이터가 나오기는 매우 어렵다.
하지만, 분류가 기계학습에서 머신러닝으로 발전 하게 된것은 바로, 이미지를 인식할 수 있는 딥러닝이 나오기 시작 하면서 였다. 즉 사진을 분류 할 수 있는데, 정확도가 높아 졌다는 것은 획기적인 것이다. 즉 산업 현장에서도 사용 할 수 있는 것이 많다는 것이다. 대표적인 산업군에서는 자동차 기술 등이다. 이번 강좌가 생겨난 것도 이 때문이다.