다중회귀와 다항회귀를 혼동해서 쓰는 사람들이 많다.

다중회귀와 다항회귀는 명확히 다른 개념임을 다시 한번 말하고 싶다.

 

Simple Linear Regression, 단순선형회귀는 독립변수가 한개였다. (ex: y = wx + b)

하지만, 대부분의 문제(?)는 독립변수가 하나뿐이 아니라 여러개일 때가 많다.

 

그럴 경우, 이를 다중회귀, Multiple linear regression이라고 한다.

 

근데 왜 단순 선형회귀로 설명해 놓은 블로그, 책들이 많이 있을까?

차원을 생각하면 쉽다.

우리는 1차원(직선), 2차원(평면) 3차원(공간)까지 밖에 눈으로 확인할 수 없다.

 

단순선형회귀를 한다면, 우리가 중,고등학교시절 자주 보아왔던 2차원 x,y축을 활용할 수 있다.

 

y = w_1x_1 + w_2x_2 + ... + b 와 같이 표현 할 수 있다.

 

변수만 여러개가 되었지, 단순선형회귀에서 사용하는 cost, weight조정등은 같은 개념이다.

 

다중회귀에는 몇가지 가정이 필요하다.

  • There is a linear relationship between the dependent variables and the independent variables.
  • The independent variables are not too highly correlated with each other.
  • yi observations are selected independently and randomly from the population.
  • Residuals should be normally distributed with a mean of 0 and variance σ.

 

 

 

"Multiple regressions are based on the assumption that there is a linear relationship between both the dependent and independent variables. It also assumes no major correlation between the independent variables."


다중회귀분석은 조금 다르다.

선형적인 특성을 띄지 않는 데이터를 생각해보자.

 

다음과 같은 데이터는 아무리 직선을 잘 그어도, 이 데이터를 설명하는 직선으로는 살짝 부족한것이 보일 것이다.

 

데이터를 자세히보면, 3차식에는 뭔가 잘 맞을 것 같아 보인다.

이렇게, 데이터의 형태에 따라서 (선형으로는 안될것같을때(??))

polynomial regression을 해주면, 조금 더 높은 정확도를 얻어낼 수 있다.

하지만, 차수를 높일수록, 주어진 데이터에 overfitting이 될수 있음을 항상 염두해 두어야한다.

 

예를들어, 저 그래프를 차수를 높여서 y = wx^3으로 그리면 조금더 맞는(?)그래프를 그릴 수 있을 것 같다.

 

결국 회귀분석의 이론은 다 같다. 그러나, 변수의 형태, 개수에 따라서 그것들이 나누어 지는 것같다.

'Data Anaylsis > Machine Learning' 카테고리의 다른 글

gausian mixture  (0) 2020.04.13
릿지 라쏘 엘라스틱넷  (1) 2020.03.12
단순선형회귀(single linear regression)  (0) 2020.03.05
s  (0) 2020.02.27
데이터분석 기본개념  (0) 2020.02.12

+ Recent posts