데이터 과학

[데이터 과학] 데이터 모델링과 선형 회기

Chunho 2021. 10. 26. 11:59

모델링이란 세계에서 일어나는 현상을 수학식으로 표현하는 행위이다. 

모델링을 통해 모델을 알아내고 이것을 바탕으로 새로운 현상을 예측할 수 있다. 

 

x와 y가 있을 때 y는 x와의 관계가 형성된다. 

이 때 x를 설명변수라 하고, y를 반응변수 또는 그라운드 트루스라 부른다. 

 

또한 이 x,y의 쌍으로 모여있는 묶음들을 훈련 집합 이라 부른다. 

위와 같이 x,y데이터를 vector로 넣어준 뒤 lm을 사용해 선형 회기를 구할 수 있다.

Intercept(1.75)는 y절편이며, x(0.40)는 x의 계수이다. 

coef()명령어를 통해 이를 다시 확인할 수 있다.

 

fitted()는 훈련 집합에 있는 샘플에 대한 예측값을 나타낸다.

또한 residuals()를 사용하여 잔차를 구할 수 있으며, deviance()를 length()로 나누어 평균 제곱 오차(MSE)를 구해줄 수 있다.

plot(x,y)를 하여 x,y,를 플로팅주면 아래와 같은 plots가 나오개 된다.

이 때, abline(m,col='red')를 사용해 x,y의 모델을 확인할 수 있다.