모델링이란 세계에서 일어나는 현상을 수학식으로 표현하는 행위이다.
모델링을 통해 모델을 알아내고 이것을 바탕으로 새로운 현상을 예측할 수 있다.
x와 y가 있을 때 y는 x와의 관계가 형성된다.
이 때 x를 설명변수라 하고, y를 반응변수 또는 그라운드 트루스라 부른다.
또한 이 x,y의 쌍으로 모여있는 묶음들을 훈련 집합 이라 부른다.
위와 같이 x,y데이터를 vector로 넣어준 뒤 lm을 사용해 선형 회기를 구할 수 있다.
Intercept(1.75)는 y절편이며, x(0.40)는 x의 계수이다.
coef()명령어를 통해 이를 다시 확인할 수 있다.
fitted()는 훈련 집합에 있는 샘플에 대한 예측값을 나타낸다.
또한 residuals()를 사용하여 잔차를 구할 수 있으며, deviance()를 length()로 나누어 평균 제곱 오차(MSE)를 구해줄 수 있다.
plot(x,y)를 하여 x,y,를 플로팅주면 아래와 같은 plots가 나오개 된다.
이 때, abline(m,col='red')를 사용해 x,y의 모델을 확인할 수 있다.
'데이터 과학' 카테고리의 다른 글
[데이터 과학] R 알아두면 편리한 함수들 (0) | 2021.09.28 |
---|---|
[데이터 과학] 라이브러리의 활용 (0) | 2021.09.06 |
[데이터 과학] R/R Studio 설치 및 기본 환경 설정 (0) | 2021.09.06 |