데이터 과학 4

[데이터 과학] 데이터 모델링과 선형 회기

모델링이란 세계에서 일어나는 현상을 수학식으로 표현하는 행위이다. 모델링을 통해 모델을 알아내고 이것을 바탕으로 새로운 현상을 예측할 수 있다. x와 y가 있을 때 y는 x와의 관계가 형성된다. 이 때 x를 설명변수라 하고, y를 반응변수 또는 그라운드 트루스라 부른다. 또한 이 x,y의 쌍으로 모여있는 묶음들을 훈련 집합 이라 부른다. 위와 같이 x,y데이터를 vector로 넣어준 뒤 lm을 사용해 선형 회기를 구할 수 있다. Intercept(1.75)는 y절편이며, x(0.40)는 x의 계수이다. coef()명령어를 통해 이를 다시 확인할 수 있다. fitted()는 훈련 집합에 있는 샘플에 대한 예측값을 나타낸다. 또한 residuals()를 사용하여 잔차를 구할 수 있으며, deviance()를..

데이터 과학 2021.10.26

[데이터 과학] R 알아두면 편리한 함수들

data() 데이터셋을 모두 출력한다. str() 데이터셋의 구조를 확인한다. plot() 데이터를 시각화한다. getwd() 현재 작업 디렉토리를 출력한다. setwd() 현재 작업 디렉토리를 세팅한다. head() 데이터셋의 앞부분만 출력한다. tail() 데이터셋의 뒷부분만 출력한다. library() 라이브러리를 장착한다. c() 배열을 생성한다. data.frame() 데이터 프레임을 생성한다. list() 연결 리스트를 생성한다. max() 최대값을 구한다. mean() 평균값을 구한다. min() 최소값을 구한다. colnames() 열의 이름들을 출력한다. rownames() 행의 이름들을 출력한다. nrow() 행의 개수를 출력한다. ncol() 열의 개수를 출력한다. rowSums() ..

데이터 과학 2021.09.28

[데이터 과학] 라이브러리의 활용

라이브러리는 R함수를 모아둔 소프트웨어 패키지라고도 부른다. 예를 들어, ggplot2 라이브러리는 데이터를 깔끔하고 일관성 있게 시각화하는 함수의 모음이다. 또한 gapminder 라이브러리는 1952년부터 2007년까지 5년 간격으로 여러 나라의 인구, 1인당 GDP, 기대 수명 등을 모은 갭마인더라는 데이터를 사용하는 데 필요한 함수를 제공하는 라이브러리다. dplyr과 ggplot2 라이브러리를 설치하고 사용해보자. install.packages 명령어를 사용하여 라이브러리를 설치할 수 있으며 library() 명령어를 사용하여 라이브러리를 부착할 수 있다. 두 라이브러리를 사용하기 위해 부착하였다. tips 데이터를 사용하기 위해 csv를 사용하여 데이터를 가져와보겠다. 데이터를 잘 가져왔는지 ..

데이터 과학 2021.09.06

[데이터 과학] R/R Studio 설치 및 기본 환경 설정

먼저 R을 사용하여 데이터 분석을 하기 위해서는 먼저 R을 다운로드 해주어야 하며, 조금 더 편리하게 작업하기 위해 R Studio를 설치해준다. R은 https://cran.r-project.org/ 에서 설치할 수 있다. 개인의 운영체제에 맞게 설치해주면 된다. 다음으로 R Studio를 설치해 주어야 한다. R Studio는 https://www.rstudio.com/products/rstudio/download/ 에서 설치할 수 있으며 마찬가지로 개인의 운영체제에 맞게 설치해주면 된다. 설치를 한 후 R Studio를 실행하고 Tool -> Global options에서 테마와 레이아웃을 변경할 수 있다. 편한 방식대로 설정 해주면 된다. R Studio가 잘 동작하는지 확인하기 위해 기본적인 몇..

데이터 과학 2021.09.06