데이터 과학

[데이터 과학] 라이브러리의 활용

Chunho 2021. 9. 6. 21:01

라이브러리는 R함수를 모아둔 소프트웨어 패키지라고도 부른다. 예를 들어, ggplot2 라이브러리는 데이터를 깔끔하고 일관성 있게 시각화하는 함수의 모음이다. 또한 gapminder 라이브러리는 1952년부터 2007년까지 5년 간격으로 여러 나라의 인구, 1인당 GDP, 기대 수명 등을 모은 갭마인더라는 데이터를 사용하는 데 필요한 함수를 제공하는 라이브러리다. 

 

dplyr과 ggplot2 라이브러리를 설치하고 사용해보자.

 

install.packages 명령어를 사용하여 라이브러리를 설치할 수 있으며

library() 명령어를 사용하여 라이브러리를 부착할 수 있다.

 

두 라이브러리를 사용하기 위해 부착하였다. 

 

tips 데이터를 사용하기 위해 csv를 사용하여 데이터를 가져와보겠다.

 

데이터를 잘 가져왔는지 확인하기 위해 summary 명령어를 사용해보자.

각 속성별 factor, 최소값, 최대값, 중간값 등을 확인해볼 수 있다.

 

 

ggplot2 라이브러리를 사용하기 위해 tips%>%ggplot(aes(size))+geom_histogram()명령어를 사용하여 tips 데이터의  size속성을 히스토그램으로 나타내보았다.

x축, y축으로 들어갈 값을 아래와 같이 지정할 수 있으며 날짜로 색이 구분되게, 성별로 모양이 구분되게끔 지정할 수 있다. 

마지막 size=3은 tips의 size속성이 3인 값들만 보겠다는 것을 의미한다.