Skip to content

tosmile78/app_store_reviews_analysis

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Exploring App Store Reiview 분석

Explore App Store Review 링크: 링크

Gensim Clustering & Classification 링크: 링크

Slider Share 링크: 링크

개인 프로젝트

기간: 2017.10.16 - 2017.11.27 (6주)

목적

App Store 에는 수많은 사람들이 앱에 관련해 리뷰를 달고 해당 앱에대해 평점을 매기고 있다. 많은 개발자들도 종종 리뷰를 보면서 향후 이용자와 소통을 하고 향후 앱 개발의 방향성을 탐색하고 고민하게 된다. 평소에 앱 스토어를 이용하면서 리뷰들이 정확하게 이 앱을 평가하고 있는지 혹은 앱들의 리뷰로 어떤 앱을 별점을 예측 할 수 있을 지 궁금해졌다. 그래서 이 프로젝트를 시작했다.

목차

Part 1. 데이터 획득

Part 2. 데이터 정제

  • 띄어쓰기 문제
  • 오타 및 축약어

Part 3. 데이터 분석

  • A. 키워드분석: 문서 전체의 키워드 / 앱별로 키워드 추출
  • B. 문서 군집화: 리뷰를 통한 클러스터링
  • C. 문서 분류: Navie Bayesian을 통한 평점 분류

Part 4. 결론 및 향후과제

결론

앱 리뷰의 주요 키워드 추출, 클러스터링과 평점을 통한 분류를 시도해 보았다. 이를 통해 얻은 결론은 아래와 같다.

  1. 앱 스토어 리뷰 데이터를 사용하려면 전처리에서 꽤 많은 처리가 필요하며, 띄어쓰기, 형태소 분석과 단어 후처리에 많은 시간을 쏟아야 한다.
  2. 주요 키워드 추출로 앱의 내용을 설명 할 수 있다는 점을 발견 했다. 그러나 가끔 "구매내역 삭제 부탁" 관련 글들이 등장하는 경향을 보였다.
  3. 문서 클러스터링의 경우 리뷰로 카테고리를 클러스터링 혹은 분류하는 문제를 풀 수 없다. 이는 각 리뷰마다 앱의 기능이 담긴 내용은 적으며 주로 앱에 대한 평가의 단어가 많기 때문이다. 그중에서도 게임, 사진 및 비디오 카테고리는 리뷰에서의 관련 단어가 많이 나온 편이라 특징이 잘 나타나서 분류가 잘 되는 편이다. 이중에서 흥미로운 것은 "구매내역 삭제 부탁" 리뷰가 존재하는 앱들도 한 곳으로 클러스터링 됐다는 것이다. 이를 이용해 "구매내역 삭제 부탁" 앱들을 체크해 볼 수가 있다.
  4. 나이브 베이지안 모델의 정확도는 약 62.97%이며 1점과 5점의 리뷰를 잘 예측하는 편이다. 성능이 62%정도 나온 이유는 첫째로, 사람들이 리뷰를 쓸때 주로 1점과 5점을 주는 편이여서 데이터에 불균형이 있다. 둘째로 "사용자가 평가한 앱에 대한 평점이 리뷰와 정의 상관관계가 있다"라는 것은 부분적으로 맞지만, 완전이 선형적인 관계는 아니다. 1점과 5점의 리뷰에서 각각의 특징적인 단어들도 나타 났지만, 공통적인 단어들도 많이 있기에 분류 성능이 떨어진다.

향후과제

  1. 띄어쓰기 모델 발전 시키기
  2. 딥러닝을 활용한 문서 분류
  3. (장기)카테고리와 키워드를 설정하면 앱스토어 리뷰를 쓰는 챗봇을 만들자! (seq2seq)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 95.6%
  • Python 4.4%