Skip to content

ggororok/TAVE12_Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

83 Commits
 
 
 
 
 
 

Repository files navigation

💄 비건 화장품 추천 시스템

비건화장품

[TAVE12기 프로젝트]에서 해당 주제로 참여하였습니다.


📅 개발 기간

  • 2023-11-18 ~ 2024-01-27

📌 구현 과정

1️⃣데이터 구축: 총 15759개 데이터

  • 올리브영 사이트 웹 크롤링(제품,리뷰)
  • 제품 데이터: 제품명, 제품 브랜드, 가격, 카테고리, 총 리뷰 개수, 총 평점, 용량, 성분, 제품 이미지 (Selenium, Octoparse)
  • 리뷰 데이터: 제품명, 유저 아이디, 유저 타입, 점, 리뷰 날짜, 상세평점1-3, 리뷰 내용 (Selenium)

2️⃣ 데이터 전처리

  • 평점 4,5점(긍정리뷰만) & 리뷰 개수 50개 이상 데이터 가져오기
  • 리뷰 데이터 전처리 (특수문자, 띄어쓰기 제거)

3️⃣ 키워드 추출

  • 불용어 제거
  • TextRank와 TF-IDF 이용
  • KeyBERT를 이용
  • 각 방법을 통해 추출된 키워드를 비교하여 최종 키워드를 제품당 3~6개로 산출

4️⃣ 제품 군집화 및 라벨링

  • 최종 키워드 원핫 인코딩
  • 가져올 속성 선택 -> 제품명, 원가, 별점
  • 원가 정규화(Min-Max 스케일링)
  • KMeans 클러스터링 (elbow plot, silhouette score를 통해 군집개수 5개로 설정)
  • 각 군집마다 1의 개수 비율(원핫인코딩 처리됨)을 통해 최종 클러스터의 키워드와 테마(과일)에 따라 라벨링

5️⃣ 스모어 설문 사이트 사용하여 테스트

  • 클러스터링 별 키워드를 기준으로 설문 문항 구상 / 답변마다 가중치(0-3) 부여

💻 Technology

python  Visual Studio Code  
Selenium  Octopus Deploy  
NumPy   Pandas   scikit-learn 

About

[TAVE 12기] 비건 화장품 추천 시스템

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published