[TAVE12기 프로젝트]에서 해당 주제로 참여하였습니다.
사이트 링크: https://smore.im/quiz/nJe60YDNGH
- 2023-11-18 ~ 2024-01-27
1️⃣데이터 구축: 총 15759개 데이터
- 올리브영 사이트 웹 크롤링(제품,리뷰)
- 제품 데이터: 제품명, 제품 브랜드, 가격, 카테고리, 총 리뷰 개수, 총 평점, 용량, 성분, 제품 이미지 (Selenium, Octoparse)
- 리뷰 데이터: 제품명, 유저 아이디, 유저 타입, 점, 리뷰 날짜, 상세평점1-3, 리뷰 내용 (Selenium)
2️⃣ 데이터 전처리
- 평점 4,5점(긍정리뷰만) & 리뷰 개수 50개 이상 데이터 가져오기
- 리뷰 데이터 전처리 (특수문자, 띄어쓰기 제거)
3️⃣ 키워드 추출
- 불용어 제거
- TextRank와 TF-IDF 이용
- KeyBERT를 이용
- 각 방법을 통해 추출된 키워드를 비교하여 최종 키워드를 제품당 3~6개로 산출
4️⃣ 제품 군집화 및 라벨링
- 최종 키워드 원핫 인코딩
- 가져올 속성 선택 -> 제품명, 원가, 별점
- 원가 정규화(Min-Max 스케일링)
- KMeans 클러스터링 (elbow plot, silhouette score를 통해 군집개수 5개로 설정)
- 각 군집마다 1의 개수 비율(원핫인코딩 처리됨)을 통해 최종 클러스터의 키워드와 테마(과일)에 따라 라벨링
5️⃣ 스모어 설문 사이트 사용하여 테스트
- 클러스터링 별 키워드를 기준으로 설문 문항 구상 / 답변마다 가중치(0-3) 부여