Skip to content

[2022 HSU Capstone] 기부 통합 플랫폼 MaMoMo의 데이터를 수집•가공 하는 페이지 입니다.

Notifications You must be signed in to change notification settings

2E2I/mamomo-data-management

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

63 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

음을 아, MaMoMo

💗💗💗💗💗
HSU 2022 Capstone Project
따뜻한 세상을 위한 통합 기부 플랫폼

data-management

마모모의 데이터를 수집 및 조작합니다.

마모모 프로젝트의 전체적인 구조 및 동작 방법에 대한 설명은 Frontend, Backend 레포지토리의 리드미를 참고해 주세요! ☺️

💾 디렉토리 구조

📦donation-crawler
 ┣ 📂crawler
 ┃ ┣ 📜campaign.py
 ┃ ┣ 📜cherry.py
 ┃ ┣ 📜chromeDriver.py
 ┃ ┣ 📜happybean.py
 ┃ ┣ 📜kakao.py
 ┃ ┗ 📜thedirectdonation.py
 ┣ 📂data
 ┃ ┣ 📜cherry.json
 ┃ ┣ 📜happybean.json
 ┃ ┣ 📜kakao.json
 ┃ ┗ 📜thedirectdonation.json
 ┣ 📂elasticSearch
 ┃ ┗ 📜elasticSearch_crud.py
 ┣ 📜app.py
 ┣ 📜extract.py
 ┗ 📜stopwords.txt

📂crawler

기부 사이트 데이터를 크롤링합니다.

📂data

크롤링 한 데이터를 json파일로 저장한 결과물들 입니다.

📂elasticSearch

Elasticsearch에 insert 및 update 작업을 수행합니다.

📍 텍스트마이닝

📜app.py

Spring서버의 텍스트마이닝 요청을 받는 Flask서버를 운영합니다.

📜extract.py

Spring쪽에서 요청받은 텍스트를

  • KoNLpy로 형태소 단위로 분해하고
  • 📜stopwords.txt 목록을 이용해 불용어를 제거합니다.
  • scikit-learn으로 빈도수를 분석해 주요 단어를 추출합니다.
  • {"단어": 추출값} 리스트를 Spring에 보냅니다.

🗺️ 구조도

크롤링 & ES 삽입

기부글 크롤링

텍스트 마이닝

텍스트 마이닝

About

[2022 HSU Capstone] 기부 통합 플랫폼 MaMoMo의 데이터를 수집•가공 하는 페이지 입니다.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages