![]() |
![]() |
![]() |
![]() |
![]() |
---|---|---|---|---|
김솔하 | 전종훈 | 심원형 | 김지혜 | 김용욱 |
팀장, 전체과정참여/조율 | 모델선택/모델 학습 | 전처리/모델 학습 | 모델학습/PPT작성 | 인사이트제공/PPT작성 |
- Jupyter Notebook
- Ubuntu
- VScode
- python
- numpy, pandas
- sklearn
- matplotlib, seaborn
- catboost==1.2.7
- eli5==0.13.0
- numpy==1.23.5
- optuna==4.1.0
- pandas==1.5.3
- scikit-learn==1.0.2
- scipy==1.15.0
- seaborn==0.12.2
- 서울시 아파트 실거래가 매매 데이터를 기반으로 아파트 가격을 예측하는 대회
- 2024.12.23 - Start Date
- 2025.01.07 - Final submission deadline
- 중심 아이디어 및 전처리 데이터를 토대로 각자 학습을 맡아 하였기에 정해진 공통된 구조는 딱히 없습니다.
- 매매 거래 기록
- 주소, 아파트명, 전용면적, 기타 아파트 정보 칼럼 존재
- 2000년대 자료부터 존재
- 결측치가 75%이상인 칼럼 다수 존재
- 아파트명, 좌표 x, 좌표y 결측치 존재
- 외부 Geo 데이터를 활용해 좌표 결측치 입력
- 좌표 정보로 지하철과의 거리 계산하여 역세권 여부 추가
- 외부 주담대 금리 데이터 추가
- 외부 공시지가 데이터 추가
- 중요도 낮은 항목 제거
- 전용면적 IQR 이상치 제거
- 레이블 인코딩 및 결측값 보강
여러가지 모델을 돌려보고 좋은 결과의 모델로 선택
- LASSO, ElasticNet - 선형 모델로 선정
- RandomForest - 기본 제공된 학습 코드
- XGBoost - 성능이 좋은 모델
- LightGBM - 빠르고 성능도 좋은 모델
- 6등/ 29306.6490