정혜린 | 강태화 | 정준성 | 정인복 |
팀장 / 분석 및 모델링 | 팀원 / 분석 및 모델링 | 팀원 / 분석 및 모델링 | 팀원 / 분석 및 모델링 |
- AI stages의 서버에 연결한 vscode
- numpy == 1.23.5
- pandas == 1.5.3
- scikit-learn == 1.2.2
<소개 및 배경 설명>
-
- ML 알고리즘을 활용하여 미래의 매매가 예측을 통해 더욱 효율적인 부동산 거래환경 조성 및 의사결정 제공
-
- 부동산 시장과 실거래가의 중요성 : 실거래가는 실제 시장에서 거래된 가격을 뜻하므로, 실질적인 한국의 가계 정도 유추 가능
-
- ML 도입의 필요성 : 다차원적 요인 분석과 높은 예측 정확도를 통해 부동산 시장을 보다 체계적으로 이해할 수 있는 가능성 제공
<목표>
- 내/외부 데이터를 활용한 데이터 수집, 처리 및 분석
- 다양한 ML regression 모델 이해하고 적용
- 하이퍼파라미터 튜닝을 통한 모델 예측 score 향상
- January 02, 2025 - Start Date
- January 07, 2025 - Final submission deadline
├── README.md
├── code
| ├── trainvalid_HR.ipynb
| └── trainvalid_HR.py
├── output
| └── output_HR.csv
└── result
└── prediction_result.pdf
- Randomforest regressor
- dataset : Train_(918680,63) / Validation_(183736,63)
- 중요한 feature TOP 3 : 전용면적, 권역, 매매지수
- RMSE : 8860
2-1. lightGBM regressor (Hold out split, 리더보드에 올린 모델)
- dataset : Train_(86684,26) / Validation_(21672,63)
- 중요한 feature TOP 3 : 계약년월, 전용면적, 층
- RMSE : 13211.28
2-2. lightGBM regressor (TimeSeries split, n_splits = 5, 추가 시도했던 모델)
- dataset : Train_(86684,26) / Validation_(21672,63)
- 중요한 feature TOP 5 : 좌표X, 좌표Y, 건축년도, 계약년월, 지하철역과의 거리
- RMSE : 18937.04
- Randomforest regressor
- dataset : Train_(,50) / Validation_(,50)
- 중요한 feature TOP 3 : 계약년월, 가까운공원ID, 평수
- RMSE : 17874.81
** 최종 Selected model : - Randomforest regressor - dataset : Train_(918680,63) / Validation_(183736,63) - 중요한 feature TOP 3 : 전용면적, 권역, 매매지수 - LOCAL RMSE : 8860 - PUBLIC RMSE : 16406.0449
- Slack, Zoom, GoogleMeet