Skip to content

UpstageAILab6/upstage-ml-regression-ml-4_pub

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

Review Assignment Due Date

ML 경진대회 | House Price Prediction

Team Ravenclaw

정혜린 강태화 정준성 정인복
정혜린 강태화 정준성 정인복
팀장 / 분석 및 모델링 팀원 / 분석 및 모델링 팀원 / 분석 및 모델링 팀원 / 분석 및 모델링

0. Overview

Environment

  • AI stages의 서버에 연결한 vscode

Requirements

  • numpy == 1.23.5
  • pandas == 1.5.3
  • scikit-learn == 1.2.2

1. Competiton Info

Overview

<소개 및 배경 설명>

    1. ML 알고리즘을 활용하여 미래의 매매가 예측을 통해 더욱 효율적인 부동산 거래환경 조성 및 의사결정 제공
    1. 부동산 시장과 실거래가의 중요성 : 실거래가는 실제 시장에서 거래된 가격을 뜻하므로, 실질적인 한국의 가계 정도 유추 가능
    1. ML 도입의 필요성 : 다차원적 요인 분석과 높은 예측 정확도를 통해 부동산 시장을 보다 체계적으로 이해할 수 있는 가능성 제공

<목표>

  • 내/외부 데이터를 활용한 데이터 수집, 처리 및 분석
  • 다양한 ML regression 모델 이해하고 적용
  • 하이퍼파라미터 튜닝을 통한 모델 예측 score 향상

Timeline

  • January 02, 2025 - Start Date
  • January 07, 2025 - Final submission deadline

2. Components

Directory

├── README.md
├── code
|   ├── trainvalid_HR.ipynb
|   └── trainvalid_HR.py
├── output
|   └── output_HR.csv
└── result
    └── prediction_result.pdf 

3. Data descrption

Dataset overview

-image

EDA

  • image
  • image

Data Processing

  • target의 log transformation시도
  • 전용면적 변수에 대한 전처리 수행
  • image

4. Modeling

Model descrition

Model(1)_정준성님

  1. Randomforest regressor
  • dataset : Train_(918680,63) / Validation_(183736,63)
  • 중요한 feature TOP 3 : 전용면적, 권역, 매매지수
  • RMSE : 8860

Model(2)_정혜린님

2-1. lightGBM regressor (Hold out split, 리더보드에 올린 모델)

  • dataset : Train_(86684,26) / Validation_(21672,63)
  • 중요한 feature TOP 3 : 계약년월, 전용면적, 층
  • RMSE : 13211.28

2-2. lightGBM regressor (TimeSeries split, n_splits = 5, 추가 시도했던 모델)

  • dataset : Train_(86684,26) / Validation_(21672,63)
  • 중요한 feature TOP 5 : 좌표X, 좌표Y, 건축년도, 계약년월, 지하철역과의 거리
  • RMSE : 18937.04

Model(3)_강태화님

  1. Randomforest regressor
  • dataset : Train_(,50) / Validation_(,50)
  • 중요한 feature TOP 3 : 계약년월, 가까운공원ID, 평수
  • RMSE : 17874.81

Modeling Process

  • image
  • image
  • image

5. Result

Leader Board

  • image ** 최종 Selected model : - Randomforest regressor - dataset : Train_(918680,63) / Validation_(183736,63) - 중요한 feature TOP 3 : 전용면적, 권역, 매매지수 - LOCAL RMSE : 8860 - PUBLIC RMSE : 16406.0449

Presentation

etc

Meeting Log

  • Slack, Zoom, GoogleMeet

Reference

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •