박정은 | 김정범 | 방승언 | 이해울 |
팀장, EDA, Feature Engineering, Model Training | 데이터 분할 방법, 머신러닝모델 적용방법 | EDA, Feature Engineering,Model Training | EDA, Feature Engineering,Model Training |
- 모델 학습 서버 : Upstage AI Lab 제공 환경
- 개발 환경 : cursor
- 개발 언어 : Python
- catboost==1.2.7
- eli5==0.13.0
- numpy==1.23.5
- optuna==4.1.0
- pandas==1.5.3
- scikit-learn==1.0.2
- scipy==1.15.0
- seaborn==0.12.2
- 서울시 아파트 실거래가 매매 데이터를 기반으로 아파트 가격을 예측하는 대회
- 2024.12.23 - Start Date
- 2025.01.07 - Final submission deadline
├── code/data_cleaning
├── docs
│ └── 개인 자료
├── fianl
│ └── lightGBM_highlow_targetencoding.ipynb 최종 코드
└── (과거 코드들)
- 매매 거래 기록
- 주소, 아파트명, 층 등의 칼럼 존재
- 결측치가 75%이상인 칼럼 다수 존재
- 아파트명, 좌표 x, 좌표y 결측치 존재
- 결측치가 75%이상인 칼럼 drop
- 아파트명, 좌표x, 좌표y 결측치를 외부데이터에서 찾아서 보간
- 도로명 올바른 값으로 채우기
- 가격에 영향을 미칠 만한 파생변수 생성
- 아파트 실거래가 데이터의 특성에 적합하며 높은 예측 성능과 효율성을 제공하는 LightGBM 모델 선텍
- 예측 성능을 올리기 위해 데이터를 고가형/저가형으로 나눠 학습 진행
- 최종 4등