Skip to content

UpstageAILab6/upstage-ml-regression-ml-2_pub

Repository files navigation

Review Assignment Due Date

Achievers

Team

박정은 김정범 방승언 이해울
박정은 김정범 방승언 이해울
팀장, EDA, Feature Engineering, Model Training 데이터 분할 방법, 머신러닝모델 적용방법 EDA, Feature Engineering,Model Training EDA, Feature Engineering,Model Training

0. Overview

Environment

  • 모델 학습 서버 : Upstage AI Lab 제공 환경
  • 개발 환경 : cursor
  • 개발 언어 : Python

Requirements

  • catboost==1.2.7
  • eli5==0.13.0
  • numpy==1.23.5
  • optuna==4.1.0
  • pandas==1.5.3
  • scikit-learn==1.0.2
  • scipy==1.15.0
  • seaborn==0.12.2

Overview

  • 서울시 아파트 실거래가 매매 데이터를 기반으로 아파트 가격을 예측하는 대회

Timeline

  • 2024.12.23 - Start Date
  • 2025.01.07 - Final submission deadline

2. Components

Directory

├── code/data_cleaning
├── docs
│   └── 개인 자료
├── fianl
│   └── lightGBM_highlow_targetencoding.ipynb 최종 코드
└── (과거 코드들)

3. Data descrption

Dataset overview

  • 매매 거래 기록
  • 주소, 아파트명, 층 등의 칼럼 존재

EDA

  • 결측치가 75%이상인 칼럼 다수 존재
  • 아파트명, 좌표 x, 좌표y 결측치 존재

Data Processing

  • 결측치가 75%이상인 칼럼 drop
  • 아파트명, 좌표x, 좌표y 결측치를 외부데이터에서 찾아서 보간
  • 도로명 올바른 값으로 채우기
  • 가격에 영향을 미칠 만한 파생변수 생성

4. Modeling

Model descrition

  • 아파트 실거래가 데이터의 특성에 적합하며 높은 예측 성능과 효율성을 제공하는 LightGBM 모델 선텍

Modeling Process

  • 예측 성능을 올리기 위해 데이터를 고가형/저가형으로 나눠 학습 진행

5. Result

Leader Board

  • 최종 4등

Presentation

etc

Meeting Log

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 7