Skip to content

khuda-data/5th-ML-team3-Prediction-Life-Expectancy

Repository files navigation

💻 다변량 데이터 분석을 통한 기대수명 예측(Prediction-Life-Expectancy)

ML_team3 : 쿠다말고 자다💤 조


프로젝트 소개

image

팀원 구성


팀원 : Dania


팀원 : 김채영


팀원 : 이강훈


팀원 : 이다은


팀원 : 조준영


팀원 : 최소영

(사진 안 보내줘서 침팬지가 되었습니다.)

1. 주제 선정 배경

image
  • 코로나 19 이후 건강에 대한 관심은 높아지고 있으며, 평균 기대수명은 높아지고 있는 추세이다. 허나, 시장에 나와 있는 기대수명은 대부분 국가나 지역의 평균 수명을 기반으로 하고 있다.

  • 이에 따라 우리 조는 내가 얼마나 오래 살 수 있을까?에 대한 답을 평균적인 관점이 아닌, 개인 맞춤형으로 제공하여 개인의 건강에 대한 관심 및 경각심이 부각될 수 있는 효과를 도출하고자 하였다.

2. EDA, Preprocessing


원본 데이터셋

image

히트맵, 산점도 분석 수행

image
  • 처음에는 히트맵 분석 시 상관계수 0.5 미만의 feature들을 제거하려고 하였으나, 이 기준을 적용해도 될지 의문점이 생겼다.

선형 회귀, 랜덤 포레스트 모델 적용

image
  • 상관계수 0.5 미만의 feature들을 제거한 나머지 feature들로 모델을 훈련시키고 score를 출력했을 때 각각 과소적합과 과대적합이 발생하여 새로운 고려 기준을 세워야 했다.

최종 feature 선정

image image
  • 상관계수 0.5 미만을 제거한 후 나머지 속성, 랜덤 포레스트의 특성 중요도, 선형회귀 가중치 특성 중요도를 고려하여 최종 feature 8개를 선정하였다.
image

데이터 전처리

image
  • Alcohol_consumption을 년/리터 단위 -> 한달/병 단위로 수정하여 범주화된 데이터로 사용자에게 입력을 받는 것으로 수정
image
  • Null값을 포함한 행 삭제

3. Modeling & Architecture

모델 선정

image
  • 최종 모델 선정 : XGBoostRegressor

Hyperparameter Tuning

image
  • 그리드 서치 -> best_parameters 출력

최종 모델 성능

image

기대수명 계산 Architecture

image
  • 사용자로부터 나라를 입력받아 그 해의 Adult_mortality, GDP 등의 국가 정보를 모델에 넣어줌
  • 사용자로부터 키, 체중을 입력받아 BMI를 계산하여 모델에 넣어줌
  • 음주량을 범주화된 수치로 받아 모델의 넣어줌
  • 입력값을 통해 모델로부터 산출된 기대 수명에 수면시간, 흡연 여부에 따라 후처리를 진행 => 최종 기대수명 출력

최종 프로그램

image

4. 한계 및 의의

  • 모델의 오버피팅을 완전히 해결하지 못함
  • 데이터의 부족
  • 특성 선택의 어려움
  • 데이터의 한계에서 더 많은 데이터를 확보하면 좋을 것 같음
  • 실제 프로그램으로 발전시키면 좋을 것 같음

About

다변량 데이터 분석을 통한 기대수명 예측

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •