ML_team3 : 쿠다말고 자다💤 조

![]() 팀원 : Dania |
![]() 팀원 : 김채영 |
![]() 팀원 : 이강훈 |
![]() 팀원 : 이다은 |
![]() 팀원 : 조준영 |
![]() 팀원 : 최소영 |

- 코로나 19 이후 건강에 대한 관심은 높아지고 있으며, 평균 기대수명은 높아지고 있는 추세이다. 허나, 시장에 나와 있는 기대수명은 대부분 국가나 지역의 평균 수명을 기반으로 하고 있다.
- 이에 따라 우리 조는 내가 얼마나 오래 살 수 있을까?에 대한 답을 평균적인 관점이 아닌, 개인 맞춤형으로 제공하여 개인의 건강에 대한 관심 및 경각심이 부각될 수 있는 효과를 도출하고자 하였다.

- 원본 데이터셋 : Kaggle의 Life Expectancy Data
- url : https://www.kaggle.com/datasets/rachchua/life-expectancy-data

- 처음에는 히트맵 분석 시 상관계수 0.5 미만의 feature들을 제거하려고 하였으나, 이 기준을 적용해도 될지 의문점이 생겼다.

- 상관계수 0.5 미만의 feature들을 제거한 나머지 feature들로 모델을 훈련시키고 score를 출력했을 때 각각 과소적합과 과대적합이 발생하여 새로운 고려 기준을 세워야 했다.


- 상관계수 0.5 미만을 제거한 후 나머지 속성, 랜덤 포레스트의 특성 중요도, 선형회귀 가중치 특성 중요도를 고려하여 최종 feature 8개를 선정하였다.


- Alcohol_consumption을 년/리터 단위 -> 한달/병 단위로 수정하여 범주화된 데이터로 사용자에게 입력을 받는 것으로 수정

- Null값을 포함한 행 삭제

- 최종 모델 선정 : XGBoostRegressor

- 그리드 서치 -> best_parameters 출력


- 사용자로부터 나라를 입력받아 그 해의 Adult_mortality, GDP 등의 국가 정보를 모델에 넣어줌
- 사용자로부터 키, 체중을 입력받아 BMI를 계산하여 모델에 넣어줌
- 음주량을 범주화된 수치로 받아 모델의 넣어줌
- 입력값을 통해 모델로부터 산출된 기대 수명에 수면시간, 흡연 여부에 따라 후처리를 진행 => 최종 기대수명 출력

- 모델의 오버피팅을 완전히 해결하지 못함
- 데이터의 부족
- 특성 선택의 어려움
- 데이터의 한계에서 더 많은 데이터를 확보하면 좋을 것 같음
- 실제 프로그램으로 발전시키면 좋을 것 같음