[실험] Feature Engineering 여러개 추가가 가능하게 만들기 #36

JAEWOOSUN · 2021-05-30T13:22:47Z

JAEWOOSUN
May 30, 2021
Maintainer

Feature Engineering 여러개 가능

Description: Features를 추가했을 때 여러개를 사용해도 DataLoader에서 자동으로 바꿔주기
시작일: 2021년 5월 26일
실험자: 재우 선
제안자: 재우 선
진행상황: 진행중
카테고리: Baseline Analysis

문제 정의

feature engineering에서 feature를 추가했을 때, dataset, process_batch, model의 크기를 변경해야하는 불편함 해소

해결 아이디어

args에서 미리 정의해놓으면 모든 .py에서 사용이 가능
변수명을 갖는 것이 아닌 List 형태로 데이터를 주고 받기
Model에서는 ModuleList를 사용 (추가)

진행 상황

1. dataloader.py → `__feature_engineering` 함수

args.USERID_COLUMN은 user_id를 위한 column (수정 X)
args.ANSWER_COLUMN은 user가 맞춘 column (수정 X)
args.USE_COLUMN은 사용할 column을 정의 → 순서도 그대로 들어가기 때문에 중요
args.EXCLUDE_COLUMN은 column 목록에는 있지만 사용하지 않을 column
이후, 아래에는 feature들을 정의함

2. dataloader.py → `load_data_from_file` 함수

.npy를 읽어와서 args.n_embedding_layers에 넣어놓음
전에는 args.변수명 에 넣어서 저장했지만 list형태로 한번에 관리 (순서 중요)
이후 df_apply_function함수를 호출

args.USE_COLUMN과 args.ANSWER_COLUMN의 value들을 tuple형태로 만들어서 group 변수에 넣어줌

3. dataloader.py → `DKTDataset` Class → `getitem` 함수

굳이 하나씩 row에서 빼서 변수명을 넣어줄 필요없이 모든 row의 값을 cate_cols에 넣어서 사용 (USE_COLUMN의 값들이기 때문에)

4. trainer.py → `process_batch` 함수

input으로 들어가기 앞서 batch 값들의 전처리를 해주는 부분
원래는 batch에서 변수들을 각각 꺼내서 정의해줌
하지만 각각의 변수 대신 features라는 list에서 한번에 값들을 처리
여기서 correct, mask, interatction, gather_index는 feature와 상관없이 가지고 가는 값들로 features 마지막에 넣어줌

5. train.py → `train` 함수

process_batch 함수 통과 후 input을 받아옴
여기서 주의할 점은 targets 변수는 input[-4] 를 가지고 와야함 (correct 번호가 -4번으로 바뀜)

6. model.py → `LSTM` class → `init` 함수

여러 features들의 embedding을 __init__ 함수에 추가
comb_proj 을 통과할 때는 총 n+1개 ( feature수 + interaction)을 통과하므로 self.args.n_embedding_layers+1로 변경
(추가) 여기서 중요한 점은 self.embedding_features 변수를 일반 List가 아닌 nn.ModuleList() 로 주는 것이 중요
→ 그래야 pytorch가 module로 인식해서 device에 올림
→ 사용하지 않게되면 embedding을 새로 불러오게되서 성능이 나오지 않음

7. model.py → `LSTM` class → `forward` 함수

embedding을 실행함
이때, nn.moduleList() 로 선언했던 self.embedding_features를 불러와서 사용
concat을 실행할 떄 interaction과 feature들을 추가해줌

8. LSTM-ATTN, BERT

마찬가지로 features를 추가해서 사용

결과

다양한 feature들을 self.args.USE_COLUMN에 넣어서 사용
추가적인 dataloader나 model을 변경하지 않아도 잘 돌아감

(추가) nn.ModuleList를 사용했을 때 성능이 잘 나옴

평가

feature_engineering을 더욱 쉽게 추가하고 삭제가 가능함
모델에서 List를 주의하자!!!
대신 nn.moduleList나 nn.sequential를 사용하면 모델의 layer들을 자동화시킬 수 있음

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[실험] Feature Engineering 여러개 추가가 가능하게 만들기 #36

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

[실험] Feature Engineering 여러개 추가가 가능하게 만들기 #36

Uh oh!

JAEWOOSUN May 30, 2021 Maintainer

Feature Engineering 여러개 가능

문제 정의

해결 아이디어

진행 상황

1. dataloader.py → __feature_engineering 함수

2. dataloader.py → load_data_from_file 함수

3. dataloader.py → DKTDataset Class → __getitem__ 함수

4. trainer.py → process_batch 함수

5. train.py → train 함수

6. model.py → LSTM class → __init__ 함수

7. model.py → LSTM class → forward 함수

8. LSTM-ATTN, BERT

결과

평가

Replies: 0 comments

JAEWOOSUN
May 30, 2021
Maintainer

1. dataloader.py → `__feature_engineering` 함수

2. dataloader.py → `load_data_from_file` 함수

3. dataloader.py → `DKTDataset` Class → `getitem` 함수

4. trainer.py → `process_batch` 함수

5. train.py → `train` 함수

6. model.py → `LSTM` class → `init` 함수

7. model.py → `LSTM` class → `forward` 함수