[Day05-5/28] 피어세션 #49
dkswndms4782
started this conversation in
Peer Session
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
elapsed가 일정 시간을 넘을 때 평균으로 값을 대치하는 방법
일정시간: 250 (이유: train data에서 250 넘는 수가 5%미만)
첫번째 문제들의 정답률이 높기 때문에 3초, 250을 넘는 경우 251 주고 테스트했지만 오히려 평균으로 넣었을 때 가장 점수가 높게 나왔다.
elapsed에 어떤 경우에 평균값을 넣어주는지.
- testId가 넘어갈 때 0으로 넣어줬었는데 기존에 풀이 시간이 0인 경우가 있었다. 따라서 testId가 넘어갈 때 평균으로 대체
- 평균은 사용자의 전체 문제에 대한 평균으로 넣었다.
- train/test에서 각각 평균을 구해 넣어줬을 때가 가장 점수가 높고, train/test를 합쳐 평균을 구했을 때 점수가 오히려 낮았다.
- 넘어가는 구간, 250 넘는 경우 전체 train data의 평균 시간을 사용
- 사용자별 다른 평균 시간을 사용하는 방법도 도전해볼만 하다.
대분류별 정답률이 다르다. 숫자가 오를 때 정답률이 낮아진다.
대분류+중분류의 경우 정답률이 일정하게 증가 또는 감소하지 않는다. 오히려 모델이 학습할 때 방해가 될 수 있다고 생각한다.
태그 개수 별 사용자가 푼 문제의 수가 1이면 정보가 의미가 없을 수 있따.
사용자 별 동일한 태그를 몇 문제를 풀었는지 정보를 추가하는 것은 의미가 있다고 생각.
- 어떤 태그는 1번 풀었고, 어떤 태그는 1000번 풀었다면 값의 차이가 너무 커지므로 정규화? 할 필요가 있다 생각. (Scaler, Sigmoid)
사용자별 max_seq_len 개수로 데이터를 나눠서 BERT를 학습시키면 성능이 향상되지 않을까
- 성능 향상을 확인하면 test 데이터도 증강에 사용이 가능해보인다.
Feature 개수에 따라 하드 코딩할 필요 없도록 코드 수정
Loss를 수정하여 0에 더 weight을 주는 방법 ⇒ 잘 되지 않아 창우님도 같이 시도하기로 결정
사용자별 max_seq_len 개수를 나누는 다른 방법 시도 (load_data_from_file 함수에서 group을 나눠서 새로운 데이터프레임에 추가하는 방법)
BERT에 //3이 없는 이유
⇒ hidden 각각 embedding 후 comb_proj 없이 그대로 concat을 시도
Beta Was this translation helpful? Give feedback.
All reactions