Replies: 3 comments
-
|
참고하겠습니다 |
Beta Was this translation helpful? Give feedback.
0 replies
-
|
넵 저도 참고하겠습니다 |
Beta Was this translation helpful? Give feedback.
0 replies
-
|
teacher forcing ratio를 0.8로 늘리니 train loss는 빠르게 떨어지는데, valid loss는 반대로 더 느리게 떨어지네요. 참고하세요~ |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
저희가 지금 사용하고 있는 teacher forcing ratio는 0.5입니다.
하지만 1 epoch당 시간이 매우 오래걸리는 현재 저희의 task 같은경우에는 빠른 수렴이 필요하다고 생각합니다.
알려져있는 teacher forcing의 장점은 정답을 넣어줌으로서 모델의 학습속도를 증가시킨다는 점 입니다.
단점은 inference시에는 teacher forcing을 사용할 수 없기 때문에 학습과정과 추론과정사이의 차이가 존재하여 모델의 generaliation, 안정성, 성능을 떨어뜨릴수 있다는 점입니다. 이러한 점을 노출편향이라 합니다.
하지만 https://arxiv.org/abs/1905.10617 이 논문을 보면 노출편향의 영향이 생각보다 크지 않다는 점을 이야기하고 있습니다.
따라서 초기 학습시에는 높은 teacher forcing ratio를 사용하여 model의 수렴속도를 향상시킨뒤, epoch 마다 이 수치를 감소시켜주어 노출편향의 영향도 줄여줄수있는 teacher forcing ratio scheduling을 구현해서 사용해 보았다.
Beta Was this translation helpful? Give feedback.
All reactions