forked from TrellixVulnTeam/AI_WEB_AICARE_AIM_2021_AYYW
-
Notifications
You must be signed in to change notification settings - Fork 1
Open
Description
목적
- 오디오와 텍스트를 동시에 활용하는 Multimodal 모델은 오디오 입력과 텍스트 입력을 동시에 받아서 학습하는 경우가 많습니다. 사용자 입장에서 두가지를 동시에 입력하기란 불편하므로 결국 오디오 입력만 받고 이를 텍스트로 변환해야 할 것입니다.
상세내용
- 음성을 텍스트로 변환하는 것은 공개된 무료 API를 활용합니다. 그리고 Multimodal 모델에 그대로 넣습니다.
- 음성에서 텍스트로 변환하는 ASR(Automatic Speech Recognition) 모델은 그것을 최종 목적으로 학습합니다. 이를 사전 학습 모델로 활용하여 감정 분류를 위한 중간 과정에서 Transfer Learning합니다.
- 독립된 두 모델의 결합 없이 End-to-End Spoken Language Understanding(E2E SLU)을 활용합니다.
참고사항
Metadata
Metadata
Assignees
Labels
No labels