오디오와 텍스트를 동시에 활용하는 모델의 한계

## 목적

- 오디오와 텍스트를 동시에 활용하는 Multimodal 모델은 오디오 입력과 텍스트 입력을 동시에 받아서 학습하는 경우가 많습니다. 사용자 입장에서 두가지를 동시에 입력하기란 불편하므로 결국 오디오 입력만 받고 이를 텍스트로 변환해야 할 것입니다.

## 상세내용

1. 음성을 텍스트로 변환하는 것은 공개된 무료 API를 활용합니다. 그리고 Multimodal 모델에 그대로 넣습니다.
2. 음성에서 텍스트로 변환하는 ASR(Automatic Speech Recognition) 모델은 그것을 최종 목적으로 학습합니다. 이를 사전 학습 모델로 활용하여 감정 분류를 위한 중간 과정에서 Transfer Learning합니다.
3. 독립된 두 모델의 결합 없이 End-to-End Spoken Language Understanding(E2E SLU)을 활용합니다.

## 참고사항

- ![A multimodal model](https://github.com/aris-ai/Audio-and-text-based-emotion-recognition/blob/3135c9bbab93887556295a50bffaf83ec70aecd3/img/Multimodal_1.png)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

오디오와 텍스트를 동시에 활용하는 모델의 한계 #6

목적

상세내용

참고사항

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

오디오와 텍스트를 동시에 활용하는 모델의 한계 #6

Description

목적

상세내용

참고사항

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions