Skip to content

오디오와 텍스트를 동시에 활용하는 모델의 한계 #6

@yhkee0404

Description

@yhkee0404

목적

  • 오디오와 텍스트를 동시에 활용하는 Multimodal 모델은 오디오 입력과 텍스트 입력을 동시에 받아서 학습하는 경우가 많습니다. 사용자 입장에서 두가지를 동시에 입력하기란 불편하므로 결국 오디오 입력만 받고 이를 텍스트로 변환해야 할 것입니다.

상세내용

  1. 음성을 텍스트로 변환하는 것은 공개된 무료 API를 활용합니다. 그리고 Multimodal 모델에 그대로 넣습니다.
  2. 음성에서 텍스트로 변환하는 ASR(Automatic Speech Recognition) 모델은 그것을 최종 목적으로 학습합니다. 이를 사전 학습 모델로 활용하여 감정 분류를 위한 중간 과정에서 Transfer Learning합니다.
  3. 독립된 두 모델의 결합 없이 End-to-End Spoken Language Understanding(E2E SLU)을 활용합니다.

참고사항

  • A multimodal model

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions