本リポジトリにて,講演スライド及びデモスクリプトを配布しています. 研究会詳細につきましては,下記Webページからご確認ください.
日時: 2025年6月13日 (金) 17:20-18:30
会場: 早稲田大学 西早稲田キャンパス
詳細: 研究会Webページ
demo2では、どのようにLlamaForSpeechLM-Instruct - Built with Llamaの事前学習モデルを行っていますか。詳細に教えていただきたいです。
ご質問ありがとうございます.demo2.pyを用いて,下記の手順で事前学習を行っています.なお,学習にはNVIDIA RTX A6000 48GB VRAM GPUを1基用いました.
sh scripts/download_clotho.sh
でClotho audio captioningデータセットをダウンロード- Whisper encoderとLlama 3.2 1Bを2層MLPのadapterで接続.事前学習およびinstruction tuningを通して,WhisperおよびLlamaのパラメータを凍結し,adapterのみ更新
- train関数を用いて,LibrispeechでのASRおよびClothoでのaudio captioningで事前学習
- generate_data関数を用いて,VITSでテキストベースのalpacaデータセットにおける入力テキストを音声合成し,音声入力のalpacaデータセットを作成
- finetune関数を用いて,作成したalpacaデータセットでcross-modal instruction tuning
pip install -r requirements.txt