Skip to content

ryota-komatsu/slp2025

Repository files navigation

音学シンポジウム 2025 チュートリアル 「マルチモーダル大規模言語モデル入門」

License: MIT Python

本リポジトリにて,講演スライド及びデモスクリプトを配布しています. 研究会詳細につきましては,下記Webページからご確認ください.

日時: 2025年6月13日 (金) 17:20-18:30
会場: 早稲田大学 西早稲田キャンパス
詳細: 研究会Webページ

質問

demo2では、どのようにLlamaForSpeechLM-Instruct - Built with Llamaの事前学習モデルを行っていますか。詳細に教えていただきたいです。

ご質問ありがとうございます.demo2.pyを用いて,下記の手順で事前学習を行っています.なお,学習にはNVIDIA RTX A6000 48GB VRAM GPUを1基用いました.

  1. sh scripts/download_clotho.shでClotho audio captioningデータセットをダウンロード
  2. Whisper encoderとLlama 3.2 1Bを2層MLPのadapterで接続.事前学習およびinstruction tuningを通して,WhisperおよびLlamaのパラメータを凍結し,adapterのみ更新
  3. train関数を用いて,LibrispeechでのASRおよびClothoでのaudio captioningで事前学習
  4. generate_data関数を用いて,VITSでテキストベースのalpacaデータセットにおける入力テキストを音声合成し,音声入力のalpacaデータセットを作成
  5. finetune関数を用いて,作成したalpacaデータセットでcross-modal instruction tuning

Setup

pip install -r requirements.txt

Demo

Phi-4-Multimodalで音声翻訳

colab

Llama 3.2とWhisper encoderをadapterで接続してzero-shot instruction following

colab model dataset

Phonetic tokenとacoustic tokenとで再合成音声を比較

demo

About

音学シンポジウム2025チュートリアル「マルチモーダル大規模言語モデル入門」資料

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published