CTC greedy decodingによる推論の低遅延化について #14

euyniy · 2023-04-07T03:13:45Z

euyniy
Apr 7, 2023
Collaborator

背景：音声認識モデルを実用的に利用する上で、低遅延であることは重要です。
- Streaming ASRモデルの学習 #10 に書いてるように、現在公開した訓練済みモデルはConformer-Transformerを使用しており、transcribe.pyにはフルパワーの推論方式である(CTC, Transformer decoder, LM) + beamsearchが実装されています。
- non-autoregressiveのCTC出力にgreedy decodingをかける速度が向上することが予測されます。しかし精度もともに落ちる恐れがあります。
- それを踏まえて、今のモデルを使ってどれくらい推論を加速できるのを検証してみました。高速化について色々議論できればなと思ってこのポストを書きました。

実験：

リザルト：

	beamsize	time(s)	cer	対応する推論コード
full	20	567	18.6	speech2text(ctc_weight=0.3, beamsize=20)
full	1	157	19.1	speech2text(ctc_weight=0.3, beamsize=1)
ctc	1	58	19.4	ctc_greedy()

結論：
速度を重視する場合は、CTC Greedyを使用することで、そこそこ精度を維持しながら、大幅に処理速度を向上させることができるため有望です。さらにbeamsearchなどと組み合わせによって速度と精度を両方を保つことができるでしょう（CTCの性質など色々考えるとbeamsearchは必須かもしれないです）。
また、公開したモデルのobjectiveはctcだけではないので、訓練（もしくはfinetune）時ctcに変えると精度がもっと伸びるかもしれません。

benchmark data setなどの検証とか色々追加する予定です！
ちなみに精度だけを確認したい場合、推論クラスのパラメータをctc_weight=1, lm_weight=0, beamsize=1に変更すると手っ取り早いと思います！

fujimotos · 2023-04-12T03:12:16Z

速度を重視する場合は、CTC Greedyを使用することで、そこそこ精度を維持しながら、
大幅に処理速度を向上させることができるため有望です

CTC_Greedyの場合、もはや言語モデルを使っていないので、
モデルのアーキテクチャ自体を（SC-CTCなどの）CTCデコーダのみのモデルに
切り替えるのもアリですね。

RNN系の訓練が上手くいかない場合は、CTCで正確にデコードできるモデルを訓練して、
ストリームASRを実現するというルートも考えられそうですね。

（ただし、長い音声をバッファして処理するロジックは別途検討して実装が必要）

0 replies