Prompting Large Language Models with Speech Recognition Abilities

https://arxiv.org/abs/2307.11795Prompting Large Language Models with Speech Recognition Abilities

LLMに音声エンコーダを組み込むことで、音声認識能力を持たせる

先行研究は別のモデルを組み合わせて音声認識をしていた

音声エンコーダーは、音声信号から音声埋め込みを生成し、テキスト埋め込みと同じ空間に投影

音声埋め込みはテキスト埋め込みの前に付加され、LLMに入力される