Prompting Large Language Models with Speech Recognition Abilities
https://arxiv.org/abs/2307.11795Prompting Large Language Models with Speech Recognition Abilities
LLMに音声エンコーダを組み込むことで、音声認識能力を持たせる
先行研究は別のモデルを組み合わせて音声認識をしていた
音声エンコーダーは、音声信号から音声埋め込みを生成し、テキスト埋め込みと同じ空間に投影
音声埋め込みはテキスト埋め込みの前に付加され、LLMに入力される
#Meta
#ケンブリッジ大学