Prompting Large Language Models with Speech Recognition Abilities
https://arxiv.org/abs/2307.11795
Prompting Large Language Models with Speech Recognition Abilities
LLMに
音声エンコーダ
を組み込むことで、
音声認識能力
を持たせる
先行研究は別のモデルを組み合わせて音声認識をしていた
音声エンコーダーは、音声信号から
音声埋め込み
を生成し、テキスト埋め込みと同じ空間に投影
音声埋め込みはテキスト埋め込みの前に付加され、LLMに入力される
#Meta
#ケンブリッジ大学