In-Context Learning with Long-Context Models: An In-Depth Exploration
会議、発表者のタグ
Motivation 選んだ理由
分析がしっかりしていて知見としておもしろい上、知見は活かしやすい
Summary どんなもの?
最近のLLMはコンテキスト長が非常に長く、訓練データ全体を含めることもできるようになってきている。
インコンテキスト学習(ICL)にデモを大量に追加した場合にどうなるかを検証
その結果、多くのラベル空間が大きなデータセットで、数百から数千のデモ事例を与えると性能が向上し続けることが示された。
ファインチューニングと比較
ほとんどのデータセットではFTがICLを上回ることはない
大量のデータがある場合、FTが上回る
大量の事例を使ったICLは非常に効果的であるが、性能向上の理由はタスクを学習しているというよりも類似の例を参照することによるもの
Contribution 先行研究と比べてどこがすごい?
ICL の性能は 2,000事例以上のデモを追加しても向上しつづけることを明らかにした
デモ事例を増やすほど性能が向上する(ランダムに選択した事例)
https://gyazo.com/7df3e1a1690f7c1fc47b6965e0a6ab25
検索された事例を使う場合
https://gyazo.com/c15e3219847e8aa88ab11d6298ef62d1
デモ事例数を極端に増やすとICLの振る舞いが変わることを示した
デモの順序に敏感でなくなり、検索との差が小さくなる
一方で、ラベルごとにデモ事例をグルーピングすると性能が下がる(上がらなくなる)。
事例の追加により、分類モデルでいう決定境界が賢くなるわけではなく、関連性の高い例が追加されるため性能が向上することがわかった。
Experiments どうやって有効だと検証した?
実験設定
データセット・タスク
TREC (質問タイプ分類) 6ラベル
訓練データサイズ 5,452
TREC-fine (質問タイプ分類) 50 ラベル
訓練データサイズ 5,452
NLU (発話意図の分類) 68 ラベル
訓練データサイズ 19,286
Banking-77 (金融ドメインの発話意図分類) 77ラベル
訓練データサイズ 10,003
Clinic-150 (複数ドメインの発話意図分類) 151ラベル
訓練データサイズ 15,250
特に医療限定というわけではないらしい
https://gyazo.com/b16d66eab2013f621cc505d08c35a847
モデル
Llama-2-7b の3つのバリエーション+Mistral-7bで検証。non-instruct モデルを利用、予備実験ではinstruct モデルも傾向は同様であった
Llama2
Llama2-32k
Llama2-80k
Mistral-7B-Instruct-v0.2
コンテクスト長は 32k
評価方法
各データセットのテスト用セットから250件づつ評価
ICLでは各ラベルの出力確率を比較、FTでは分類レイヤの出力を見ている
比較する手法
Randomly selected
10回ランダムに選んだ事例でICLした結果の平均
Retrieval
BM25 で検索、関連性順にk事例を選ぶ
事例が不足している場合はランダムに選択
Fine-tuning
Llama2 に分類レイヤを追加し、LoRAを使って学習
分類レイヤの初期化に、各ラベルの先頭トークンを利用している
ICL の性能比較
https://gyazo.com/8dcd138d860867ce1b84a4899dee2d4f
図でプロットされているのは Llama2-80k のモデル
ICL事例数とFTの比較
事例数に関する比較
ほとんどのデータセットで検索>ランダムだが、事例数が大きくなると差は小さくなる
事例のシャッフルは有意に性能を変化させず、影響はデモ事例数が多くなるに従って小さくなる
ラベルによって事例を並べ替えると、事例が多い場合にのみ悪影響
異なるラベルのコンテクストが重要で、かつ互いに比較的近くにある必要がある(らしい)
https://gyazo.com/1522a3a657fb052ca63232f2c934c3b4
過剰に事例を与えても、性能が著しく下がることはない
FTとの比較
事例数が少ない場合、ICLの方が上手くいく
ICLと同等の性能を出すためにより多くのデータが必要になる場合がある
(※ 分類レイヤを追加しているせいもありそう)
当然ながら推論コストはFTの方が圧倒的に低い
Clinic-150 データでの比較
https://gyazo.com/eca63dfaa1d4df2f7ad3bf35a8504471
TREC fine での比較
https://gyazo.com/7e6bc17e78ca5badb752f3ed5f0d8ba4
ブロックワイズアテンションをつかった比較
複数事例を 1ブロックとして、ブロック間のアテンションを制限
下図のみかた
● がブロックワイズアテンション、横軸はブロックのサイズ
✕ が通常アテンション、横軸は事例数
ブロックサイズが5以下の場合、同じ数の事例を与えるよりも結果が悪い
20〜75事例で、ブロックワイズと通常アテンションがほぼ同等(95%)にもどる
5から100事例の間のブロックワイズ>通常の逆転にはあまり大きな意味はない
Banking-77
https://gyazo.com/06fd9cbc2884e7a22684b1f2b84ed831
Clinic-150
https://gyazo.com/f988633fecb7fb18479a00e6c4d34401
Discussion 議論はある?
デモ間のクロスアテンションではなく、回答時の長距離アテンションが性能への関係が大きいことを示した
"We have also shown that long-context ICL’s effectiveness is largely due to retrieval from the long context during prediction, rather than cross-attention within the large demonstration set during encoding."
ちょっと本文とニュアンスが違う気がする。ブロックワイズアテンションにしてクロスアテンションの効果を調べた結果、個別の事例の数だけあってもダメで、事例間のアテンションがある程度効いていないと効果が無いという結果がでている。
ICLについての理解はかなり不足している
ICLの特性がスケールで変化することが示されたので、より大きなスケールでの研究が必要