FLenQA
https://scrapbox.io/files/6622209dfbf5610027acbf06.png
QAの推論フレームワーク。
Flexible Length Question Answering
異なる長さ、タイプ、位置のパディングで拡張された、同じサンプルの複数のバージョンを使用して、入力の長さの影響を分離するもの。
FLenQAは3つの推論タスクで構成されている。Monotone Relations(新しいタスク)、People In Rooms(新しいタスク)、Ruletaker(Clark et al., 2021)の簡易版。
具体例
サンプル質問:
Is Ethan Washington in a marble-floored room?"
(イーサン・ワシントンは大理石の床の部屋にいますか?)
この質問に答えるために必要な2つの重要な情報(コンテキスト):
1. "Ethan Washington is in John's living room."
(イーサン・ワシントンはジョンのリビングルームにいる。)
2. "John's living room is marble-floored."
(ジョンのリビングルームは大理石の床である。)
これらの情報を、関連のない追加のテキスト(パディング)に埋め込む。
短いバージョン(250トークン):
John's living room is marble-floored, a reality that is as intrinsic to the building as its very foundations. The moment ... Ethan Washington is in John's living room, a fact that has become as much a part of the place as the walls and the ceiling. The truth that Ethan Washington is in John's living ...
長いバージョン(1000トークン):
[関連のない長い文章の前半部分] ... "John's living room is marble-floored, a reality that is as intrinsic to the building as its very foundations. The moment ..." [関連のない長い文章の中間部分] ... "Ethan Washington is in John's living room, a fact that has become as much a part of the place as the walls and the ceiling. The truth that Ethan Washington is in John's living ..." [関連のない長い文章の後半部分]
モデルは、短いバージョンと長いバージョンの両方で、2つの重要な情報を見つけ出し、それらを組み合わせて推論することで、質問に正しく答える必要がある。
この例では、モデルは "Ethan Washington is in John's living room" と "John's living room is marble-floored" という2つの情報から、イーサン・ワシントンが大理石の床の部屋にいると推論し、"True" と答えるべき。
FLenQAは、このようなサンプルを多数含んでおり、入力の長さを変化させながらLLMの推論能力を評価するために使用される。