大自然言語時代のための、文章要約
要約というタスクを整理する観点としては、3つの観点があります。
僕が最近気づいたことに6年前に言及してる
実用的な側面としては、指示を与えない単純な要約(Generic summarization)は意味がないという議論もあります(Automatic summarizing: factors and directions)。これは個人的にはかなり共感する意見です(実際作成してみた要約を見ると特にそう感じます)。
ChatGPTで手軽に要約できるようになって僕も感じるようになった
抽出型(Extractive)
2.2 抽象型(Abstractive)
>_stakaya: 損害保険ジャパンさんのRAG解説記事、とても良かった…
icoxfog417 検索 + 要約の価値構成とすると、まだ要約の貢献が0~20%に近い印象を持っています。 「指示を与えない単純な要約は意味がない」は 1999 年来からの指摘ですが、 RAG にするなら正確な応答を超えたユーザーの意図/意思に基づく要約にもっと議論があってもいい気がしてます。
icoxfog417 約6年前に書いた記事を読み直したが、RAG時代の応答体験向上に必要な観点が結構古来の研究で指摘されている気がした。 例えば検索して時系列に連続した議事録がX件出てきたときのまとめ方 (Update summarization) など、単にLLM 使うだけで求める体験は得られない気がする。
https://pbs.twimg.com/card_img/1723613902779691008/zy04jSIo?format=jpg&name=medium#.png
icoxfog417 議事録だけでなく論文も発表年代が異なる場合考慮してくれないと結構困るし、著作権保護や社内の参照権限の都合上要約範囲を限定する必要があるシーンもある(Indicative summary)。 検索と要約それぞれが十全に価値を出し合う RAG 体験はまだまだ先があると思う。