大規模言語モデルを用いたゼロショットテキスト分類によるTCFD推奨開示項目の自動判定

概要

TCFD推奨開⽰項⽬について、各社の開示内容がそれぞれの項目に沿った内容であるかを判定する基準として、27種類のクライテリアを作成

開示内容のテキストから、それぞれのクライテリアを満たすかどうかの二値分類問題を解く

GPT 3.5 or 4 を使ってゼロショット分類し、人手でアノテーションした評価セットを使って精度を評価

このモデルを使って実情調査もした

結果

再現率よりは適合率が低い傾向にある（モデルがTrueと言いがち）

なにかTrueと判断してしまうような表現が含まれる？

面白かった点

オリジナルの11項目を更に細分化し、簡潔なクライテリア定義の記述を実現している

曖昧さを排除し、一貫性のあるアノテーションにも寄与しているはず

各クライテリアの判断基準が互いに独立するようにも設計した

クライテリア定義は開発の中でできる限り手を加えないで良いように、備考を用意し柔軟性を担保した

クライテリアの作成に際して、実際のデータを見つつ修正し、実情を反映させるように気を使っている

参考にするデータの多様性を担保するために、K-meansでクラスタを分けて代表点をサンプルするようにしている