解釈可能性 - main-custard

解釈可能性

機械学習について, 推論時などに内部で何が起きているか理解を試みる

例えば, Transformerが次のある単語を予測する時, Headはどう影響するか, とか?

モデル内部で行われるニューロンの動きと推論結果を組み合わせ, 挙動を理解する手法がある

形式的検証を行い, 数学的に保証できれば良いが, 実際にはLLMのパラメータが膨大なため現実的ではない? 要確認

MLIRを使い推論パスの検証を行う研究があるらしいが, 本当だろうか. サーベイしよう