Logits
LLMにおいてはネクストトークン毎の出力確率(スコア)と考えて良いだろう。
最終レイヤーでは出力をシグモイド関数掛けてさらにソフトマックス掛けて確率として出力することが多いですが、その前のナマの値を「logits」と呼んでるということでした。
こういう慣習的な呼び方はぐぐってもあまり出てこないのがむつかしいところ。
多様なプロンプトに対するLLMの出力のロジット(トークンごとのスコア)を並べた行列を特異値分解することで、LLMのembedding layerに関する情報(次元数、重みなど)を推測する実験。
この手法はAPIを介して得られる情報だけで完結する
logit
https://scrapbox.io/files/66aa5b5b83e717001c0a59b4.png