LLM生成テキストの透かし
できるんだ、知らなかった
@hillbig: LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合(G)とレッド集合(R)に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成された文はGに属するトークンの数の割合が、一般文よりずっと多く、生成されたのかどうかを調べられる。 直前トークンのみ依存するので生成文を途中で切り取ったとしても検出できる。また、logitに定数を加える方式なので、エントロピーが低いトークンは変更されず、高いトークンが変更されるため生成文の品質劣化を抑えられる。そしてこの定数は状況(利用状況やユーザー)に応じて変えることができ、電子透かしの強度を動的に変えられる。
また、手法を開示したとしても、生成時の乱数種さえ隠していれば攻撃者は電子透かしを外すことは困難。
このアプローチ自体はLLM以外でも生成モデル一般に使える
ICML2023のベストペーパーの一つ
なお、商用サービスではこのような電子透かしがいくつか既に入っていると思われる。