日記2023-11-27
人生を悩む
世界からのサンプリング
nishio まず「みんながGPTで作った文章をネットに載せ、それを将来のLLMが人間の入力だと思って学習してしまう」「だから性能が劣化する」という主張に関しては、LLM生成テキストであること識別してフィルターできるから前提が成り立たない
LLM生成テキストの透かし
cheedah7427 透かしの話は、識別しようと思えばある程度対策できると言うだけの話であって、100%識別可能と言う話ではないと思っていますし、その対策がされたLLMばかりではないし、現実にある文章が特定の条件のLLMから生成されたことを知っている状況は仮定できないので、結局汚染は起きると思います。
cheedah7427 ここでは文章生成システム全体を簡便のためLLMと言っています
nishio 「みんながChatGPTで作った文章をネットに書くから」という文脈の話で、この場合OpenAIはChatGPTが生成した文章であることを識別して学習データから除外できる、という話をしていた。確かに、オープン陣営の多種多様なLLMは、互いに識別ができなくて潰し合うかもね。標準化が必要かも?
cheedah7427 文脈は追えていなかったです、失礼しました。標準化できるのがベストですが、現実には難しい気がしますね、、、トークン生成は様々な要素が絡み合いすぎてる気がします
nishio いえいえ、視点が広がったのでご指摘ありがたいです
日記2023-11-26←日記2023-11-27→日記2023-11-28
100日前 日記2023-08-19
1年前 日記2022-11-27