日記2023-11-27

nishio まず「みんながGPTで作った文章をネットに載せ、それを将来のLLMが人間の入力だと思って学習してしまう」「だから性能が劣化する」という主張に関しては、LLM生成テキストであること識別してフィルターできるから前提が成り立たない

cheedah7427 透かしの話は、識別しようと思えばある程度対策できると言うだけの話であって、100%識別可能と言う話ではないと思っていますし、その対策がされたLLMばかりではないし、現実にある文章が特定の条件のLLMから生成されたことを知っている状況は仮定できないので、結局汚染は起きると思います。

cheedah7427 ここでは文章生成システム全体を簡便のためLLMと言っています

nishio 「みんながChatGPTで作った文章をネットに書くから」という文脈の話で、この場合OpenAIはChatGPTが生成した文章であることを識別して学習データから除外できる、という話をしていた。確かに、オープン陣営の多種多様なLLMは、互いに識別ができなくて潰し合うかもね。標準化が必要かも？

cheedah7427 文脈は追えていなかったです、失礼しました。標準化できるのがベストですが、現実には難しい気がしますね、、、トークン生成は様々な要素が絡み合いすぎてる気がします

nishio いえいえ、視点が広がったのでご指摘ありがたいです

日記2023-11-26←日記2023-11-27→日記2023-11-28

100日前日記2023-08-19

1年前日記2022-11-27