日記2023-11-27
nishio まず「みんながGPTで作った文章をネットに載せ、それを将来のLLMが人間の入力だと思って学習してしまう」「だから性能が劣化する」という主張に関しては、LLM生成テキストであること識別してフィルターできるから前提が成り立たない cheedah7427 透かしの話は、識別しようと思えばある程度対策できると言うだけの話であって、100%識別可能と言う話ではないと思っていますし、その対策がされたLLMばかりではないし、現実にある文章が特定の条件のLLMから生成されたことを知っている状況は仮定できないので、結局汚染は起きると思います。 nishio 「みんながChatGPTで作った文章をネットに書くから」という文脈の話で、この場合OpenAIはChatGPTが生成した文章であることを識別して学習データから除外できる、という話をしていた。確かに、オープン陣営の多種多様なLLMは、互いに識別ができなくて潰し合うかもね。標準化が必要かも? cheedah7427 文脈は追えていなかったです、失礼しました。標準化できるのがベストですが、現実には難しい気がしますね、、、トークン生成は様々な要素が絡み合いすぎてる気がします nishio いえいえ、視点が広がったのでご指摘ありがたいです