takahiroanno DeepSeek-R1で、吐き出される思考過程を人間にとってわかりやすくしろ!って訓練したら、わかりやすくなったけど純粋な思考能力は下がったという話(言語一貫性報酬の話)、味わい深い
人間も同じな気がする。何言ってるのかよくわからないけどめっちゃ賢い人っているじゃん。