RLHF
@mr_bay_area
:
LLM
の学習にRLHFが何故必要なのかは専門家も割と疑問に思ってる印象で、それに対する
Yoav Goldberg
による一つの回答。短くまとめると、「LLMが何を知っているかを知らない状態で『LLMに知らないことを知らないと答えるよう学習させる』のが
教師あり学習
では不可能だから」。
https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81