Direct Preference Optimization: Your Language Model is Secretly a Reward Model
https://arxiv.org/abs/2305.18290
Figure 2
https://speakerdeck.com/akifumi_wachi/neurips-23-can-jia-bao-gao-plus-dpo-jie-shuo
アライメント、RLHFがよく用いられる (slide=11)
RLHFの「報酬モデルの学習」+「強化学習」を簡略化する最適化問題を提案 (slide=16)
DPOは数学的に等価
日本語解説(積ん読)
https://qiita.com/kunishou/items/7a2850ffc9c692c22a02