Direct Preference Optimization: Your Language Model is Secretly a Reward Model - nikkie-memos

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

https://arxiv.org/abs/2305.18290

Figure 2

https://speakerdeck.com/akifumi_wachi/neurips-23-can-jia-bao-gao-plus-dpo-jie-shuo

アライメント、RLHFがよく用いられる (slide=11)

RLHFの「報酬モデルの学習」+「強化学習」を簡略化する最適化問題を提案 (slide=16)

DPOは数学的に等価

日本語解説（積ん読） https://qiita.com/kunishou/items/7a2850ffc9c692c22a02