trl
https://github.com/lvwerra/trl
https://note.com/npaka/n/naf849d1f42ce
「trl」(Transformer Reanforcement Learning)は、
強化学習
で
Transformer
モデルを強化学習するためのパッケージです。
(1) ロールアウト
:言語モデルは、文頭のクエリに基づいて応答や継続を生成。
(2) 評価
: クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。
(3) 最適化
: クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、PPOで学習。