trl - work4ai

trl

「trl」(Transformer Reanforcement Learning)は、強化学習でTransformerモデルを強化学習するためのパッケージです。

(1) ロールアウト：言語モデルは、文頭のクエリに基づいて応答や継続を生成。

(2) 評価 : クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。

(3) 最適化 : クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、PPOで学習。