japanese-gpt-neox-3.6b-instruction-ppo - work4ai

japanese-gpt-neox-3.6b-instruction-ppo

https://rinna.co.jp/news/2023/05/20220531.htmlrinna、人間の評価を利用したGPT言語モデルの強化学習に成功

https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-ppo

このリポジトリは、36億個のパラメータを持つ日本語GPT-NeoXモデルを提供します。このモデルはjapanese-gpt-neox-3.6b-instruction-sft-v2に基づいており、命令に従う会話エージェントとして機能するように調整されています。

#RLHF によって学習された

data: https://huggingface.co/datasets/Anthropic/hh-rlhf

Anthropic_HH-RLHFを日本語訳したもの