japanese-gpt-neox-3.6b-instruction-ppo
https://rinna.co.jp/news/2023/05/20220531.htmlrinna、人間の評価を利用したGPT言語モデルの強化学習に成功
https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-ppo
このリポジトリは、36億個のパラメータを持つ日本語GPT-NeoXモデルを提供します。このモデルはjapanese-gpt-neox-3.6b-instruction-sft-v2に基づいており、命令に従う会話エージェントとして機能するように調整されています。
#RLHF によって学習された
data: https://huggingface.co/datasets/Anthropic/hh-rlhf
Anthropic_HH-RLHFを日本語訳したもの
#rinna