japanese-gpt-neox-3.6b-instruction-ppo
https://rinna.co.jp/news/2023/05/20220531.html
rinna、人間の評価を利用したGPT言語モデルの強化学習に成功
https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-ppo
このリポジトリは、36億個のパラメータを持つ日本語GPT-NeoXモデルを提供します。このモデルは
japanese-gpt-neox-3.6b-instruction-sft-v2
に基づいており、命令に従う会話エージェントとして機能するように調整されています。
#RLHF
によって学習された
data:
https://huggingface.co/datasets/Anthropic/hh-rlhf
Anthropic_HH-RLHF
を日本語訳したもの
#rinna