PRM
process reward model
OpenAI o1はどう作るのか(概要編)|はち
o1