self-play
同型のagentと相互作用/対戦して学習
内部モデル上で環境をシミュレートして学習