AIのアウトプットでAIをトレーニングする
AlphaZeroとかは学習 -> 自己対戦 -> 学習 -> ループが回ってる
ループが回る
出力データ価値/容量 > 入力データ価値/容量、ということ
ゲインが1を超えているフィードバックループ --> 正帰還
つまり
自己対戦ステップがデータ価値を高めている
MCTSによる効果
LLMはこれが出来る方法が発見されてない
あらゆるデータに対し安定してこれができるようになるとほぼシンギュラリティだしほぼAGIが作れたと言っていい