AIのアウトプットでAIをトレーニングする
AlphaZero
とかは学習 -> 自己対戦 -> 学習 -> ループが回ってる
ループが回る
出力データ価値/容量 > 入力データ価値/容量、ということ
ゲインが1を超えているフィードバックループ -->
正帰還
つまり
自己対戦ステップがデータ価値を高めている
MCTS
による効果
LLM
はこれが出来る方法が発見されてない
あらゆるデータに対し安定してこれができるようになるとほぼ
シンギュラリティ
だしほぼ
AGI
が作れたと言っていい