AIのアウトプットでAIをトレーニングする - xy_kasumi

AIのアウトプットでAIをトレーニングする

AlphaZeroとかは学習 -> 自己対戦 -> 学習 -> ループが回ってる

ループが回る

出力データ価値/容量 > 入力データ価値/容量、ということ

ゲインが1を超えているフィードバックループ --> 正帰還

つまり

自己対戦ステップがデータ価値を高めている

MCTSによる効果

LLMはこれが出来る方法が発見されてない

あらゆるデータに対し安定してこれができるようになるとほぼシンギュラリティだしほぼAGIが作れたと言っていい