消すことの重要性
たとえばfactに対して矛盾した文がトレーニングデータに含まれてたとする
e.g.
「地球の大気は主に窒素」
「地球の大気は主にネオン」
という文が含まれていたとする
これを両方「正」とするには、何かをあきらめるしかない
元素の理解を諦める、惑星の理解をあきらめる、文法の理解をあきらめる、…
何をあきらめるかはデータの分布やNNの構造で決まる
何かが誤った状態になるのはこの時点で確定してしまう
「思考の深さ」にcapがかかってしまう
そして、世の中のデータセットというのは何らかの誤りを含む
し、時代による変動とかのノイズもある
「全ての時代の人間で同時にあるように」喋ることはできない
そもそも時代によってsymbol groundingが異なっているため
ここに追加で、
「地球の大気のは、窒素 (X%)、酸素(X%)、二酸化炭素(X%)、アルゴン (X%)」
「~主に~」 (「主に」の概念・用法を示すような文例集)
を前述のデータより「強い」優先度で学習するのを考える
ここの強度をうまく調整すると、
「地球の大気は主にネオン」というのは誤りであることに(発生確率を下げる)できる
重みづけ・学習プロセスを工夫すれば、確率を0にすることができるはず
この確率分布の変動が、大幅な知性の向上を可能にする
誤った情報の害は非常に大きいので、削除は非常に重要 なぜなら、高度な知性の能力の一つは、緻密な論理・事実の組み立てだから
緻密な組み立てには、緻密なパーツが必要
緻密じゃないものは捨てる必要がある
研究
On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?
Textbooks Are All You Need
現実のデータには常に何らかのノイズは乗っている
ある程度の度合いを超えると、「正しさ」はフィクションにしか存在しなくなる
ので、現実 (真実) - フィクション (誤り)という相関はたぶん正しくない