帰納バイアス
例えば線形回帰のinductive biasを考える.入力xと出力yは線形の関係であり,その目的関数は二乗誤差を最小化することにある.という制約が線形回帰のinductive bias.データの分布に何らかの制約(仮定)をおかないと,任意の値を求めるのは事実上不可能である.
そのモデルの設計時点で織り込み済みの仮説等を帰納バイアスと呼ぶ。
学習データ以外に最初からもっている知識または仮説を、帰納的バイアスと呼ぶ。先程のノーフリーランチ定理と組み合わせていうと、ディープラーニングは、何らかの帰納的バイアスを持った上で特定の問題に特化することで他の手法と比べて優れた性能を達成しているといえる。 例えばCNNは構造的に近くに重要な情報集まってるみたいな帰納バイアス持ってる。 線形回帰も線形の関係があるというバイアス持ってる。 それ以外にもNNは学習の中で帰納バイアスを内面化していく。 LLMは人が学習可能な言語もそうでない言語も同様に学習できるから、LLMを研究しても人の言語について何も教えてくれないという主張がされているが、本当にそうかは示されてなかった。人が学習不可能な言語を設計しLLMに学習させるとLLMも学習が難しいことがわかった https://arxiv.org/abs/2401.06416 この論文では特に、「*HOP」言語とよばれる学習不可能言語に注目する。これは元の英語文で、三人称現在形の動詞が現れるたびに、その動詞の後に特定の文法マーカー(単数形ならS、複数形ならP)を付与する。このマーカーを動詞から4トークン後に配置したり、4単語後に配置する。これによりほぼ英語と同じであるが、カウントに基づくという普通の言語ではみられない不自然な文法規則を導入している。
文法マーカーが正しく配置されていない場合に、予測するのが特に難しいこと、またモデル内部の動詞とマーカーを追跡する仕組みを調べると、通常の言語の方が早い段階で自然な文法規則を学習できている。
このようにLLMのアーキテクチャ(Transformer, 位置符号)や学習則は、人が学習可能な言語を学習しやすいという帰納バイアスを持っており、LLMは学習可能な言語と不可能な言語の区別はつけられている。 本研究はACL 2024のベストペーパーの1つに選ばれている