Transformer
埋め込み (embedding)
word2vec
seq2seq (系列變換 model)
encoder-decoder
自己注意 (self-attention)
multi-head 注意 (multi-head attention)
大規模言語 model (LLM)およびより廣範な neural network における「創發」現象は、非常に興味深い特性である。モデルの規模が擴大し學習期閒が長期化するにつれ、これらのシステムは時に突如として新たな能力を獲得することがある。これまでの硏究にもかかはらず、これらの能力がどのやうに、またどのやうな條件下で出現するのかといふ包括的な理解は未だ得られてゐない。この硏究ギャップを埋めるため、本論文では Transformer アーキテクチャにおいて頻繁に觀測される重要な注意パターンである「疎注意」の學習過程における出現メカニズムを詳細に調査する。具體的には、單純なモデルを用ゐた理論的解析と、線形囘歸變種で學習させた小規模 Transformer モデルに對する實證的觀察結果を組み合はせることで、疎注意の出現を驅動する力學的原理を明らかにした。さらに、出現タイミングがタスク構造・アーキテクチャ・最適化アルゴリズムの選擇に基づいて冪乘則に從ふことを實證する。加へて、反復學習が創發プロセスを大幅に加速させる效果があることも確認した。最後に、これらの知見を充分に硏究されてゐる「文脈内聯想想起」タスクにおいて檢證した。本硏究の成果は、データ分布とモデル設計が特定の創發現象の背後にある學習ダイナミクスにどのやうに影響を及ぼすかを理解する上で、理論的基盤に基づいた簡潔な枠組みを提供するものである。 fine tuning
例示
次元を減らす
量子化 (quantization)
內在次元 (intrinsic dimension)
lottery ticket 假說
mode connectivity
flat minima 假說
in-context learning