Transformerの学習理論: In-context learningにおける汎化と最適化の理論
NLPコロキウム | Transformerの学習理論: In-context learningにおける汎化と最適化の理論 (鈴木大慈)
鈴木 大慈 / Taiji Suzuki (東京大学)
In-context leaningを主たる題材として,Transformerの学習能力を理論的に明らかにする最近の理論研究を紹介する.まず表現力の理論として,Transformerは非等方的滑らかさを持つ関数を近似できること,および自己回帰的データを学習できることを紹介する.同様の結果が状態空間モデルを用いても実現できることを紹介する.次に最適化理論として,非線形特徴学習の最適化が可能であることを示し,真の関数の情報指数によって計算効率が評価できることを示す.時間があれば,統計理論としてin-context learningにおいてminimax最適性を満たすことも紹介する.
https://gyazo.com/2467b4d2204986d5ad3c234aacda2220
線形注意
Linear Attention