ICML2024
DiJiang: Efficient Large Language Models through Compact Kernelization
Transfomerのsoftmax attentionはカーネル法の枠組みで再解釈すると、Q/Kのある射影と乱数を使ってモンテカルロ法で近似計算できる。
本研究はDCTによる射影と学習可能な定数によってQ/Kの射影を計算することで性能はそのままに学習速度を飛躍的に向上したと主張する。
Auto-Regressive Next-Token Predictors are Universal Learners
Generative Video WorldSim, Diffusion, Vision, Reinforcement Learning and Robotics — ICML 2024 Part 1