ICML2024
ICML2023
ICML2020
統計的機械学習
https://icml.cc/
DiJiang: Efficient Large Language Models through Compact Kernelization
https://arxiv.org/abs/2403.19928
https://x.com/bilzrd/status/1814552745778815349
Transfomerのsoftmax attentionはカーネル法の枠組みで再解釈すると、Q/Kのある射影と乱数を使ってモンテカルロ法で近似計算できる。
本研究はDCTによる射影と学習可能な定数によってQ/Kの射影を計算することで性能はそのままに学習速度を飛躍的に向上したと主張する。