LoRA-alpha
https://arxiv.org/abs/2606.12883The Hidden Power of Scaling Factor in LoRA Optimization
LoRAのalphaはもっと大きくていいかもしれない
spectral suppression
LoRAは低ランクに制限しているので、FFTと比べると、学習がなだらかになる
安定するが、動きが鈍いため、その鈍さをlearning rateを上げることで補っていた
signal drift
しかしこれをすると、欲しい更新以外もずれる
LoRa差分 : $ ΔW = (α / r) BA
AとBが同時に動くと
$ (B + ΔB)(A + ΔA) 
$ = BA + BΔA + ΔBA + ΔBΔA 
↑のうち $ ΔBΔA は副作用 (=drift)
これはAの移動量とBの移動量の掛け算
つまり1次ではなく2次でズレていくため、欲しい更新以上にズレが目立つことがある
LoRAが鈍いとき、強くする方法は LR 以外に alpha を上げることもできる
alpha は $ BA がモデルに与える影響に対してスカラー倍する
AとBの移動量そのものを大きくするわけではない
そのため、LRのように$ ΔBΔAだけが2次的に増えるわけではない
つまり、LR より alphaを強くかけたほうが良さそう?
alpha の値は一般的に rank と同じ 、もしくは rank / 2 くらいにされてきたが、LoRAでは小さすぎるかもしれない
$ α ≒ C√r の提案
それも C はかなり大きく 256 ~ 1024 くらいが良い
C = 256 なら
r = 1 , α = 256 , α / r = 256
r = 4 , α = 512 , α / r = 128
r = 8 , α ≒ 724 , α / r ≒ 90.5
...
r = 256 , α = 4096 , α / r = 16
rankが上がるほどalpha は増える
ただし実効スケールα / rは下がる = 低rankほど強く補正する