LoRA-alpha - work4ai

LoRA-alpha

https://arxiv.org/abs/2606.12883The Hidden Power of Scaling Factor in LoRA Optimization

LoRAのalphaはもっと大きくていいかもしれない

spectral suppression

LoRAは低ランクに制限しているので、FFTと比べると、学習がなだらかになる

安定するが、動きが鈍いため、その鈍さをlearning rateを上げることで補っていた

signal drift

しかしこれをすると、欲しい更新以外もずれる

LoRa差分 : $ ΔW = (α / r) BA

AとBが同時に動くと

$ (B + ΔB)(A + ΔA)　

$ = BA + BΔA + ΔBA + ΔBΔA　

↑のうち $ ΔBΔA は副作用 (=drift)

これはAの移動量とBの移動量の掛け算

つまり1次ではなく2次でズレていくため、欲しい更新以上にズレが目立つことがある

LoRAが鈍いとき、強くする方法は LR 以外に alpha を上げることもできる

alpha は $ BA がモデルに与える影響に対してスカラー倍する

AとBの移動量そのものを大きくするわけではない

そのため、LRのように$ ΔBΔAだけが2次的に増えるわけではない

つまり、LR より alphaを強くかけたほうが良さそう？

alpha の値は一般的に rank と同じ、もしくは rank / 2 くらいにされてきたが、LoRAでは小さすぎるかもしれない

$ α ≒ C√r の提案

それも C はかなり大きく　256 ~ 1024 くらいが良い

C = 256 なら

r = 1 , α = 256 , α / r = 256

r = 4 , α = 512 , α / r = 128

r = 8 , α ≒ 724 , α / r ≒ 90.5

...

r = 256 , α = 4096 , α / r = 16

rankが上がるほどalpha は増える

ただし実効スケールα / rは下がる = 低rankほど強く補正する