Griffin
https://arxiv.org/abs/2402.19427Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
RNNは推論が速く、長いシーケンスでも効率的に拡張できますが、トレーニングと拡張が困難です。
Hawk:ゲート線形反復を使用した RNN
Griffin:ゲート線形反復とローカル アテンションを混合したハイブリッド モデル
トレーニング中の Transformer のハードウェア効率と一致し、推論中のレイテンシが低く、スループットが大幅に高くなる
https://gyazo.com/70da2c61f18cff523f27c3f08646a73f
https://gyazo.com/9d926c37092e31379b20d28424b0ecfb
https://github.com/proger/hippogriffproger/hippogriff
#DeepMind