Griffin
RNNは推論が速く、長いシーケンスでも効率的に拡張できますが、トレーニングと拡張が困難です。 Griffin:ゲート線形反復とローカル アテンションを混合したハイブリッド モデル トレーニング中の Transformer のハードウェア効率と一致し、推論中のレイテンシが低く、スループットが大幅に高くなる
https://gyazo.com/70da2c61f18cff523f27c3f08646a73f
https://gyazo.com/9d926c37092e31379b20d28424b0ecfb