Speculative sampling
各変換器呼び出しから複数のトークンを生成できるようにすることで、変換器のデコードを高速化するアルゴリズムであるSpeculative Samplingを紹介する。本アルゴリズムは、高速であるが性能の低いドラフトモデルによって生成される短い継続の並列スコアリングの待ち時間が、より大きなターゲットモデルから単一のトークンをサンプリングする待ち時間に匹敵するという観察に依拠している。これは、ハードウェア数値計算の中でターゲットモデルの分布を保持する、新しい修正された棄却サンプリングスキームと組み合わされる。700億パラメータの言語モデルであるChinchillaを用いた投機的サンプリングのベンチマークを行い、サンプルの品質を損なうことなく、またモデル自体に変更を加えることなく、分散セットアップにおいて2~2.5倍のデコード速度向上を達成した。