Soft MoE
https://arxiv.org/abs/2308.00951#:~:text=From%20Sparse%20to%20Soft%20Mixtures%20of%20Experts%20Joan,without%20large%20increases%20in%20training%20or%20inference%20costs.From Sparse to Soft Mixtures of Experts
画像認識のためのTransformerモデルをスケールアップする方法
https://gyazo.com/23ecbd662b332c7d090131cb2c43597d
bing.icon
Sparse MoEでは、入力トークンが個々のエキスパートに離散的に割り当てられますが、Soft MoEでは、入力トークンが複数のエキスパートに柔らかく割り当てられます。
Sparse MoEでは、割り当て問題が非微分可能であり、トークンのドロップやエキスパートの不均衡などの問題がありますが、Soft MoEでは、これらの問題を回避します。
Soft MoEは、ソートやトップkなどの高コストな操作を必要とせず、ハードウェアアクセラレータに適した高速なアルゴリズムです。
😇nomadoor.icon
https://www.marktechpost.com/2023/08/08/this-ai-paper-proposes-soft-moe-a-fully-differentiable-sparse-transformer-that-addresses-these-challenges-while-maintaining-the-benefits-of-moes/
MoEは専門家モデルを複数組み合わせたもの
計算コストを減らせるが、データが入力されたときにどの専門家で処理をするか?という課題がある
Soft MoEは入力データと専門家の両方に依存する重み付け平均を使って、複数の入力データを組み合わせて柔軟に割り当てる
#Google
#DeepMind