Soft MoE
画像認識のためのTransformerモデルをスケールアップする方法
https://gyazo.com/23ecbd662b332c7d090131cb2c43597d
bing.icon
Sparse MoEでは、入力トークンが個々のエキスパートに離散的に割り当てられますが、Soft MoEでは、入力トークンが複数のエキスパートに柔らかく割り当てられます。 Sparse MoEでは、割り当て問題が非微分可能であり、トークンのドロップやエキスパートの不均衡などの問題がありますが、Soft MoEでは、これらの問題を回避します。
Soft MoEは、ソートやトップkなどの高コストな操作を必要とせず、ハードウェアアクセラレータに適した高速なアルゴリズムです。
😇nomadoor.icon
MoEは専門家モデルを複数組み合わせたもの
計算コストを減らせるが、データが入力されたときにどの専門家で処理をするか?という課題がある
Soft MoEは入力データと専門家の両方に依存する重み付け平均を使って、複数の入力データを組み合わせて柔軟に割り当てる