DARE - work4ai

DARE

https://gyazo.com/43d88db2bfad0a5f695ef8e4d4aff76d

Copilot.iconに軽薄な口調でまとめさせたらなんか読みやすくなったのでそのまま乗せてみるnomadoor.icon

この論文は、言語モデル（LM）が他のモデルから能力を吸収できることを発見したという話です

LMは、特定のタスクに合わせて微調整（SFT）されることで、新しい能力を得ることができます

しかし、SFTは、元のモデルのパラメータ（重みとかバイアスとかいうやつ）に微妙な変化（デルタと呼ぶらしい）を与えるだけで、そんなに大したことはしていないことがわかりました

そこで、この論文では、DAREという手法を提案して、デルタのほとんどを消しても、SFTの能力を保つことができることを示しました

さらに、DAREを使って、複数のSFTモデルを一つに統合することで、複数の能力を持つLMを作ることができることも示しました

例えば、数学の問題を解くモデルとコードを生成するモデルを統合すると、数学の問題を解いたりコードを生成したりできるLMができあがります

LMは、X-Menのアポカリプスやスーパーマリオのように、他のモデルから能力を吸収できるということがわかりました。すごいですね。

DARE

DAREは、デルタをランダムに消して、残ったものをスケーリングするだけで、元のモデルの埋め込みを近似することができます

DAREは、デルタのみに適用されるため、元のモデルの知識を損なわないという利点があります

DAREでマージして作ったモデル

えぇ…そのまま？nomadoor.icon

Stable Diffusionに拡張

LoRAの適用時にDAREを使うComfyUIカスタムノード