Qwen3.5-35B-A3B
https://huggingface.co/Qwen/Qwen3.5-35B-A3BQwen/Qwen3.5-35B-A3B
少し調べた感じ、アクティブパラメータが少なすぎるのでは?と思い、LM Studioを使ってエキスパートの数を標準の8から少し増やして確認morisoba65536.icon
エキスパート数16は、thinkありで意味の取り違えなどが減って安定するものの、thinkを外すと引っかかる問題だとちょっとおかしな方向に進むことがある。
エキスパート数24くらいに増やすとthinkなしでも結構Qwen3.5-27Bと比べても遜色ない程度に文章を理解して回答できるようになる
一応エキスパート数17~18くらいでもほぼ同じ結果になる(やや不安定?)ので、thinkなし16では物足りない結果(意味取り違えが多いなど)と感じたら17あたりからちょっとずつ増やすとよいかも?
エキスパート数32にすると文章が無限ループし簡体字が混ざり始める、さすがに増やすし過ぎらしい。
ちなみにgpt-oss-20bはアクティブ3.6Bで総パラメータに対して約17%、同じ比率でこのモデルに適用すると5.95B程度は必要なはず…?
このモデルのエキスパート数でいうと大体16ほどになるはず?なんか試した結果と偶然にも一致しているmorisoba65536.icon
2026/03/10続報、試した限りでは大喜利とかジョークを作らせるのはエキスパート8→16に増やしても良くなるどころかつまらなくなったりループしたりするので
少なくともユーモア系についてはエキスパート増やす効果がない(なんなら悪影響)
文章の読み間違え・意味の取り違えなどは少なくなる、位の効果なのかもしれないmorisoba65536.icon
#Qwen3.5