Qwen3
https://gyazo.com/21a497c6aede840d4a72a2709d232b08
and even a tiny model like Qwen3-4B can rival the performance of Qwen2.5-72B-Instruct.
さまざまなサイズのDenseモデルとMixture-of-Experts(MoE)モデル:0.6B、1.7B、4B、8B、14B、32B、30B-A3B、235B-A22Bが利用可能。
思考モードと非思考モードのシームレスな切り替え:複雑な論理的推論、数学、コーディングに最適な思考モードと、効率的な汎用チャットに適した非思考モードの間を切り替えて、さまざまな場面で最適なパフォーマンスを実現。
ざっくり現時点(2025/04/29 14:39)での報告を見る限り
0.6Bでもある程度日本語がまとも(流石に自然ではないが意味は通じる)
大規模なモデルはかなり思慮深い感じの回答を返し、コーディング能力は高い
その一方で丸暗記的な知識は2.5に比べてかなり欠落が見られる?(MCP等で連携してググればわかることは重視してない?) 等の動作報告が見られているmorisoba65536.icon
LM StudioでThinkingを無効にする方法がわからないbsahd.icon