Tongyi-DeepResearch-30B-A3B

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3BAlibaba-NLP/Tongyi-DeepResearch-30B-A3B

主な特徴

⚙️完全に自動化された合成データ生成パイプライン: エージェントの事前トレーニング、教師ありの微調整、強化学習を可能にする、完全に自動化された、高度にスケーラブルなデータ合成パイプラインを設計します。

🔄エージェントデータに対する大規模で継続的な事前トレーニング: 多様で高品質なエージェントインタラクションデータを活用して、モデルの機能を拡張し、鮮度を維持し、推論パフォーマンスを強化します。

🔁エンドツーエンドの強化学習：カスタマイズされたグループ相対ポリシー最適化フレームワークに基づく厳密なポリシーオンRLアプローチを採用し、トークンレベルのポリシー勾配、leave-one-outの利点の推定、および負のサンプルの選択的フィルタリングにより、非定常環境でのトレーニングを安定させます。

🤖エージェント推論パラダイムの互換性: 推論において、Tongyi-DeepResearch は 2 つの推論パラダイムと互換性があります。モデルのコアとなる固有能力を厳密に評価する ReAct と、テスト時間のスケーリング戦略を使用してモデルの最大パフォーマンス上限を解放する IterResearch ベースの「Heavy」モードです。