开云·kaiyun(中国)官方网站

网页客服,欢迎咨询

联系我们

周一至周五：09:00-17:30
周六至周日：10:00-16:00

唐先生：15603012345

华泰证券：DS-R1更新实现15%以上性能提升，看好带来的Agent潜在推动

2025-06-01 06:34:38 15

管理

来源：华泰睿思

核心观点

DeepSeek于5月28日更新了R1-0528模型，并于5月29日发布官方更新说明。R1-0528与旧版R1相比，在官方列举的数学和代码等领域，实现了性能15%-26%的较大提升。与海外模型相比，R1-0528各项性能接近OpenAI的o3模型，与Google Gemini 2.5 Pro相比性能各有高低。我们认为，除了性能的提升外，更重要的变化是R1-0528开始支持工具调用，而工具调用是构建Agent的必备属性。R1-0528有望在Agent领域展开探索，有望打破目前Manus、Genspark依赖海外模型（Anthropic Claude）当做核心模型的现状。标的方面仍然聚焦Agent和MCP方向。

R1-0528与旧版本使用相同基础模型，仅靠后训练Scaling Law提效

DeepSeek官方指出，R1-0528的基座模型还是去年12月发布的DeepSeek-V3，与R1旧版本保持一致。今年3月更新的V3-0324并未在R1-0528中使用。模型能力提升仍然是依赖后训练Scaling Law，即在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。用户端显著的变化是模型思考的长度更长，例如旧版R1解答AIME 2025测试集上平均每题使用12K tokens，而新版模型平均每题使用23K tokens。我们认为，2025年后训练Scaling Law将持续有效，各模型厂商还会继续跟进。

“小更新”并不小，相比前代模型在各项指标上有15-26%的提升

虽然DeepSeek官方表示为“小版本升级”，但我们能看到性能提升幅度还是比较显著的。R1-0528和前一代R1相比，在各项指标上有15-26%提升。与海外头部模型相比，数学、代码、推理等各项性能接近但未超过o3，在部分测评集上强于Google Gemini-2.5- Pro-0506。另外，针对旧版本R1幻觉率高的问题，本次优化后，R1-0528幻觉率降低了45-50%。

工具调用是最大亮点，模型蒸馏继续奏效

DeepSeek官方表述，R1-0528支持工具调用（但不支持在thinking中进行工具调用），在Tau-Bench测评集上与OpenAI o1-high相当，与o3-High和Claude 4 Sonnet仍有差距。由于工具调用是Agent的重要必备条件，鉴于R1的开源性质，我们认为R1-0528有可能被Agent开发者广泛用于复杂Agent流程编排，拓展DeepSeek模型更广泛的使用场景。此外，R1-0528蒸馏的Qwen3-8B在数学性能上有了进一步提高，我们认为利好端侧模型的进步和部署。

投资建议

思路上，我们看好R1-0528带来的Agent潜在推动，结合MCP（模型上下文协议）的广泛普及，进行标的推荐，具体名单请见研报原文。

风险提示：AI技术迭代不及预期，AI商业化不及预期。