DR-Venus:仅用1万开源数据打造边缘级前沿深度研究智能体
摘要
DR-Venus-4B 是一个40亿参数的深研智能体,仅利用1万条开源样本,通过「智能体SFT+回合级奖励RL」训练,在多项研究基准上超越以往90亿以下模型,逼近300亿级系统,且可部署于边缘设备。
查看缓存全文
缓存时间: 2026/04/23 03:35
论文页面 - DR-Venus:仅用 1 万条开放数据打造边缘级前沿深度研究智能体
来源:https://huggingface.co/papers/2604.19859
发布时间:4 月 21 日
今日 #2 论文(https://huggingface.co/papers/date/2026-04-23)
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
DR-Venus-4B 是一个 40 亿参数的深度研究智能体,完全基于开放数据训练,采用“智能体监督微调 + 回合级强化学习”双阶段策略,在多项研究基准上取得 SOTA 成绩,同时保持边缘部署的低成本、低延迟与隐私优势。
基于小模型的边缘级深度研究智能体因成本、延迟与隐私优势而极具落地潜力。本文研究如何在开放数据极度受限(约 1 万条)的情况下,通过“提数据质量 + 提数据利用率”训练出强力小模型智能体。我们提出 DR-Venus——首个 40 亿参数、面向边缘部署的前沿深度研究智能体,训练数据全部开源。训练流程分两阶段:
- 智能体监督微调(SFT):严格清洗 + 长程轨迹重采样,奠定基础智能体能力;
- 智能体强化学习(RL):基于 IGPO 改进,设计“信息增益 + 格式感知正则”的回合级奖励,提升长程任务的执行可靠性。
仅用约 1 万条开放数据,DR-Venus-4B 在多项深度研究基准上显著超越所有 9B 以下智能体模型,并大幅缩小与 30B 级系统的差距。进一步分析显示,40 亿参数模型已蕴含惊人潜力,凸显了小模型落地前景与“测试时扩展”的价值。我们开源模型、代码与关键配方,助力边缘级深度研究智能体的可复现研究。
查看 arXiv 页面(https://arxiv.org/abs/2604.19859)
查看 PDF(https://arxiv.org/pdf/2604.19859)
项目主页(https://huggingface.co/collections/inclusionAI/dr-venus)
GitHub(https://github.com/inclusionAI/DR-Venus)
收藏论文(https://huggingface.co/login?next=%2Fpapers%2F2604.19859)
在智能体中阅读本文:
hf papers read 2604.19859
CLI 不是最新版?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型引用
在模型 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。
引用本文的数据集 0
暂无数据集引用
在数据集 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。
引用本文的 Spaces 0
暂无 Space 引用
在 Space README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。
收录本文的合集 1
相似文章
@Ex0byt: 一个必须收藏的.. 小但厉害的团队, 4个H100节点, 开源三阶段训练方案, 在8k合成评分任务上训练, fu…
一个小团队在学术预算下,仅使用32块H100和8K个合成样本,训练了一个前沿级别的深度研究智能体,并完全公开了从2B到35B模型的权重、代码和论文,这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。
S1-DeepResearch:超越搜索,迈向真实世界的长周期研究代理
本文介绍了S1-DeepResearch-32B,这是一个开源模型及包含15K条轨迹的数据集,用于深度研究代理,通过联合建模信息获取、知识综合与规划,在20个基准测试中取得了最先进的性能。
@KaiZhang_CS: 看看由 @jianxie_ 训练的最佳开源搜索代理之一!!很高兴看到早期经验方法在……
Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent,使用 8K 合成样本和强化学习,并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。
Mind DeepResearch 技术报告
# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug
研究人员使用32块H100 GPU训练了一个Deep Research智能体,并开源了所有内容
研究人员使用32块H100 GPU训练了一个Deep Research智能体,并开源了所有组件,从而促进了社区访问和进一步开发。