DR-Venus:仅用1万开源数据打造边缘级前沿深度研究智能体

Hugging Face Daily Papers 论文

摘要

DR-Venus-4B 是一个40亿参数的深研智能体,仅利用1万条开源样本,通过「智能体SFT+回合级奖励RL」训练,在多项研究基准上超越以往90亿以下模型,逼近300亿级系统,且可部署于边缘设备。

基于小语言模型的边缘级深研智能体因成本低、延迟低、隐私好而极具落地吸引力。本文研究如何在开源数据极度受限的情况下,通过提升数据质量与利用率,训练出强大的小模型深研智能体。我们提出 DR-Venus——一款专为边缘场景打造的40亿参数前沿深研智能体,训练数据完全开源。训练流程分两阶段:第一阶段采用「智能体监督微调(SFT)」,通过严格数据清洗与长程轨迹重采样,建立基础智能体能力;第二阶段引入「智能体强化学习(RL)」,在长程深研任务上进一步提升执行可靠性。为使 RL 在小模型场景有效,我们在 IGPO 基础上设计基于信息增益与格式感知的回合级奖励,提高监督密度与信用分配。仅约1万条开源数据,DR-Venus-4B 在多项深研基准上显著优于以往90亿参数以下智能体,并大幅缩小与300亿级系统的差距。进一步分析表明,40亿参数模型已具备惊人潜力,凸显小模型落地前景与测试时扩展的价值。我们开源模型、代码与关键配方,助力边缘级深研智能体的可复现研究。
查看原文
查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - DR-Venus:仅用 1 万条开放数据打造边缘级前沿深度研究智能体

来源:https://huggingface.co/papers/2604.19859
发布时间:4 月 21 日

今日 #2 论文(https://huggingface.co/papers/date/2026-04-23)
作者:
,

,

,

,

,

,

,

,

,

,

,

摘要

DR-Venus-4B 是一个 40 亿参数的深度研究智能体,完全基于开放数据训练,采用“智能体监督微调 + 回合级强化学习”双阶段策略,在多项研究基准上取得 SOTA 成绩,同时保持边缘部署的低成本、低延迟与隐私优势。

基于小模型的边缘级深度研究智能体因成本、延迟与隐私优势而极具落地潜力。本文研究如何在开放数据极度受限(约 1 万条)的情况下,通过“提数据质量 + 提数据利用率”训练出强力小模型智能体。我们提出 DR-Venus——首个 40 亿参数、面向边缘部署的前沿深度研究智能体,训练数据全部开源。训练流程分两阶段:

  1. 智能体监督微调(SFT):严格清洗 + 长程轨迹重采样,奠定基础智能体能力;
  2. 智能体强化学习(RL):基于 IGPO 改进,设计“信息增益 + 格式感知正则”的回合级奖励,提升长程任务的执行可靠性。

仅用约 1 万条开放数据,DR-Venus-4B 在多项深度研究基准上显著超越所有 9B 以下智能体模型,并大幅缩小与 30B 级系统的差距。进一步分析显示,40 亿参数模型已蕴含惊人潜力,凸显了小模型落地前景与“测试时扩展”的价值。我们开源模型、代码与关键配方,助力边缘级深度研究智能体的可复现研究。

查看 arXiv 页面(https://arxiv.org/abs/2604.19859)
查看 PDF(https://arxiv.org/pdf/2604.19859)
项目主页(https://huggingface.co/collections/inclusionAI/dr-venus)
GitHub(https://github.com/inclusionAI/DR-Venus)
收藏论文(https://huggingface.co/login?next=%2Fpapers%2F2604.19859)

在智能体中阅读本文:

hf papers read 2604.19859

CLI 不是最新版?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

引用本文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

引用本文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

收录本文的合集 1

相似文章

Mind DeepResearch 技术报告

Hugging Face Daily Papers

# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug