DR-Venus：仅用1万开源数据打造边缘级前沿深度研究智能体

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

DR-Venus-4B 是一个40亿参数的深研智能体，仅利用1万条开源样本，通过「智能体SFT+回合级奖励RL」训练，在多项研究基准上超越以往90亿以下模型，逼近300亿级系统，且可部署于边缘设备。

基于小语言模型的边缘级深研智能体因成本低、延迟低、隐私好而极具落地吸引力。本文研究如何在开源数据极度受限的情况下，通过提升数据质量与利用率，训练出强大的小模型深研智能体。我们提出 DR-Venus——一款专为边缘场景打造的40亿参数前沿深研智能体，训练数据完全开源。训练流程分两阶段：第一阶段采用「智能体监督微调（SFT）」，通过严格数据清洗与长程轨迹重采样，建立基础智能体能力；第二阶段引入「智能体强化学习（RL）」，在长程深研任务上进一步提升执行可靠性。为使 RL 在小模型场景有效，我们在 IGPO 基础上设计基于信息增益与格式感知的回合级奖励，提高监督密度与信用分配。仅约1万条开源数据，DR-Venus-4B 在多项深研基准上显著优于以往90亿参数以下智能体，并大幅缩小与300亿级系统的差距。进一步分析表明，40亿参数模型已具备惊人潜力，凸显小模型落地前景与测试时扩展的价值。我们开源模型、代码与关键配方，助力边缘级深研智能体的可复现研究。

查看原文

查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - DR-Venus：仅用 1 万条开放数据打造边缘级前沿深度研究智能体

来源：https://huggingface.co/papers/2604.19859
发布时间：4 月 21 日

今日 #2 论文（https://huggingface.co/papers/date/2026-04-23）
作者：
,

摘要

DR-Venus-4B 是一个 40 亿参数的深度研究智能体，完全基于开放数据训练，采用“智能体监督微调 + 回合级强化学习”双阶段策略，在多项研究基准上取得 SOTA 成绩，同时保持边缘部署的低成本、低延迟与隐私优势。

基于小模型的边缘级深度研究智能体因成本、延迟与隐私优势而极具落地潜力。本文研究如何在开放数据极度受限（约 1 万条）的情况下，通过“提数据质量 + 提数据利用率”训练出强力小模型智能体。我们提出 DR-Venus——首个 40 亿参数、面向边缘部署的前沿深度研究智能体，训练数据全部开源。训练流程分两阶段：

智能体监督微调（SFT）：严格清洗 + 长程轨迹重采样，奠定基础智能体能力；
智能体强化学习（RL）：基于 IGPO 改进，设计“信息增益 + 格式感知正则”的回合级奖励，提升长程任务的执行可靠性。

仅用约 1 万条开放数据，DR-Venus-4B 在多项深度研究基准上显著超越所有 9B 以下智能体模型，并大幅缩小与 30B 级系统的差距。进一步分析显示，40 亿参数模型已蕴含惊人潜力，凸显了小模型落地前景与“测试时扩展”的价值。我们开源模型、代码与关键配方，助力边缘级深度研究智能体的可复现研究。

查看 arXiv 页面（https://arxiv.org/abs/2604.19859）
查看 PDF（https://arxiv.org/pdf/2604.19859）
项目主页（https://huggingface.co/collections/inclusionAI/dr-venus）
GitHub（https://github.com/inclusionAI/DR-Venus）
收藏论文（https://huggingface.co/login?next=%2Fpapers%2F2604.19859）

在智能体中阅读本文：

hf papers read 2604.19859

CLI 不是最新版？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

引用本文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

引用本文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.19859 即可自动关联。

DR-Venus：仅用1万开源数据打造边缘级前沿深度研究智能体

论文页面 - DR-Venus：仅用 1 万条开放数据打造边缘级前沿深度研究智能体

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

收录本文的合集 1

相似文章

@Ex0byt: 一个必须收藏的.. 小但厉害的团队, 4个H100节点, 开源三阶段训练方案, 在8k合成评分任务上训练, fu…

S1-DeepResearch：超越搜索，迈向真实世界的长周期研究代理

@KaiZhang_CS: 看看由 @jianxie_ 训练的最佳开源搜索代理之一！！很高兴看到早期经验方法在……

Mind DeepResearch 技术报告

研究人员使用32块H100 GPU训练了一个Deep Research智能体，并开源了所有内容

提交意见反馈