标签
一个小团队在学术预算下,仅使用32块H100和8K个合成样本,训练了一个前沿级别的深度研究智能体,并完全公开了从2B到35B模型的权重、代码和论文,这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。
Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent,使用 8K 合成样本和强化学习,并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。