@sydneyrunkle: we just shipped support for rubrics in deepagents give your agent a clear definition of what "done" looks like, and for…
摘要
Sydney Runkle announced support for rubrics in deepagents, allowing agents to define a clear definition of done and loop until the goal is complete.
查看缓存全文
缓存时间: 2026/06/09 10:45
we just shipped support for rubrics in deepagents ✅
give your agent a clear definition of what “done” looks like, and force it to run in a loop until said goal is complete
this is similar to /goal in claude code, but works for any agent (not just a coding agent) https://t.co/FMjBubuf4h
相似文章
@sydneyrunkle: https://x.com/sydneyrunkle/status/2071629451712983319
Deep Agents 引入了动态子代理,它们通过代码脚本进行程序化编排,而不是使用工具调用,从而实现了可靠的扩展和复杂的工作流程。该功能集成了 QuickJS 代码解释器以实现轻量级执行。
Co-ReAct:将评分标准作为 ReAct 代理的步骤级协作工具
Co-ReAct 引入了一种基于评分标准的动作选择框架,在推理过程中将评分标准作为 ReAct 代理的步骤级指导,提高了轨迹质量,并在 DeepResearchBench 和 SQA-CS-V2 上超越了基线模型。
DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理
本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。
@sydneyrunkle: 人们想要构建智能体,并且希望它简单易用。更重要的是,你的智能体应该易于改进……
人们想要轻松构建智能体,并使其随时间改进;自动化“爬山”循环虽然困难,但投资回报率很高。
RUBAS:基于评分标准的强化学习智能体安全框架
RUBAS 是一个面向智能体安全的评分标准强化学习框架,将 LLM 智能体行为分解为四个维度——工具使用安全性、参数安全性、响应安全性和有用性——在完整轨迹上提供细粒度奖励。实验表明,RUBAS 在标准对齐基线基础上提升了安全性,同时减少了工具相关的幻觉现象,并保持了具有竞争力的实用性。