research-agents

标签

Cards List
#research-agents

@k_dense_ai: 推出Science Superpowers — 一种面向AI研究代理的完整计算科学方法论。它让你的代…

X AI KOLs Timeline · 5天前 缓存

Science Superpowers是一种开源的、面向AI研究代理的计算科学方法论,强制预注册和可重复工作流,以防止p-hacking和HARKing。

0 人收藏 0 人点赞
#research-agents

ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI · 2026-05-27 缓存

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。

0 人收藏 0 人点赞
#research-agents

@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……

X AI KOLs Timeline · 2026-05-25 缓存

Onyx开源深度研究系统通过从其编排代理中移除搜索权限,迫使其将查询分解为聚焦的研究线程,从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答,性能优于OpenAI、Anthropic和Google的专有解决方案。

0 人收藏 0 人点赞
#research-agents

产品集成

Reddit r/AI_Agents · 2026-05-24

NineLayer,一个基于MCP的编码和研究代理搜索引擎,已将延迟从40秒降低到1.5秒,目前正在寻求用户意见,以确定优先进行哪些平台集成。

0 人收藏 0 人点赞
#research-agents

是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?

arXiv cs.CL · 2026-05-20 缓存

本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈