research-agents

#research-agents

@k_dense_ai: 推出Science Superpowers — 一种面向AI研究代理的完整计算科学方法论。它让你的代…

X AI KOLs Timeline ↗ · 5天前缓存

Science Superpowers是一种开源的、面向AI研究代理的计算科学方法论，强制预注册和可重复工作流，以防止p-hacking和HARKing。

0 人收藏 0 人点赞

#research-agents

arXiv cs.AI ↗ · 2026-05-27 缓存

ScientistOne 引入了 Chain-of-Evidence，这是一个面向自主研究代理的可验证性框架，确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证，并在 75 篇论文中达到了最高的方法-代码对齐度，同时在五个前沿研究任务上达到或超过了人类专家水平。

0 人收藏 0 人点赞

#research-agents

X AI KOLs Timeline ↗ · 2026-05-25 缓存

Onyx开源深度研究系统通过从其编排代理中移除搜索权限，迫使其将查询分解为聚焦的研究线程，从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答，性能优于OpenAI、Anthropic和Google的专有解决方案。

0 人收藏 0 人点赞

#research-agents

Reddit r/AI_Agents ↗ · 2026-05-24

NineLayer，一个基于MCP的编码和研究代理搜索引擎，已将延迟从40秒降低到1.5秒，目前正在寻求用户意见，以确定优先进行哪些平台集成。

0 人收藏 0 人点赞

#research-agents

arXiv cs.CL ↗ · 2026-05-20 缓存

本文介绍了 REFLECT，这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明，当前的 LLM 评判者仍然不可靠，在推理、工具使用和报告质量失败方面的整体准确率低于 55%。

0 人收藏 0 人点赞