标签
ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。
本文提出了一种细粒度的Concept Bottleneck Model框架,将每个概念锚定在局部视觉证据上,从而能够直接验证概念的正确性,并提高医学成像任务的透明度。
OpenAI 发布了一份报告,介绍了提升 AI 开发可验证性的机制,说明了利益相关者如何验证组织关于 AI 系统属性和安全实践的声明。
安德烈·卡帕斯讨论了2024年12月LLM达到新可靠性水平的转变,提出了'vibe coding'用于提升下限,'agentic engineering'用于提升上限,并认为可验证性是AI参差不齐能力的关键。