verifiability

标签

Cards List
#verifiability

ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI · 2026-05-27 缓存

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。

0 人收藏 0 人点赞
#verifiability

迈向细粒度且可验证的Concept Bottleneck Models

arXiv cs.LG · 2026-05-15 缓存

本文提出了一种细粒度的Concept Bottleneck Model框架,将每个概念锚定在局部视觉证据上,从而能够直接验证概念的正确性,并提高医学成像任务的透明度。

0 人收藏 0 人点赞
#verifiability

提升 AI 开发中的可验证性

OpenAI Blog · 2020-04-16 缓存

OpenAI 发布了一份报告,介绍了提升 AI 开发可验证性的机制,说明了利益相关者如何验证组织关于 AI 系统属性和安全实践的声明。

0 人收藏 0 人点赞
#verifiability

安德烈·卡帕斯:从Vibe Coding到Agentic Engineering

YouTube AI Channels · 2026-05-21 缓存

安德烈·卡帕斯讨论了2024年12月LLM达到新可靠性水平的转变,提出了'vibe coding'用于提升下限,'agentic engineering'用于提升上限,并认为可验证性是AI参差不齐能力的关键。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈