evidence-decoupling

标签

Cards List
#evidence-decoupling

ForeSci:评估LLM代理的前瞻性AI研究判断

arXiv cs.AI · 昨天 缓存

介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈