pseudo-science

#pseudo-science

PseudoBench：衡量智能自动研究如何助长伪科学

arXiv cs.AI ↗ · 15小时前缓存

PseudoBench 是一个基准测试，用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现，它们极易生成具有说服力的伪科学报告，且拒绝率接近于零，这要求在部署前进行科学对齐。

0 人收藏 0 人点赞