scientific-misinformation

标签

Cards List
#scientific-misinformation

PseudoBench:衡量智能自动研究如何助长伪科学

arXiv cs.AI · 17小时前 缓存

PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈