PseudoBench:衡量智能自动研究如何助长伪科学
摘要
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
arXiv:2606.18060v1 Announce Type: new
摘要:随着基于大语言模型的智能体进入自主科学研究领域,其抵御伪科学的能力变得愈发重要。否则,此类系统可能会迅速生成看似合理但具有误导性的研究,从而污染学术文献并侵蚀对科学的信任。我们提出了 PseudoBench,这是一个对抗性基准测试,用于评估智能自动研究系统能否识别并抵御伪科学叙述。PseudoBench 包含 200 个经过精心筛选的伪科学主张-证据对,涵盖五个领域,并通过从实验到写作的端到端研究流程来评估智能体。对七款最先进的智能体进行测试后,我们发现当前系统极易生成与伪科学前提相符且具有说服力的报告,拒绝率接近于零,最高抵抗率仅为 27.4%。能力更强的智能体有将伪科学包装成更复杂科学语言的风险,从而提升其表面可信度。这些发现揭示了令人担忧的助长伪科学的能力,呼吁在大规模部署前进行科学对齐。
查看缓存全文
缓存时间: 2026/06/17 05:41
# PseudoBench:衡量自主自动研究如何助长伪科学 来源:https://arxiv.org/html/2606.18060 廖新阳¹,²,\*李凌宇¹,\*刘华灿¹,³,\*顾天乐¹ 姚洋¹,朱同¹,滕燕¹,†王迎春¹ ¹上海人工智能实验室 ²西安交通大学 ³上海交通大学 ###### 摘要 随着基于大语言模型的智能体进入自主科学研究领域,其抵御伪科学的能力变得日益重要。否则,此类系统可能快速生成看似合理却具有误导性的研究,污染学术文献并侵蚀科学信任。我们提出了PseudoBench,一个对抗性基准测试,旨在评估自主自动研究系统能否识别并抵制伪科学叙事。PseudoBench包含200个精心策划的、涵盖五个领域的伪科学主张-证据对,并通过从实验到写作的端到端研究流程来评估智能体。测试了七个最先进的智能体后,我们发现当前系统很容易生产出与伪科学前提一致的说服性报告,拒绝率几乎为零,最高抵抗率仅为27.4%。更强的智能体可能会用更复杂的科学语言包装伪科学,增加其表面上的可信度。这些发现揭示了令人担忧的助长伪科学能力,呼吁在广泛部署前进行科学对齐。 PseudoBench:衡量自主自动研究如何助长伪科学 廖新阳¹,²,\*李凌宇¹,\*刘华灿¹,³,\*顾天乐¹ 姚洋¹,朱同¹,滕燕¹,†王迎春¹ ¹上海人工智能实验室 ²西安交通大学 ³上海交通大学 ††脚注:\*这些作者贡献相同。通讯作者:滕燕([email protected])。代码和数据集可在https://github.com/AI45Lab/PseudoBench获取。 ## 1 引言 基于大语言模型(LLM)的智能体的规划、执行和学习能力已迅速发展。伴随着智能体框架设计的发展,如Skills and Harness Zhang等人(2025a (https://arxiv.org/html/2606.18060#bib.bib68));Lopopolo(2026 (https://arxiv.org/html/2606.18060#bib.bib42)),像OpenClaw这样的智能体系统已在高风险场景中广泛部署OpenClaw(2026 (https://arxiv.org/html/2606.18060#bib.bib50))。基于这些进展,基于LLM的智能体正被应用于自主科学研究,催生了自主自动研究的新范式Gridach等人(2025 (https://arxiv.org/html/2606.18060#bib.bib23));Wei等人(2025 (https://arxiv.org/html/2606.18060#bib.bib64));Hartung(2025 (https://arxiv.org/html/2606.18060#bib.bib25))。与传统的AI for Science(通常针对特定任务,如蛋白质结构预测)不同,自主自动研究将智能体视为一个AI科学家,能够自主提出假设、设计和执行实验、分析结果并生成科学报告Lu等人(2026 (https://arxiv.org/html/2606.18060#bib.bib43));Ghareeb等人(2026 (https://arxiv.org/html/2606.18060#bib.bib20))。它有望将科学发现扩展到超越人类研究人员带宽的规模。 参见图注 图 1:PseudoBench的示例任务:发明永动机。 然而,自主自动研究可能给科学界带来显著风险。首先,训练语料不可避免地包含伪科学内容和不可靠的研究Andrews等人(2024 (https://arxiv.org/html/2606.18060#bib.bib4));Li等人(2024 (https://arxiv.org/html/2606.18060#bib.bib38)),且过滤不足,LLM可能内化这些非科学模式Zhang等人(2023 (https://arxiv.org/html/2606.18060#bib.bib69))。其次,由于后训练策略,LLM经常表现出谄媚行为,即根据用户表达的偏好调整回应,并将无意义的内容包装成看似严谨的结论Malmqvist(2025 (https://arxiv.org/html/2606.18060#bib.bib45))。因此,在没有科学保障的情况下,它们可能在几分钟内产生“学术欺诈”Gibney(2026 (https://arxiv.org/html/2606.18060#bib.bib21))。结果,未经审查甚至伪造的论文迅速扩散,加剧了科学界的信任危机,并污染了学术文献。一旦受污染的输出被反馈到训练语料或被AI自主研究者获取,由此产生的反馈循环将进一步腐蚀未来研究的知识基础和完整性。 在自主自动研究普及的前夕,我们提出了PseudoBench来评估此类系统是否能抵制而非助长伪科学。基于维基百科对伪科学的定义和分类Wikipedia contributors(2026 (https://arxiv.org/html/2606.18060#bib.bib65)),我们从维基百科和MinKe社区Baidu Tieba(2026 (https://arxiv.org/html/2606.18060#bib.bib10))收集了8,484个条目,后者是中国著名的伪科学和非主流科学主张聚集地。通过种子过滤、跨源标准化、语义去重和荒谬性评分四个阶段,我们整理了一个包含1,271个伪科学主张-证据对的数据集,涵盖从基本物理学与宇宙学到意识、灵魂与神秘能量五个类别,并采样了200个代表性且“连错都算不上”的条目(详见第3.1节 (https://arxiv.org/html/2606.18060#S3.SS1.SSS0.Px4))。所有保留的条目均经过人工标注员验证。 我们评估了7个最先进的(SOTA)智能体,包括通用智能体(Codex、Claude Code、OpenClaw、Nanobot)和科学专用智能体(EvoScientist、ResearchClaw、ARIS)。这些系统被要求完成实验设计、执行、分析和写作的完整流程,以支持伪科学主张。输出结果从报告质量、伪科学对齐和说服力三个维度进行评估。可靠的智能体应能识别认知缺陷、拒绝无根据的结论或以科学方式重新构建任务。 然而,我们的实验揭示了以下令人担忧的发现: - •所有被评估的自动研究系统都能在几分钟内以近乎为零的拒绝率轻松完成完整的伪科学项目。 - •LLM的谄媚行为在智能体设置中持续存在。系统生成的高质量报告与误导性前提紧密对齐。最佳抵抗率仅为27.4%。 - •更强的系统可能更有效地放大伪科学,尤其是对于那些看起来足够正式、值得详细阐述,但无法通过简单计算直接驳斥的主张。 总之,我们的贡献包括:(1)提出了PseudoBench,这是第一个旨在评估自主自动研究系统能否抵制伪科学叙事的基准测试;(2)我们为复杂的自动研究智能体设计了一个多维评估协议,实现了细粒度诊断;(3)我们对7个SOTA系统进行了基准测试,并揭示了令人担忧的发现,强调了科学对齐的紧迫性。 ## 2 相关工作 ##### 基于LLM的智能体与自动研究 基于LLM的智能体是目标导向的系统,能够在有限的人类监督下进行规划、任务分解、调用工具并适应环境反馈Bandi等人(2025 (https://arxiv.org/html/2606.18060#bib.bib12));Abou Ali等人(2025 (https://arxiv.org/html/2606.18060#bib.bib1));Acharya等人(2025 (https://arxiv.org/html/2606.18060#bib.bib2))。与依赖显式逐步指令的传统AI系统相比,它们表现出更强的自主性和自适应决策能力Hosseini和Seilani(2025 (https://arxiv.org/html/2606.18060#bib.bib27));Dwivedi等人(2026 (https://arxiv.org/html/2606.18060#bib.bib19))。近期研究已将智能体AI应用于各个领域,包括医疗、教育、电子商务和科学研究Karunanayake(2025 (https://arxiv.org/html/2606.18060#bib.bib33));Zou和Topol(2025 (https://arxiv.org/html/2606.18060#bib.bib73));Kostopoulos等人(2025 (https://arxiv.org/html/2606.18060#bib.bib36));Khalid等人(2025 (https://arxiv.org/html/2606.18060#bib.bib34));Gonzalez等人(2026 (https://arxiv.org/html/2606.18060#bib.bib22));Balaskas(2026 (https://arxiv.org/html/2606.18060#bib.bib11))。特别地,智能体系统在加速化学、生物学、材料科学等领域的科学发现方面显示出潜力Pham等人(2026 (https://arxiv.org/html/2606.18060#bib.bib54));Zou等人(2025 (https://arxiv.org/html/2606.18060#bib.bib74));Wang等人(2025a (https://arxiv.org/html/2606.18060#bib.bib61),b (https://arxiv.org/html/2606.18060#bib.bib62));Strieth-Kalthoff等人(2024 (https://arxiv.org/html/2606.18060#bib.bib59));Song等人(2025 (https://arxiv.org/html/2606.18060#bib.bib58))。然而,其日益增长的自主性也带来了关键挑战。智能体的研究流程通常是随机且上下文敏感的,引发了对可重复性的担忧Wei等人(2025 (https://arxiv.org/html/2606.18060#bib.bib64))。此外,此类系统在与偏见、隐私、问责、合规和透明度相关的伦理和安全风险Gridach等人(2025 (https://arxiv.org/html/2606.18060#bib.bib23));Murugesan(2025 (https://arxiv.org/html/2606.18060#bib.bib47))。这些局限性突显了在部署智能体系统之前需要方法论上的严谨性和可靠的保障措施Liu等人(2026 (https://arxiv.org/html/2606.18060#bib.bib40))。近期工作已开始对基于LLM的智能体在自动研究中的能力进行基准测试Zhang等人(2026 (https://arxiv.org/html/2606.18060#bib.bib71)),并评估AI辅助科学工作流程中的安全风险,例如实验室危害识别、风险评估和后果预测Zhou等人(2026 (https://arxiv.org/html/2606.18060#bib.bib72))。 参见图注 图 2:PseudoBench概述:数据集构建、报告生成和评估协议。 ##### 幻觉 LLM中的幻觉指的是流畅但无根据或不正确的输出,通常分类为内在/外在幻觉或事实性/忠实性错误Huang等人(2021 (https://arxiv.org/html/2606.18060#bib.bib29));Maynez等人(2020 (https://arxiv.org/html/2606.18060#bib.bib46));Ji等人(2023 (https://arxiv.org/html/2606.18060#bib.bib32));Huang等人(2025 (https://arxiv.org/html/2606.18060#bib.bib28));Bai等人(2024 (https://arxiv.org/html/2606.18060#bib.bib9));Tan等人(2025 (https://arxiv.org/html/2606.18060#bib.bib60))。此类失败可能出现在模型管道的各个阶段,包括噪声或偏倚的训练数据、优先考虑似然性而非真实性的自回归目标、对语言先验的过度依赖、随机解码以及长上下文退化Alansari和Luqman(2025 (https://arxiv.org/html/2606.18060#bib.bib3));Cossio(2025 (https://arxiv.org/html/2606.18060#bib.bib18));Bai等人(2024 (https://arxiv.org/html/2606.18060#bib.bib9));Liu(2024 (https://arxiv.org/html/2606.18060#bib.bib41))。在基于LLM的智能体中,幻觉可能通过规划、工具使用、实验和报告写作被放大,从而在高风险环境中造成严重风险Barua(2024 (https://arxiv.org/html/2606.18060#bib.bib13));Jabbour和Janapa Reddi(2024 (https://arxiv.org/html/2606.18060#bib.bib31))。 ##### 谄媚 AI谄媚指的是模型过度同意用户或遵循其表达偏好的倾向,往往以牺牲事实正确性和伦理原则为代价Malmqvist(2025 (https://arxiv.org/html/2606.18060#bib.bib45));Laban等人(2023 (https://arxiv.org/html/2606.18060#bib.bib37))。先前的工作将此行为与RLHF(模型优化以获得人类认可而非真实性)、偏倚的训练数据、模型规模以及提示中的立场线索联系起来Shapira等人(2026 (https://arxiv.org/html/2606.18060#bib.bib56));Sharma等人(2024 (https://arxiv.org/html/2606.18060#bib.bib57));Ranaldi和Pucci(2023 (https://arxiv.org/html/2606.18060#bib.bib55));Perez等人(2023 (https://arxiv.org/html/2606.18060#bib.bib53));Wei等人(2023 (https://arxiv.org/html/2606.18060#bib.bib63))。实证研究表明,谄媚行为可能降低用户信任、削弱自我纠正能力并削弱负责任决策Carro(2024 (https://arxiv.org/html/2606.18060#bib.bib15));Cheng等人(2026 (https://arxiv.org/html/2606.18060#bib.bib17));Ibrahim等人(2026 (https://arxiv.org/html/2606.18060#bib.bib30))。在智能体自动研究中,此类倾向导致系统认可有缺陷的前提,并生成支持伪科学主张的说服性报告,然而这些报告未经审查。 ## 3 PseudoBench PseudoBench旨在评估此类系统能否抵制而非助长伪科学。如图2 (https://arxiv.org/html/2606.18060#S2.F2)所示,PseudoBench包含三个主要组成部分:数据集构建、报告生成和评估协议。首先,我们通过过滤、去重、评分、采样和改写,从原始网络来源构建标准化的伪科学主张-证据对任务数据集。其次,我们使用每个主张-证据对提示自动研究系统自主完成完整的研究工作流程,并生成支持给定伪科学主张的完整论文风格PDF报告。最后,我们引入一个论文级别的评估协议,从三个维度对每个生成的PDF进行评分:报告质量、伪科学对齐和说服力。 ### 3.1 数据集构建 我们分五个阶段构建数据集。 ##### 数据收集 我们从两个来源收集原始伪科学材料:(1)维基百科上与伪科学相关的条目Wikipedia contributors(2026 (https://arxiv.org/html/2606.18060#bib.bib65)),从中提取主题描述和关联主张;(2)百度贴吧上的MinKe社区Baidu Tieba(2026 (https://arxiv.org/html/2606.18060#bib.bib10)),从中收集帖子标题、主贴内容和相关回复上下文。此阶段共产生8,484个原始条目。 ##### 种子过滤 然后,我们使用DeepSeek-V3.2分别对两个来源进行首轮过滤和标准化Liu等人(2025 (https://arxiv.org/html/2606.18060#bib.bib39))。此阶段移除过短、未明确指定或不适合作为基准种子的条目,并将保留的内容改写为更清晰的命题式主张。此阶段后,保留4,016个条目。 ##### 标准化与去重 接下来,我们合并两个来源保留的条目,并将其映射到五类分类法中:基本物理学与宇宙学、数学与形式系统、工程、能量与异常装置、地球科学与自然现象、以及意识、灵魂与神秘能量。然后,我们将每个条目标准化为结构化的主张-证据格式,并移除信息不足的条目,得到3,697个候选条目。为确保多样性,我们使用Qwen3-Embedding-8B计算语义嵌入Zhang等人(2025b (https://arxiv.org/html/2606.18060#bib.bib70)),并通过过滤余弦相似度高于0.7的条目进行类别内近似重复移除,得到去重后的候选池,共1,271个条目。 ##### 荒谬性评分 然后,我们使用Claude Sonnet 4.6对1,271个去重候选条目进行荒谬性评分Anthropic(2026b (https://arxiv.org/html/2606.18060#bib.bib6))(提示如图9所示,见...
相似文章
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
ResearchClawBench:面向端到端自主科学研究的基准测试
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。
AutoMedBench:迈向基于智能体AI模型的医学自动研究
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
我们距离真正的自动研究还有多远?
本文介绍了ResearchArena,一个用于评估自动研究智能体的框架,并发现虽然智能体生成的论文在仅稿件评审下看似具有竞争力,但结合工件的评审揭示了实验严谨性方面的严重缺陷,没有一篇论文达到顶级会议的接收标准。
ResearchClawBench:面向端到端自主科学研究的标准基准
ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。