@timoreilly: 我大约一个月前写了这篇文章(《AI科学的协作外骨骼》),然后忘记发布了!它是一…
摘要
Tim O'Reilly 讨论了将AI整合到科学出版中的挑战,包括幻觉引用、已撤稿论文的传播以及在受损文献上进行训练,并呼吁调整现有的科学基础设施以用于AI。
查看缓存全文
缓存时间: 2026/05/16 09:17
我大约一个月前写了这篇文章(人工智能科学的协作外骨骼),然后就忘记发布了!这是我基于“代理经济中缺失的机制”这一主题,并将其应用于人工智能用于科学的基础设施。非常想知道真正从事科学工作的研究者们对此有何看法。希望正在开展科学方面工作的人工智能公司也能想到这一点 ;-) https://open.substack.com/pub/asimovaddendum/p/the-collaborative-exoskeleton-of…
人工智能科学的协作外骨骼
来源:https://asimovaddendum.substack.com/p/the-collaborative-exoskeleton-of?triedRedirect=true 人们对于人工智能能够推动科学进步寄予厚望,但不幸的是,人工智能与科学出版之间的碰撞并不顺利。
当一个人工智能编码智能体编写代码时,它在一个丰富的生态系统中运作,包括版本控制、拉取请求、代码审查、CI/CD管道、依赖管理和包注册中心。GitHub并非为人工智能设计,但它却成为了支持人工智能辅助软件开发的基础性基础设施。
科学拥有一套等效的基础设施来处理身份、来源、完整性和可发现性。像 arXiv (https://arxiv.org/)、DOIs (https://www.doi.org/)、CrossRef (https://www.crossref.org/)、Datacite (https://datacite.org/)、ORCID (https://orcid.org/)、OpenAlex (https://openalex.org/)、ROR (http://ror.org/)、Retraction Watch (https://retractionwatch.com/) 和 PubMed (https://pubmed.ncbi.nlm.nih.gov/) 这样的系统,为科学出版乃至现代科学知识提供了一种协作外骨骼。正如 GitHub 已被应用于人工智能开发一样,这套基础设施也需要适应人工智能在科学中的使用。
问题可以分为几类:
幻觉引用。 当人工智能生成或协助撰写科学论文时,它通常会伪造参考文献。一项多模型研究 (https://arxiv.org/abs/2505.18059) 发现,人工智能生成的引用中只有大约四分之一是完全正确的。大约40%是错误的或伪造的。在顶级人工智能会议 NeurIPS 和 ICLR 接受的论文中已发现幻觉引用。GPTZero 的调查发现,NeurIPS 2025 接受的论文中约有 2% (https://gptzero.me/news/neurips/) 包含至少一个伪造的参考文献。同行评审员全部遗漏了。最理解幻觉的人工智能研究人员也成为了受害者,因为便利性压倒了验证。
撤回论文的传播。 人工智能工具正在引用被撤回的论文,却没有标记出来。https://retractionwatch.com/2025/11/19/ai-unreliable-identifying-retracted-research-papers-study/ Retraction Watch 联合创始人 Ivan Oransky 指出,建立一个全面的撤稿数据库是资源密集型的。然而,那些声称支持科学研究的 AI 工具甚至没有集成现有的数据库。一项针对21个聊天机器人的研究 (https://retractionwatch.com/2025/11/19/ai-unreliable-identifying-retracted-research-papers-study/) 发现,平均而言,当被问及时,它们正确识别出被撤回论文的数量不到一半,而且还产生了大量的误报。《麻省理工科技评论》报道 (https://www.technologyreview.com/2025/09/23/1123897/ai-models-are-using-material-from-retracted-scientific-papers/) 称,人工智能聊天机器人依赖被撤回论文中的材料来回答问题,一些工具返回被撤回的文章时根本没有撤稿通知。
在受污染的文献上训练。 在科学语料库上训练的人工智能模型不可避免地吸收了被撤回的、欺诈性的以及由论文工厂生成的内容。2024年至2025年间,撤稿危机急剧加速。最近的一项文献计量分析 (https://www.preprints.org/manuscript/202601.0314) 发现,人工智能驱动的撤稿已从零星异常转变为系统性危机,生成式工具使得论文工厂能够渗透到最高级别的学术索引中。https://retractionwatch.com/2025/02/10/as-springer-nature-journal-clears-ai-papers-one-universitys-retractions-rise-drastically/ 人工智能无法区分里程碑式的论文和论文工厂的产品。如果不与撤稿数据库和质量信号集成,这种污染就会蔓延。
生成“AI 垃圾”论文。 “论文工厂” (https://retractionwatch.com/2025/02/10/as-springer-nature-journal-clears-ai-papers-one-universitys-retractions-rise-drastically/) 以前就是个问题,但人工智能使问题严重得多。在“要么发表,要么灭亡”的世界里,学者有强烈的动机去生成低质量的论文,过度引用自己的作品,并以其他方式向系统中引入噪音。
正如 MIT VRAIX 项目 (https://sites.mit.edu/vraix/) 所述,由于大型语言模型是非确定性的,“相同的提示词可以产生不同的答案,每个答案都表达流畅且自信。这些系统经常在没有可验证来源的情况下陈述内容,引用伪造或不正确的参考文献,模糊了总结与发明之间的界限,并且倾向于统计上受欢迎而非可靠的信息。即使包含了真实的引用,用户通常也无法轻易判断这些参考文献是否相关、可靠,甚至是否支持所提出的主张。”
应对这些问题的工具大多已经存在,但尚未集成到 AI 系统中。新的工具也在开发中。随着 AI 实验室将注意力转向 AI for Science,他们也应该探索未来科学知识共享的基础设施可能是什么样子。这正是本文的主题。

DOIs 和 CrossRef。 每篇合法的学术著作都有(或应该有)一个 DOI (https://www.doi.org/the-identifier/what-is-a-doi/),这是一个由 CrossRef (https://www.crossref.org/) 维护的持久数字标识符。CrossRef 的 REST API (https://www.crossref.org/documentation/retrieve-metadata/rest-api/) 允许你解析一个 DOI 并验证一篇论文是否真实存在,以及其标题、作者、期刊和年份是否正确。这是最基本的幻觉检查,但大多数 AI 系统却没有执行。为什么这种验证没有内置于每个处理科学文献的 AI 系统中呢?DOI 并非万能药。它们已被为了乐趣和利润而被破解过。正如 CrossRef 前技术总监 Geoffrey Bilder 所指出的 (https://www.crossref.org/blog/dois-unambiguously-and-persistently-identify-published-trustworthy-citable-online-scholarly-literature-right/),有些 DOI 指向《南方公园》电影、一篇关于“基于谷歌的外星探测器”的假文章等等。单独来看,它们不能保证什么。它们只是一个标识符。但作为验证它们的基础设施的一部分,它们非常有用。
ORCID。 ORCID (https://orcid.org/) 为研究人员提供持久标识符,将其与出版物、所属机构、资助和同行评审活动关联起来。它有一个 OAuth 2.0 API (https://info.orcid.org/documentation/integration-and-api-faq/)。你可以在几秒钟内验证研究人员的身份并提取他们经过验证的出版物列表。如果一篇 AI 生成的论文声称麻省理工学院的 Smith 博士在《自然》杂志上发表了一篇关于量子计算的论文,你可以通过 ORCID 检查 Smith 博士是否存在,是否隶属于麻省理工学院,以及该论文是否在其记录中。这就是研究人员身份验证,它通过免费 API 以及定期的开放数据快照提供。正如《学术厨房》所指出的 (https://scholarlykitchen.sspnet.org/2025/07/16/better-together-orcid-and-other-researcher-identifiers/),ORCID 与其他持久标识符结合使用时效果最佳。葡萄牙将 ORCID 与国家研究标识符 CIÊNCIA ID (https://www.ciencia-vitae.pt/) 整合,连接了 112,000 个研究人员档案,每年每位研究人员可节省超过 154 小时的录入时间。这就是设计良好的基础设施所能带来的复合回报。
OpenAlex。 作为 Microsoft Academic Graph 的继任者,OpenAlex 现在是一个完全开放的知识图谱,拥有超过 2.71 亿条索引作品,每月服务超过 15 亿次 API 调用 (https://blog.openalex.org/openalex-2025-in-review/)。它整合了来自 CrossRef、PubMed、ORCID、机构知识库和 DataCite 的数据。其 API (https://docs.openalex.org/) 是免费的,并返回丰富的元数据,包括引用网络、作者所属机构和开放获取状态。OpenAlex 最近获得了 Wellcome Trust 350 万美元的资助 (https://blog.openalex.org/openalex-2025-in-review/),用于整合全球研究资助元数据,从而可以追踪从资助者到项目到出版物再到影响力的整个链条。2025 年底推出的 Walden 重写 (https://blog.openalex.org/) 增加了 1.9 亿条新作品,包括来自 DataCite 的数据集和软件以及数以千计的机构知识库。
Retraction Watch 和 Retraction Watch 数据库。 Retraction Watch 是我们拥有的最接近全面记录因欺诈、错误或伦理违规而被撤回的科学论文的数据库。它是科学诚信中心 (https://retractionwatch.com/the-center-for-scientific-integrity/) 的一个项目。许多公司和非营利组织,包括 (https://webofscience.zendesk.com/hc/en-us/articles/37440825293457-February-13-2025-Release-Notes-Retraction-Watch-Database-Integration-in-Web-of-Science-Core-Collection) Zotero (https://www.zotero.org/blog/retracted-item-notifications/) 和 Web of Science (https://webofscience.zendesk.com/hc/en-us/articles/37440825293457-February-13-2025-Release-Notes-Retraction-Watch-Database-Integration-in-Web-of-Science-Core-Collection) 已经集成了 Retraction Watch 数据库,自动从其研究助手中排除被撤回的出版物。一些特定的 AI 工具,如 Consensus (https://consensus.app/),也开始整合来自包括 Retraction Watch 在内的多个来源的撤稿数据 (https://www.technologyreview.com/2025/09/23/1123897/ai-models-are-using-material-from-retracted-scientific-papers/),但这对于任何声称处理科学文献的 AI 系统来说都应该是入门要求。
arXiv。 这个物理学、数学、计算机科学及相关领域的预印本服务器 (http://arxiv.org/) 自 1991 年起运行。它提供了科学工作的结构化、持久、可公开访问的记录。arXiv ID 是可解析的。元数据是机器可读的。对于在这些领域工作的 AI 系统来说,arXiv 是一个权威来源,可以通过查询来验证声明。
考虑一下与软件开发的相似之处。GitHub 为每次提交提供了持久标识。DOI 为学术著作提供了持久标识。GitHub 追踪谁贡献了什么。ORCID 对研究人员也这样做,消除常见名字的歧义,并将他们与整个职业生涯和机构中的全部工作联系起来。GitHub 有依赖关系图。CrossRef、Datacite 和 OpenAlex 维护着引用图,将 2.71 亿篇学术著作与其作者、机构和资助者联系起来。GitHub 有议题追踪器和代码审查。科学界有同行评审、PubPeer (https://pubpeer.com/) 上的发表后评论,以及追踪被撤回论文的 Retraction Watch (https://retractionwatch.com/)。GitHub 和 Gitlab 甚至通过 .cff 文件 (https://docs.github.com/en/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/about-citation-files) 支持软件引用,包括分配 DOI 的能力,因此这两个系统有有意义的重叠。
麻省理工学院的 VRAIX 项目正致力于将这些基础设施整合起来,并使其适应人工智能。它试图解决本文开头描述的问题,方法不是寻找科学论文中常见的人工智能生成迹象,而是将论文和 LLM 生成的内容置于我们所谓的“知识网络”中。正如其创建者所说 (https://sites.mit.edu/vraix/),“VRAIX 的核心问题是:‘这个声明属于什么知识体系,它的行为与该体系一致吗?’“它审视引用图,将引用解析为标准标识符(DOI、PMID、ORCID、ROR ID),将它们解析为真实的元数据,包括合著者和机构的网络、更正和撤稿的历史、历史发表模式以及引用来源与它们声称所支持的声明之间的相关性。
CrossRef 前研究总监 Geoffrey Bilder (https://www.crossref.org/people/geoffrey-bilder/) 向我指出,这套基础设施已被出版业中激烈的竞争对手所采用。关键在于这些基础设施组织的结构和治理。它们遵循开放标准,并遵循一套有助于确保它们不会被捕获或劣化的原则(POSI)。这不仅可以给科学出版商吃定心丸,也可以让 AI 公司放心,他们不是在建立可能被竞争对手收购或捕获的依赖关系。
借用 Danny Ryan 对以太坊基金会“协议之夏”项目 (https://summerofprotocols.com/) 中协议的定义,科学出版代表了“编码行为的分层”,使得整个研究企业能够进行协调。它们是科学的“文明基础设施”。像所有好的基础设施一样,它们变得隐形了。研究人员不会去想 DOI,就像司机不会去想车道标记一样。但移除它们,系统就会崩溃。
它们是公共产品。而 AI 公司大多在忽视它们,甚至更糟,在破坏它们。
目前,AI 与科学基础设施之间的关系几乎完全是索取性的。AI 公司在科学论文上进行训练。他们构建生成和操纵科学文本的产品。他们争夺“AI for Science”的市场。但他们几乎不为使得科学知识变得可靠的基础设施做出任何回报。
这与我在关于 AI 实验室所设想的代理经济的更广泛论点完全一致。价值单向流动。AI 公司消耗科学内容,但不贡献任何回报。
想一想我在“代理经济中缺失的机制” (https://www.oreilly.com/radar/the-missing-mechanisms-of-the-agentic-economy/) 中描述的 YouTube Content ID (https://support.google.com/youtube/answer/2797370?hl=en) 类比。音乐产业对未经授权使用其音乐的首次回应是“下架”。YouTube 的回答是:“不如我们帮你变现吧?”这协调了激励措施,并创造了一个充满活力的创作者经济。
同样的思路也适用于此。问题不仅仅在于“AI 公司如何利用科学基础设施来使他们的产品变得更好?”(尽管他们应该这样做)。问题还应该是:“AI 公司如何帮助这些服务变得更有价值、更可持续、更全面?”

以下是一些具体的可能性。
将验证作为一级功能。 每个生成或编辑科学文本的 AI 系统都应针对 CrossRef (https://www.crossref.org/)、OpenAl…
相似文章
@OpenAI:与OpenAI的@markchen90对话中,陶哲轩思考了一个未来,人工智能减少研究的认知摩擦……
陶哲轩与Mark Chen讨论了人工智能如何改变数学研究,从文献搜索到代码生成,以及调整工作流程的必要性。
@rohanpaul_ai: 来自MIT新论文的自进化AI科学家好主意。尝试让AI科学家意识到当其当前…
本文讨论了一篇新的MIT论文,提出了一种自进化AI科学家的框架,该框架能够识别当前模型的不足并引入新的科学概念,区分了检索、搜索和发现。
@JIACHENLIU8: AI4S 研究现状:自我演进循环、多智能体系统、智能体技能、科学基准等 —— 都是为了提升文献…
本文批评了当前AI for Science(AI4S)研究专注于弥补前沿模型弱点的做法,认为真正的瓶颈在于科学生态系统,而非单个AI科学家的智能。文章呼吁转向从第一性原理构建AI-Native的科学生态系统。
@_ar9av: 连续第6天每天阅读一篇关于AI的arXiv论文并分享真正印象深刻的内容:AutoSci(北京大学)概要:…
一条推文介绍北京大学开发的AutoSci系统,该系统可自动化从文献调研到回复审稿意见的整个研究流程,并在项目间进行自我改进。
@tferriss: 新博客文章已发布!"AI是否已经扼杀了操作指南类非虚构作品?销售趋势、我的个人数据以及这对未来可能意味着什么…"
Tim Ferriss分享了一篇博客文章,分析AI和大语言模型如何颠覆了操作指南类非虚构书籍的销售,并以自己的销售数据作为证据。