标签
Google DeepMind 已开源 Science Skills,这是一套针对基因组学、结构生物学和化学信息学等科研任务的智能体技能集合,旨在以科学依据和更高的令牌效率加速智能体工作流程。
前DeepMind研究人员为Inherent筹集5000万美元,打造名为Faraday的平台,利用自我改进的AI来判断哪些科学问题值得探究,旨在实现超越人类能力的发现。
本文认为,尽管AI在模式识别和假设生成方面表现出色,但科学和经济的进步需要与现实世界的接地互动以及制度执行,强调了人机协作的必要性。
EvoSci提出了一种受生物启发的多智能体框架,将进化算法与知识图谱建模相结合,以迭代生成、评估和完善研究想法,在同行评审评估中取得了最佳性能。
LLM-AutoSciLab是一个闭环框架,利用LLM迭代生成假设、选择信息量大的实验并优化机制,在物理和生物学基准测试上相比之前的静态方法实现了更高的准确性和样本效率。
本文介绍了Multi-Persona Debate System(MPDS),这是一个基于文献的框架,利用大语言模型、角色归纳和结构化多智能体辩论来自动生成科学假设。在电池材料研究中的评估表明,该框架提高了假设质量并实现了跨视角整合。
介绍了奇点之门,一个测试前沿AI模型是否能预测其训练截止日期后发表的范式转变科学发现的基准。当前最高得分为17.75%的部分分数,完全正确率为0%。
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。
一篇新的预印本提出了'科学的外星空间'这一概念——即那些与文献一致但当前科研社区在认知上无法触及的研究方向——并提出了一种方法,利用LLM论文中的思想原子来采样这类方向,结果显示该方法可以在不牺牲一致性的情况下探索3.5至7倍更广泛的思想空间。
一篇论文证明,所有初等函数(如sin、exp、log、sqrt)都可以由一个二元运算符eml(x,y)=exp(x)-ln(y)生成,类似于NAND门统一数字逻辑的方式。这可以通过为连续数学提供一个单一的可训练节点来简化AI架构。
本文探讨了通过比较成对想法来训练语言模型预测研究想法实证成功的方法。利用来自PapersWithCode的11,488个想法对数据集,作者表明微调(SFT)将准确率提升至77.1%,超越了GPT-5,而使用可验证奖励的强化学习达到了71.35%的准确率,并具有可解释的推理过程。
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。
介绍 ArtifactLinker,这是一个将 HuggingFace 建模为工件图,并利用 GNN 和 LLM 代理自动发现最先进模型和研究见解的框架。
Google 宣布了经验研究辅助工具(ERA),这是一款使用 Gemini 编写和优化科学代码的 AI 工具。该工具已在《自然》上发表,并作为 Gemini for Science 的一部分推出,旨在帮助全球科学家加速计算发现。
该论文提出了一种可扩展的监督微调方法,用于训练语言模型跨学科提出科研假设,已被ICML 2026接收,代码已开源。
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
本文介绍了一个案例研究,使用大语言模型驱动的树搜索算法(ERA)结合编码代理(AntiGravity)自主生成高效三维光伏结构,克服了中纬度地区平板太阳能电池板的局限性。工作流程包括迭代修补以消除奖励黑客行为,并在各种约束条件下发现改进的设计。
SMCEvolve 提出了一种原则性框架,用于 LLM 驱动的程序演化,通过将其重新表述为使用序贯蒙特卡洛从奖励倾斜分布中采样。它提供了收敛保证,并在多个科学发现基准测试中优于现有方法。
本文提出了一种基于模型上下文协议(MCP)的自动驾驶实验室编排器NIMO Controller,该编排器通过可视化编程界面和基于MCP的工具发现,为人类用户和AI智能体提供了统一接口。
研究人员在1945年三位一体核试验的trinitite玻璃中发现了一种自发形成的新型笼形化合物,表明极端条件可以创造出具有潜在技术应用的新型材料。