标签
本文认为,对于AI系统而言,专业化是不可避免的,其依据来自优化理论、进化生物学、竞争市场和机器学习。文章解读了Goldfeder、Wyder、LeCun和Shwartz-Ziv在2026年发表的一篇论文,挑战了“能力越强则通用性越强”的假设。
谷歌在ICML和STOC会议上部署了一个智能体AI同行评审系统,以30分钟周转时间评审了约1万篇论文。正式论文显示,与零样本提示相比,它多发现了34%的数学错误,为大规模AI自动化科学评审树立了先例。
本文介绍了Agents-K1,一个基于246万篇论文构建的知识图谱系统,通过整合文本、图形、表格和方程式,以及五级引用分类,提升了AI Agent研究。它显著提高了Gemini-3和GPT-5.2等顶级模型在基准测试中的表现,表明优化知识结构比扩大模型规模更有效。
Anthropic 一位资深工程师发表了一篇 11 页的论文,提出构建代理系统的新范式,核心是反馈循环、隔离、验证和记忆,而非更聪明的提示词。
Anthropic 发布了一份11页的论文,题为《Loop Design: The Anthropic Playbook for Agentic Systems》,指出在智能体设计中,独立验证者比提示词更为关键。
对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。
一篇来自Google DeepMind的58页论文,关于构建专精于博弈论的智能体,重点介绍了研究中的关键见解。
OpenAI发布新论文《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》,提出Beneficial Trait RL方法,训练AI的诚实、纠错等核心特质,在医疗领域训练后在广泛OOD测试中性能全面飙升,且能抵抗恶意微调,打破了安全性与能力之间的权衡。
OpenAI发布了一篇开放研究论文,介绍了一种利用去标识化的用户请求模拟模型部署的方法,以便在发布前预测真实世界行为。
作者反思了论文《Self-Revising Discovery Systems for Science》,该论文提出了一种新的智能体架构,使用强类型有向无环图(DAG)、通过Kan扩展进行模式迁移以及一个MDL门控,以区分真正的发现与简单的检索或搜索。
提出FedSPC,一种面向个性化联邦学习的模块化校正方法,仅对共享参数应用控制变量校正,在CIFAR-100和Tiny-ImageNet上提升了多种PFL方法的性能。
Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法,重点指出预训练、中期训练和RL后训练阶段的token分布,并提到Yann LeCun的蛋糕比喻很有先见之明。
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
本文介绍了一个范畴论框架,用于区分自我改进的AI智能体中的真正科学发现与单纯的检索或搜索,利用范畴论来形式化状态转变。作者通过一个蛋白质力学示例展示了该框架:智能体在解决更难的问题时准确率下降,但其理论压缩了更多数据,表明真正的发现。
PaperMentor是一种以人为本的多智能体写作助手,它集成了专家技能库和专门代理,能够在Overleaf上提供可操作的内联注释,在AI研究论文的可用性和相关性方面优于GPT-5.2。
一条推文线程,回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练,特别是针对NVIDIA Blackwell。
作者开源了Sisyphus Academica,这是一个由20多个专业化智能体组成的自协调智能体群,配备新颖性引擎和对抗式评审,用于生成可出版的研究论文,避免幻觉引用和典型的AI文风。
介绍了平衡多模态标签重塑(BMLR),该方法通过重塑标签空间来平衡跨模态的映射难度,从而解决多模态学习中的模态不平衡问题,并在多种架构上提升性能。
本文介绍了一种已发布的AI伴侣架构(研究论文),具有持久状态、内在需求变量和记忆评分,正在寻求投资。该系统名为PHI // DRIFT,包含1.8万行代码和一个实时遥测仪表板。
一篇新论文将AGI重新定义为在限制条件(计算、内存、能源)下的适应能力,并提出了一个“人工科学家基准”,专注于自主发现因果关系,而不是在固定任务上达到人类水平的表现。