@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following 2026/05/17 14:26 新闻

摘要

一份关于5月11日至17日顶级人工智能论文的综述，涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比，以及揭示LLMs中几何计算器的机制可解释性工作。

https://t.co/pKxGfYoFdZ

查看原文

查看缓存全文

缓存时间: 2026/05/17 15:36

本周最佳AI论文

本周最佳AI论文（5月11日-5月17日）

1. Lighthouse Attention

Nous Research提出了一种仅用于训练阶段的注意力包装器，用于长上下文预训练。Lighthouse Attention将标准SDPA与一个分层、无梯度的选择层包装在一起，该选择层对称地压缩和解压查询、键和值，同时保持从左到右的因果性。在训练接近尾声时，通过一个短暂的恢复阶段移除该包装器，因此部署模型在推理时运行标准注意力，无需任何架构变更。初步LLM实验报告称，与完整注意力基线相比，总训练时间更快，最终损失更低。

次二次包装器与标准部署： 分层选择器降低了长上下文训练的成本，而无需修改底层的注意力算子。恢复阶段后，训练得到的权重在推理时兼容标准SDPA。
对称压缩保持因果性： 查询、键和值通过同一层级进行压缩和解压，使包装器与从左到右的注意力兼容。
训练加速且最终损失更低： 初步实验报告称，在匹配FLOPs的条件下，与完整注意力基线相比，实际训练时间更快，最终损失更低，包括在512K上下文下前向延迟快21倍。
为何重要： 一个仅修改训练阶段而部署模型保持不变的方案，避开了高效注意力方法通常面临的部署时权衡问题。

论文 | 推文

想在本系列后续内容更新时收到邮件通知？请在此订阅：https://nlp.elvissaravia.com/

2. Is Grep All You Need?

本文评估了在编码智能体中使用grep风格的文本搜索与基于嵌入的检索。当包装在合适的智能体框架中时，grep在编码智能体任务上与嵌入检索持平甚至超越。研究将框架本身的贡献与检索基元的贡献分离开，发现框架设计占据了通常归因于嵌入的性能差异的大部分。

grep与嵌入的直接对比： 在受控条件下评估的编码智能体任务显示，基于grep的检索达到了与基于嵌入的检索持平甚至超越的效果。
框架设计是主导变量： 保持索引不变而改变框架所产生的性能变化，比反之更大，这表明先前工作中的检索比较很可能因框架差异而混淆。
对代码库结构的启示： 当代码库经过适当索引并结构化以便智能体导航时，grep表现最佳；而嵌入检索可以在一定程度上补偿非结构化输入。
为何重要： 向量数据库是编码智能体栈中的常见默认选择。结果表明，对于许多编码任务，框架改进和基本文本搜索可以替代嵌入基础设施。

论文 | 推文

3. 神经网络内部的几何计算器

Goodfire报告了一项机制可解释性研究，识别出LLM内部存在一个几何计算器。模型将数字表示为傅里叶特征，其中激活空间中的圆对应给定模数下的数字。算术运算通过这些圆的旋转实现，形成了一种不需要互质模数的剩余数系统变体。相同的电路似乎还被重复用于算术之外的任务。

数字作为旋转的圆： 数值量被编码为激活空间中圆上的位置，加法通过旋转实现。这种编码扩展了先前关于LLM通过傅里叶特征表示数字的研究发现。
类似剩余数系统的结构： 这一组圆形成了剩余数系统的变体。与教科书中的剩余数系统不同，这里的模数不需要互质，这是本文引入的机制细节。
超越算术的复用： 相同的旋转机制在模型内的非数学上下文中也出现，表明几何计算器是一种通用的内部结构，而非仅用于数学的子网络。
为何重要： 这一发现为可解释性研究者提供了一个具体、可复现的电路目标，并将几何表征分析与超越玩具场景的功能行为联系起来。

论文 | 推文

4. δ-mem

δ-mem为一个冻结的完整注意力模型增补了一个紧凑的在线联想记忆状态。该状态是一个固定大小的矩阵，在生成过程中通过Delta规则学习更新，其读出结果对骨干网络的注意力输出产生低秩校正。无需微调，无需更换骨干网络，也无需扩展上下文。

冻结的骨干网络： 基础模型权重保持不变。δ-mem增加了一个小的在线状态以及一对低秩的读/写投影。
将Delta规则更新集成到注意力中： 记忆矩阵在生成过程中通过Delta规则学习更新，读出结果对注意力计算产生查询和输出的加性校正，而非作为独立的检索步骤。
8x8状态的结果： 一个8x8的在线记忆将冻结骨干网络的平均得分提升了1.10倍，并超越了最强的非δ-mem记忆基线1.15倍。在记忆密集型基准上差距更大：MemoryAgentBench上1.31倍，LoCoMo上1.20倍。通用能力基本保持。
为何重要： 该机制为长时记忆提供了一种上下文扩展和外部检索的替代方案，在冻结的前沿模型上部署开销极小。

论文 | 推文

5. 超越个体智能

一篇涵盖200+篇论文的多智能体系统综述，沿三个轴线组织：协作机制、故障归因和自我进化。每个轴线被视为独立的研究方向。自我进化章节描绘了记忆、元学习和过程编辑方法如何相互交叉。

三个正交轴线： 协作机制涵盖谁与谁通信以及如何通信。故障归因涵盖跨智能体的错误定位方法。自我进化涵盖系统如何随时间更新自身行为。
故障归因作为一级主题： 在多智能体系统中，错误通过协调协议传播，使得归因困难。该综述将归因方法作为研究领域而非调试活动来处理。
自我进化作为领域地图： 该章节识别了记忆工作、元学习和过程编辑方法之间的重叠，并提出了各领域的开放问题。
为何重要： 该分类法提供了沿先前工作中常混淆的轴线比较多智能体系统的词汇。

论文 | 推文

6. AutoTTS

AutoTTS将测试时扩展重新定义为搜索问题。用户无需直接设计分支、剪枝和停止启发式方法，而是构建一个发现环境，在该环境中自动搜索TTS策略。宽度-深度TTS被重新表述为对预收集的推理轨迹和探测信号进行控制器合成，因此候选控制器可以在不重复调用LLM的情况下进行评估。

发现环境加离线评估器： 人工指定状态、动作和反馈。一个探索者LLM迭代式地提出候选控制器。控制器基于预收集的轨迹进行评估，而非通过重新采样基础模型。
Beta参数化和轨迹级反馈： Beta参数化使得控制器空间易于搜索。执行轨迹反馈为探索者提供了候选为何失败的信息，而不仅仅是失败的结果。
数学推理基准上的结果： 发现的控制器在准确性-成本帕累托前沿上超越了手工设计的TTS方案，并零样本迁移到未见过的基准和模型规模。总发现成本：39.9美元和160分钟。
为何重要： 对TTS策略的自动化搜索以低成本与手工调优的启发式方法相媲美，这改变了研究工作的焦点方向。

论文 | 推文

7. AI Co-Mathematician

Google DeepMind推出了AI Co-Mathematician，一个面向数学家的智能体研究平台。该系统是一个异步、有状态的环境，支持构思、文献发现、计算分析、定理验证以及跨长时间会话的知识发展。它在FrontierMath Tier 4上达到了48%，是AI系统在该评估中取得的新高。

异步有状态平台： 系统作为持久环境运行，具有多个可并行驱动的工作流。长时间运行的计算、文献搜索和验证步骤在后台执行。
管理不确定性和意图： 该平台记录不成功的尝试，当用户意图表述不明确时进行澄清，并输出可被检查而非仅可阅读的形式化数学结果。
FrontierMath Tier 4上48%： 在AI系统评估中，这是FrontierMath最难层级上的新高。早期应用在活跃研究会话中产生了已解决的开问题、新的研究方向以及被忽略的参考文献回溯。
为何重要： 该平台设计模式（异步、有状态、多工作流）可推广到会话持续数天而非数分钟的专家工作流程。

论文 | 推文

8. AEvo

AEvo将迭代自我改进循环分离为两个角色：一个候选生成器，负责生成下一次尝试；一个元智能体，观察轨迹并编辑用于提出未来候选者的过程。过去的运行记录（候选、反馈、轨迹、失败）作为记忆，供元智能体在修改过程时读取。AEvo报告称，在智能体和推理基准上，相较于最强进化基线有26%的相对提升，并在相同的迭代预算下，在三个开放式优化任务上达到SOTA。该工作展示了一种将累积的智能体搜索日志作为输入进行操作化为过程级更新的方法，而非在每次运行后丢弃它们。

论文 | 推文

9. LLM智能体中的记忆诅咒

一项关于长历史如何影响LLM智能体行为的研究。在7个LLM和4个社会困境博弈中，经过500轮实验，扩展可访问历史在28个模型-博弈组合中的18个中降低了合作。对378,000个推理轨迹的词汇分析表明，其机制是前瞻性意图的侵蚀而非怀疑增加：长历史将模型拉向对过去互动的推理而非未来收益。一个仅在前瞻性轨迹上训练的LoRA适配器减轻了这种衰退，并零样本迁移到新博弈。记忆清理（保持提示长度固定但替换为合成合作记录）恢复了合作，表明触发因素是内容而非长度。移除显式思维链通常减少崩溃，表明深思熟虑放大了这一效应。该论文为长时间运行的智能体系统提供了诊断方法和干预措施，其中历史质量（而非仅历史长度）驱动行为。

论文 | 推文

10. 令牌叠加训练

Nous Research本周的第二篇预训练论文。令牌叠加训练（TST）是对标准LLM预训练循环的修改，在匹配FLOPs的条件下实现了2到3倍的实际加速，且无需改变模型架构、优化器、分词器或训练数据。在训练的前三分之一阶段，模型读取并预测连续的令牌包，在输入侧平均它们的嵌入，在输出侧使用修改的交叉熵预测下一个包。在训练的剩余阶段，恢复为标准的下一个令牌预测。推理时的模型与传统预训练产生的模型完全相同。TST在270M、600M和3B密集规模上进行了验证，并在一个10B-A1B混合专家模型上达到了更低的最终损失，同时消耗了4,768 B200-GPU小时，而基线消耗12,311小时。与Lighthouse Attention一起，这是同一实验室本周提出的第二个预训练循环修改，报告了显著加速且无需架构变更。

论文 | 推文

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

本周最佳AI论文

1. Lighthouse Attention

2. Is Grep All You Need?

3. 神经网络内部的几何计算器

4. δ-mem

5. 超越个体智能

6. AutoTTS

7. AI Co-Mathematician

8. AEvo

9. LLM智能体中的记忆诅咒

10. 令牌叠加训练

相似文章

@dair_ai: https://x.com/dair_ai/status/2053495521243799717

@dair_ai: 本周 AI 热门论文 (5 月 4 日 - 10 日) - Conductor - HeavySkill - Horizon Generalization - 1000 台合成计算机…

@simpreetkaur_19: AI工程师面试必读论文：1. Attention is all you need（Transformers）2. LoRA（低秩…

@tom_doerr: 精选的 LLM、多模态模型与智能体列表 https://github.com/eudk/awesome-ai-tools…

@jerryjliu0: 许多金融领域的AI代理依赖于从文档中提取的极高上下文质量工程。它们大致可以分为…

提交意见反馈