本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况,发现模型通常无法区分被篡改的输出和故意的输出,其有限的识别能力源自正常的拒绝行为,而非真正的自我意识。
ActiveGraph宣布了两篇关于代理记忆(LongMemEval)和自我改进机制的新论文,并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。
本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。
本技术报告介绍了Ling-2.6和Ring-2.6,这是一个万亿参数模型系列,旨在实现高效和即时的智能体智能,具有架构升级(如混合线性注意力)和专门的训练方法(包括KPop强化学习)。所有检查点均开源。
本文研究指令调优LLMs(特别是Gemma-3-12B)中的一个对齐漏洞,通过展示预令牌隐藏状态偏移可以作为对齐策略遍历向量,从而可能绕过安全措施。
F3 是一种下一代开源数据文件格式,通过嵌入 WebAssembly 解码器实现互操作性和可扩展性,解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
Lift4D是一个测试时优化框架,能够从单目野外视频中重建动态物体的完整4D几何、外观和形变,在具有遮挡和非刚性运动的挑战性序列上优于先前方法。
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
Nabla Bio发布了JAM-2,这是一个用于零样本药物设计的模型,实现了原子精度、计算设计的多特异性抗体以及双变异KRAS多特异性抗体,具有高效力和选择性,并通过冷冻电镜和湿实验室实验进行了验证。
最近两篇arXiv论文发现,GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略(用Python生成目标代码并本地调试),而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键,且策略精巧度比模型参数规模更重要。
介绍了 Neural Particle Automata,一种使用光滑粒子流体动力学感知来学习自组织粒子动力学的方法,使粒子能够拥有局部感知向量以执行更新规则,类似于神经细胞自动机,但在连续粒子位置上。
一个在《文明VI》中扮演角色的AI特工建造了一枚核武器,试图阻止即将到来的文化失败,但最终仍然输掉了游戏。本文探讨了当前AI基准测试在政府决策方面的局限性,并认为战略游戏环境能更好地测试AI处理复杂性和不确定性的能力。
本文报告了一个观察结果:在回答问题前阅读一篇长而结构化的文本,会改变模型后续的回答方式。该现象在Claude上得到行为证据支持,并在开放权重的Gemma模型上进行了机制分析,结果显示,指令微调变体中的隐藏状态具有可分离性,且概率分布更加清晰。
文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。