本文提出了一种热力学智能度量,将智能定义为让罕见但有效的未来更有可能出现的能力。它引入了一个名为“罕见有效提升”的度量,用于量化系统相较于被动基线,产生罕见但可接受结果的频率提高了多少。
本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况,发现模型通常无法区分被篡改的输出和故意的输出,其有限的识别能力源自正常的拒绝行为,而非真正的自我意识。
ActiveGraph宣布了两篇关于代理记忆(LongMemEval)和自我改进机制的新论文,并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。
麻省理工学院的工程师发现,水稻种子在接触到下雨的声波振动时,发芽速度会加快30%~40%。这是植物种子能够感知声音并将其作为优化生长深度线索的首个直接证据。
麻省理工学院的研究人员开发了一种带有超声波贴片的手环,能够对手腕肌肉和肌腱进行成像,并利用人工智能将这些图像转化为手部动作,从而无线控制一只高灵巧度的机械手。
麻省理工学院硬度小组的研究证明,超级马里奥关卡可能无法判定,意味着没有任何计算机程序总能确定马里奥能否到达城堡,将超级马里奥置于最难复杂度类别中。
本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。
本技术报告介绍了Ling-2.6和Ring-2.6,这是一个万亿参数模型系列,旨在实现高效和即时的智能体智能,具有架构升级(如混合线性注意力)和专门的训练方法(包括KPop强化学习)。所有检查点均开源。
本文研究指令调优LLMs(特别是Gemma-3-12B)中的一个对齐漏洞,通过展示预令牌隐藏状态偏移可以作为对齐策略遍历向量,从而可能绕过安全措施。
F3 是一种下一代开源数据文件格式,通过嵌入 WebAssembly 解码器实现互操作性和可扩展性,解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
Lift4D是一个测试时优化框架,能够从单目野外视频中重建动态物体的完整4D几何、外观和形变,在具有遮挡和非刚性运动的挑战性序列上优于先前方法。
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
Nabla Bio发布了JAM-2,这是一个用于零样本药物设计的模型,实现了原子精度、计算设计的多特异性抗体以及双变异KRAS多特异性抗体,具有高效力和选择性,并通过冷冻电镜和湿实验室实验进行了验证。