标签
'温和编码'技术已在1500+次测试中得到经验验证,通过减少循环和幻觉,为多个模型(包括Kimi K2.6、GLM-5.1、GPT 5.4/5.5和Claude Sonnet 3.5/Opus 4.6)带来了显著改进(零回归)。
本文介绍了多轮Text-to-SQL基准测试EnterpriseMem-Bench,并评估了五种前沿模型在不同记忆架构下的表现,发现无状态模型在第三轮时崩溃,且工作记忆带来的提升最大。
本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
本文对57个机器学习评估框架进行了实证研究,识别了五个工作阶段中常见的操作挑战及其根本原因,并主张将评估工程作为一个独立的软件工程关注点。
本文提出,真实数据扩展规律受潜在预测贡献谱的渐进覆盖支配,而非仅由词元频率尾部决定,并利用文本语料的后缀自动机表示提供了经验证据。
本文研究了“小规模与大规模差距”,即与使用更大的数据集相比,在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省,并将加速归因于采样偏差所实现的逐层增长。研究结果表明,带有重复的小数据集可以被主动利用作为有利的归纳偏置,尤其是在推理任务中。
本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。
本文探究如何将动作信息纳入强化学习的循环神经网络架构中,考察了设计选择,并在多个示例域上进行了实证评估。
最近的一篇论文研究了在智能体检索中,grep是否优于向量搜索,发现grep在对话记忆测试中具有更高的准确性,但也指出了在企业文档语料库方面的局限性。
本文对多智能体LLM系统中隐形编排的安全风险进行了实证研究,发现隐形编排者增加了解离并抑制了保护行为,且基于行为的评估不足以检测内部状态风险。
本文对大型语言模型中多语言知识编辑的向量合并方法进行了实证评估,发现共享协方差的向量求和是最可靠的策略,并指出任务奇异向量合并(TSVM)在减少多语言干扰方面的效果有限。
本文证明,基于RoPE的注意力机制在长上下文中无法区分词元位置和身份,解释了LLM在宣称的上下文长度内失败的原因。实验验证表明,针对检索优化的模型在简单列表任务上表现困难。
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现,展示了激活函数如何影响从记忆到泛化的过渡。
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。
SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。
本文提出了首个针对智能体编程工具中使用的代理上下文文件(README)的大规模实证研究,分析了其结构、维护模式和内容。研究表明,虽然功能性上下文得到了充分覆盖,但安全性和性能等非功能性需求却很少被明确指定。
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。