标签
提出搭便车假说,认为对话模板标记(chat-template tokens)可能导致大型语言模型(LLMs)中的涌现性失调,并引入了令牌正则化微调(TReFT)来缓解这一问题,同时保持域内学习。
专家警告称,病毒式传播的人形机器人演示往往会误导公众和投资者——那些在演示中展现出惊人能力的机器人,通常无法将这些技能泛化到真实世界的各种不同场景中。来自 Agility Robotics 和 Physical Intelligence 的研究人员着重指出,精心策划的演示与机器人实际能力之间存在巨大差距。
Imaginative Perception Tokens (IPT) 通过外化来自不同视角的中间感知表征,增强了视觉-语言模型的空间推理能力,在视角推理、路径追踪和多视角计数任务上优于传统的基于文本的推理。
引入带资格门控的延迟逐步奖励归因方法,用于多智能体语言模型交互中的强化学习,在 NeurIPS 2025 的 MindGames Arena 基准测试中取得第一名。
本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。
本文利用塞尔维亚双文制作为受控测试平台,探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现,尽管特征集在不同语言间存在显著重叠,但标签通常未能追踪非英语输入中的同一概念,尤其是在代表性较弱的文字中。
GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。
本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。
本文介绍了半监督噪声自适应(SSNA),一种新颖的框架,它利用合成噪声域(例如高斯分布)作为替代源域,以提高半监督学习设置中的泛化能力。所提出的噪声自适应框架(NAF)建立了一个泛化边界,并展示了改进的目标域性能。
本文引入了“初始化记忆”的概念,研究深度网络中随机初始化偏差在训练后保留了多少,表明低学习率的SGD能保留初始化,而Adam系列优化器则消除它,并将其与遗忘动力学联系起来。
本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。
本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。
本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。
本文为物理信息机器学习开发了一种PAC-Bayesian框架,为无界损失提供了高概率泛化保证。它提出了一种多任务视角,联合处理数据保真度、偏微分方程残差和边界条件,并引入了一种自界限学习算法。
本文对自动化提示优化进行了基于因果启发的分析,涵盖多种框架、大语言模型和任务,识别出特定编辑类型(如复杂度增加型、元指令型)根据任务特征具有系统的负面或正面效应,从而解释了泛化失败的原因。
本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。
本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。
一篇批评文章指出,在人类生成的数据上训练LLM限制了它们通过测试时计算发现新颖解决方案的能力,而真正的AGI需要模型能够像AlphaZero那样更广泛地探索假设空间。
本文介绍了滤波后验均值集合(FPMCs),一种用于扩散泛化分析模型的统一框架,整合了现有方法,并通过软松弛和源分布增强展示了改进效果。
本文介绍了ASAM(面向多模态知识编辑的对抗性子空间对齐),该方法通过生成对抗但语义一致的变体,并强制对表示进行低秩对齐,提升了内在多模态知识编辑的泛化性,解决了现有方法泛化能力有限的问题。