generalization

#generalization

泛化的搭便车假说：解释与缓解涌现性失调

arXiv cs.CL ↗ · 昨天缓存

提出搭便车假说，认为对话模板标记（chat-template tokens）可能导致大型语言模型（LLMs）中的涌现性失调，并引入了令牌正则化微调（TReFT）来缓解这一问题，同时保持域内学习。

0 人收藏 0 人点赞

#generalization

怀疑论者看待网络上疯传的人形机器人视频指南 --- 每隔几个月，就会有一段人形机器人的视频在网上引发轰动。机器人在跑步、跳舞、折叠衣物、搬运箱子，看起来惊人地流畅、自然。评论区里不乏感叹：这就是未来、我们都要失业了。但在你彻底信服之前，不妨先停下来想一想。 --- ## 视频可能存在哪些问题？ ### 1. 这可能是经过大量剪辑的精华片段你看到的30秒视频，背后可能是数小时的拍摄素材。公司的公关团队会精心挑选最顺利的那几次，把磕磕绊绊、跌倒失误的片段统统剪掉。这不是造假，但绝对是一种选择性呈现。 ### 2. 任务可能经过专门设计机器人在视频中完成的任务，往往是为了机器人的能力边界量身定做的。地面平整、光线充足、物体摆放整齐——现实世界可没有这么配合。 ### 3. 可能存在远程遥控或辅助一些机器人演示实际上是由人类操作员远程控制的，或者在某些关键步骤上有人工干预。公司不一定会主动说明这一点。 ### 4. 速度可能经过调整视频有时会加速播放，让动作看起来比实际更流畅、更迅速。仔细观察背景中的元素，往往能发现端倪。 ### 5. 这可能是一次性的演示，而非可靠的重复表现一个机器人在受控环境下完成一次任务，和它能在现实条件下稳定、可靠地重复完成同一任务，是两件完全不同的事。 --- ## 为什么公司要这样做？答案很简单：融资。一段爆款视频可以吸引投资者的目光，提升公司估值，招募顶尖人才，并在竞争激烈的市场中建立品牌认知。这是一门生意，而不只是技术展示。 --- ## 这是否意味着人形机器人没有前途？当然不是。人形机器人领域确实取得了真实的、令人印象深刻的进展。Boston Dynamics、Figure、1X、Agility Robotics 等公司正在推动这一技术走向实用化。AI 与机器人技术的融合也在加速。但现实情况是：我们距离"真正通用"的人形机器人仍有相当长的路要走。 --- ## 作为普通观众，你应该怎么做？ - 追问细节：这段视频是自主完成的，还是遥控操作的？任务是如何设置的？ - 寻找长时间、未剪辑的演示：真正的能力经得起完整记录。 - 关注独立测试：第三方评估往往比官方宣传更可靠。 - 保持好奇，但不要轻易惊叹：技术进步是真实的，但炒作往往走在现实前面。 --- 下次当你看到一段让你目瞪口呆的机器人视频时，先深呼吸一下，然后问问自己：我看到的，究竟是技术本身，还是技术的营销？这两者都值得关注——但你需要知道自己面对的是哪一个。

Ars Technica ↗ · 5天前缓存

专家警告称，病毒式传播的人形机器人演示往往会误导公众和投资者——那些在演示中展现出惊人能力的机器人，通常无法将这些技能泛化到真实世界的各种不同场景中。来自 Agility Robotics 和 Physical Intelligence 的研究人员着重指出，精心策划的演示与机器人实际能力之间存在巨大差距。

0 人收藏 0 人点赞

#generalization

Imaginative Perception Tokens 增强多模态语言模型的空间推理能力

Hugging Face Daily Papers ↗ · 6天前缓存

Imaginative Perception Tokens (IPT) 通过外化来自不同视角的中间感知表征，增强了视觉-语言模型的空间推理能力，在视角推理、路径追踪和多视角计数任务上优于传统的基于文本的推理。

0 人收藏 0 人点赞

#generalization

MindGames Arena 泛化赛道：基于延迟逐步奖励归因的 In2AI 解决方案

arXiv cs.AI ↗ · 2026-06-02 缓存

引入带资格门控的延迟逐步奖励归因方法，用于多智能体语言模型交互中的强化学习，在 NeurIPS 2025 的 MindGames Arena 基准测试中取得第一名。

0 人收藏 0 人点赞

#generalization

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG ↗ · 2026-06-02 缓存

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明，一个双头Transformer可以实现深度优先搜索，并且在深度分阶段课程下，这种机制会自然地从稀疏奖励信号中涌现。

0 人收藏 0 人点赞

#generalization

自动解释标签的泛化程度：跨语言、文字和改写的一项受控研究

arXiv cs.CL ↗ · 2026-06-02 缓存

本文利用塞尔维亚双文制作为受控测试平台，探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现，尽管特征集在不同语言间存在显著重叠，但标签通常未能追踪非英语输入中的同一概念，尤其是在代表性较弱的文字中。

0 人收藏 0 人点赞

#generalization

GraphARC：基于图结构的抽象推理综合基准

arXiv cs.AI ↗ · 2026-06-01 缓存

GraphARC是一个针对图结构数据抽象推理的新基准，将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距，且在大规模实例上性能下降，凸显了扩展挑战。

0 人收藏 0 人点赞

#generalization

大语言模型顺序后训练中的表征坍塌

arXiv cs.LG ↗ · 2026-06-01 缓存

本文研究了大型语言模型在顺序后训练中的表征坍塌现象，表明重复的适应阶段会压缩内部表征，降低可塑性和域外泛化能力。作者提出了轻量级干预措施，在不牺牲行为增益的前提下保留未来的可学习性。

0 人收藏 0 人点赞

#generalization

半监督噪声自适应：从噪声域迁移知识

Hugging Face Daily Papers ↗ · 2026-05-30

本文介绍了半监督噪声自适应（SSNA），一种新颖的框架，它利用合成噪声域（例如高斯分布）作为替代源域，以提高半监督学习设置中的泛化能力。所提出的噪声自适应框架（NAF）建立了一个泛化边界，并展示了改进的目标域性能。

0 人收藏 0 人点赞

#generalization

深度网络会遗忘初始化吗？实际归纳偏置的遗忘时间视角

arXiv cs.LG ↗ · 2026-05-29 缓存

本文引入了“初始化记忆”的概念，研究深度网络中随机初始化偏差在训练后保留了多少，表明低学习率的SGD能保留初始化，而Adam系列优化器则消除它，并将其与遗忘动力学联系起来。

0 人收藏 0 人点赞

#generalization

基于对数对齐比的训练时泛化诊断

arXiv cs.LG ↗ · 2026-05-29 缓存

本文介绍了对数对齐比（LAR），这是一种训练时度量，用于衡量参数-激活对齐度，并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明，LAR能够跟踪从记忆到泛化的转变，并在无需留出数据的情况下标记过拟合。

0 人收藏 0 人点赞

#generalization

嵌入模型如何绑定概念？

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文探讨了CLIP为何在概念绑定上表现不佳，表明虽然CLIP的绑定函数复杂度高，但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数，从而更好地泛化。

0 人收藏 0 人点赞

#generalization

语言模型中跨语言泛化的体外研究

arXiv cs.CL ↗ · 2026-05-27 缓存

本文引入了一个使用两种程序生成语言的体外框架，用于研究语言模型中的跨语言泛化，发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

0 人收藏 0 人点赞

#generalization

物理信息机器学习泛化性的PAC-Bayesian视角

arXiv cs.LG ↗ · 2026-05-27 缓存

本文为物理信息机器学习开发了一种PAC-Bayesian框架，为无界损失提供了高概率泛化保证。它提出了一种多任务视角，联合处理数据保真度、偏微分方程残差和边界条件，并引入了一种自界限学习算法。

0 人收藏 0 人点赞

#generalization

提示优化为何有效，为何有时无效：基于因果启发的编辑级分析

arXiv cs.CL ↗ · 2026-05-27 缓存

本文对自动化提示优化进行了基于因果启发的分析，涵盖多种框架、大语言模型和任务，识别出特定编辑类型（如复杂度增加型、元指令型）根据任务特征具有系统的负面或正面效应，从而解释了泛化失败的原因。

0 人收藏 0 人点赞

#generalization

从隐私到泛化：DP-SGD的线性最大信息界

arXiv cs.LG ↗ · 2026-05-27 缓存

本文证明了DP-SGD近似最大信息的一个有限样本界，该界最多与数据集大小成线性关系，从而为差分隐私训练的模型带来了PAC-Bayes泛化界。

0 人收藏 0 人点赞

#generalization

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索，表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果，包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

0 人收藏 0 人点赞

#generalization

@FrancoisChauba1: 如果你在（未排序列表、冒泡排序过程、已排序列表）的轨迹上进行训练，你永远无法通过测试时计算（TTC）达到…

X AI KOLs Following ↗ · 2026-05-26 缓存

一篇批评文章指出，在人类生成的数据上训练LLM限制了它们通过测试时计算发现新颖解决方案的能力，而真正的AGI需要模型能够像AlphaZero那样更广泛地探索假设空间。

0 人收藏 0 人点赞

#generalization

滤波后验均值集合：扩散泛化分析模型的统一框架

arXiv cs.LG ↗ · 2026-05-26 缓存

本文介绍了滤波后验均值集合（FPMCs），一种用于扩散泛化分析模型的统一框架，整合了现有方法，并通过软松弛和源分布增强展示了改进效果。

0 人收藏 0 人点赞

#generalization

超越二元编辑：基于对抗性子空间对齐的鲁棒多模态知识编辑

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了ASAM（面向多模态知识编辑的对抗性子空间对齐），该方法通过生成对抗但语义一致的变体，并强制对表示进行低秩对齐，提升了内在多模态知识编辑的泛化性，解决了现有方法泛化能力有限的问题。

0 人收藏 0 人点赞

generalization

提交意见反馈