标签
LatentMAS 是一种多智能体协作新方法,智能体在隐空间直接传递推理状态,无需文字编解码,实现准确率提升13.3%、速度4.3倍、token用量减少83.7%,无需额外训练即可插入现有LLM,已入选ICML 2026 Spotlight。
本文提出了一种用于离散流匹配的时间重参数化累积强度外推(TR-CIE)采样器,通过重新缩放时间网格和重用缓存的模型输出,在有限函数评估次数下提高采样质量,并在文本和图像生成上进行了理论分析和实验。
这篇ICML 2026 spotlight立场论文识别了图像生成对齐中的一个失败模式:美学偏好优化会覆盖用户的明确意图,将其称为'逆向对齐',并在反美学提示上进行了测试。
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
本文介绍了关系结构因果模型,将结构因果模型扩展到具有变化对象和关系的场景。它提供了识别的理论结果,并提出了关系神经因果模型,该模型在模拟交通场景中的表现优于非关系基线方法。
介绍了TruDi,一种通过使用信任区域优化规则来强制KL散度约束,从而在大规模并行在策略强化学习中训练扩散策略的方法,在73个任务中取得了强劲性能。
Forgis Labs 提出了一系列针对工业场景中时间序列传感器数据的基础模型,已有五篇论文被 ICML 2026 研讨会接收,能够从原始传感器流实现事件预测和自然语言解释。
本文介绍了DRIVE,一个统一的基于Transformer的离线自动出价框架,它将候选动作生成与决策制定解耦,结合了分布性动作建模、检索增强的候选生成和基于价值的评估,以在预算和成本约束下提高出价性能。
本文提出约束敏感策略优化(CSPO),一种用于安全强化学习的一阶原始-对偶方法,该方法融合局部约束灵敏度以改善安全恢复并减少安全边界附近的振荡,在导航和运动基准上实现了更高的约束回报。
本文表明,在低资源验证场景中,验证者仅能访问目标分布中碎片化且有偏的片段,此时数据选择会通过剪除全局相关的尾部模式,反而加速模型崩溃。作者提供了理论证明,并提出了一种协作代理参考机制作为缓解策略。
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。
本文介绍了参数化扩散策略(Parameterized Diffusion Policy, PDP)框架,该框架通过以低维潜在参数为条件,使扩散策略变得可控,从而实现无需重新训练即可进行平滑的行为插值和自适应。在仿真和真实机器人实验中,该方法在复杂的多模态机器人任务上展现了更优的性能。
提出了一种节点级频谱能量公式,用于检测图中的伪装异常,并将其扩展到具有能量驱动消息传递的时空设置。在大规模基准测试上证明了其有效性。
LithoGRPO引入了一个新颖的框架,将流匹配与基于GRPO的强化学习相结合,用于快速且高质量的逆光刻掩模优化,在保持高效生成的同时实现了最先进的性能。
本文研究了扩散模型中的记忆化现象,发现它们会优先记忆包含常见子串的原型样本,即使在去重之后也是如此,并且提前停止会导致常见模式的过度生成,这种现象被称为“slop”。