标签
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
本文介绍了 CORE,这是一种新的知识图谱补全模型,通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明,该模型在链接预测任务中表现出具有竞争力的性能。
本文提出了一种名为 Spectra 的方法,利用光谱占用率来分析和控制潜在图模型的实际容量,并论证了模型的秩并不等同于其容量。
本文介绍了 HEPA,这是一种用于预测时间序列中罕见关键事件的自监督架构,采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比,它在多个领域均展现出卓越的性能,同时所需的标记数据和调整参数显著减少。
本文介绍了牛顿之灯,这是一种强化学习框架,用于微调热启动模型,以更高效地解决交流潮流问题,尤其是在接近电压崩溃的情况下。
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
本文介绍了轨迹匹配策略优化(TMPO),这是一种扩散模型对齐方法。它通过匹配轨迹级奖励分布而非最大化标量奖励,解决了奖励黑客攻击和视觉模态崩溃问题。
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
本文介绍了 HMH,这是一种分层多尺度图神经网络框架,旨在解决异配图中的过平滑和过挤压问题。它利用基于 Haar 小波基的谱滤波器,实现了可扩展的学习,并在节点和图分类任务上取得了更好的性能。
本文研究了语言模型的概率校准能力是否可以通过微调得到提升,并在12种模型上比较了软目标和硬目标两种方法。结果表明,校准能力是可以训练的,但有时会导致下游算术推理能力的下降。
本文介绍了 DiffScore,这是一个基于掩码大型扩散语言模型(Masked Large Diffusion Language Models)的文本评估框架,通过利用掩码重建来解决自回归评分中的位置偏差问题。
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
本文介绍了 SOMA,这是一种高效的 LLM 多轮对话服务框架,它利用经过软提示和 LoRA 微调适配的小语言模型来降低延迟和成本。
本文介绍了双院模型(Bicameral Model),该模型通过可训练的神经接口将两个冻结的语言模型在中间隐藏状态层面进行耦合,从而实现了无需序列化文本交换的连续且并发的协调。该方法通过允许辅助模型与主模型并行地操作工具,在算术和逻辑任务中展现出显著提升。