arxiv

#arxiv

乐观对偶平均化统一了现代优化器

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 SODA，这是乐观对偶平均化的一种广义形式，统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器，在不同规模下均可提升性能，且无需为权重衰减进行额外的超参数调优。

0 人收藏 0 人点赞

#arxiv

CORE：用于知识图谱补全的循环正交体关系嵌入

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 CORE，这是一种新的知识图谱补全模型，通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明，该模型在链接预测任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞

#arxiv

秩不等于容量：潜在图模型的光谱占用分析

arXiv cs.LG ↗ · 19小时前缓存

本文提出了一种名为 Spectra 的方法，利用光谱占用率来分析和控制潜在图模型的实际容量，并论证了模型的秩并不等同于其容量。

0 人收藏 0 人点赞

#arxiv

HEPA：一种用于时间序列的自监督地平线条件化事件预测架构

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 HEPA，这是一种用于预测时间序列中罕见关键事件的自监督架构，采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比，它在多个领域均展现出卓越的性能，同时所需的标记数据和调整参数显著减少。

0 人收藏 0 人点赞

#arxiv

牛顿之灯：一种用于微调交流潮流热启动模型的强化学习框架

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了牛顿之灯，这是一种强化学习框架，用于微调热启动模型，以更高效地解决交流潮流问题，尤其是在接近电压崩溃的情况下。

0 人收藏 0 人点赞

#arxiv

信任域逆强化学习：利用局部策略更新进行显式对偶上升

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了信任域逆强化学习（TRIRL），这是一种结合了单调对偶改进与高效局部策略更新的方法，其性能优于最先进的模仿学习方法。该方法通过使用信任域约束，解决了逆强化学习中稳定性与计算成本之间的权衡问题。

0 人收藏 0 人点赞

#arxiv

ACSAC：基于因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 方法

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 ACSAC，一种强化学习方法，它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size，该方法在操控任务中展示了最先进的性能。

0 人收藏 0 人点赞

#arxiv

SkillGen：经过验证的推理时代理技能合成

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 SkillGen，这是一个多智能体框架，通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型（LLM）代理技能。该方法确保技能可审计，并通过实证验证其对代理性能具有净正面影响。

0 人收藏 0 人点赞

#arxiv

TMPO：用于多样且高效扩散模型对齐的轨迹匹配策略优化

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了轨迹匹配策略优化（TMPO），这是一种扩散模型对齐方法。它通过匹配轨迹级奖励分布而非最大化标量奖励，解决了奖励黑客攻击和视觉模态崩溃问题。

0 人收藏 0 人点赞

#arxiv

xi-DPO：通过比率奖励边际的直接偏好优化

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 xi-DPO，这是一种新颖的偏好优化方法，通过将目标重构为最小化与最优比率奖励边际的距离，解决了 SimPO 中的超参数调整难题。实验结果表明，xi-DPO 在开放基准测试中优于现有方法。

0 人收藏 0 人点赞

#arxiv

LEAP：通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 LEAP，这是一种无需训练的方法，旨在通过检测早期收敛令牌来加速扩散语言模型（dLLMs）的推理过程。该方法能在不损失准确性的前提下，将去噪步骤减少 30%。

0 人收藏 0 人点赞

#arxiv

分层多尺度图神经网络：通过缓解过平滑和过挤压实现可扩展的异配学习

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 HMH，这是一种分层多尺度图神经网络框架，旨在解决异配图中的过平滑和过挤压问题。它利用基于 Haar 小波基的谱滤波器，实现了可扩展的学习，并在节点和图分类任务上取得了更好的性能。

0 人收藏 0 人点赞

#arxiv

概率校准是大语言模型中的一项可训练能力

arXiv cs.CL ↗ · 19小时前缓存

本文研究了语言模型的概率校准能力是否可以通过微调得到提升，并在12种模型上比较了软目标和硬目标两种方法。结果表明，校准能力是可以训练的，但有时会导致下游算术推理能力的下降。

0 人收藏 0 人点赞

#arxiv

DiffScore：超越自回归似然性的文本评估

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 DiffScore，这是一个基于掩码大型扩散语言模型（Masked Large Diffusion Language Models）的文本评估框架，通过利用掩码重建来解决自回归评分中的位置偏差问题。

0 人收藏 0 人点赞

#arxiv

基于模型压缩与并行验证的高效大语言模型广告生成

arXiv cs.CL ↗ · 19小时前缓存

本文提出了一种利用模型压缩和并行验证的高效大语言模型广告框架，在百度的实际部署中实现了超过 1.8 倍的加速。

0 人收藏 0 人点赞

#arxiv

BitLM：利用位级连续扩散解锁多 Token 语言生成

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 BitLM，一种利用位级连续扩散并行生成多个 Token 的语言模型，旨在克服传统自回归生成的顺序瓶颈，同时保留因果结构。

0 人收藏 0 人点赞

#arxiv

驾驭极端 Token：基于高斯核优势重权重的协方差感知 GRPO

arXiv cs.CL ↗ · 19小时前缓存

本文提出了一种协方差感知的组相对策略优化（GRPO）变体，该方法利用高斯核优势重权重技术来稳定训练熵，并提升大语言模型的推理性能。

0 人收藏 0 人点赞

#arxiv

自动化智能体评估的实证研究

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 EvalAgent，这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统，旨在解决标准编程助手在此任务中的局限性。此外，本文还提出了用于测试评估流程的基准 AgentEvalBench，并展示了在评估可靠性方面的显著提升。

0 人收藏 0 人点赞

#arxiv

SOMA：通过小语言模型实现高效的 LLM 多轮对话服务

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 SOMA，这是一种高效的 LLM 多轮对话服务框架，它利用经过软提示和 LoRA 微调适配的小语言模型来降低延迟和成本。

0 人收藏 0 人点赞

#arxiv

双院模型：平行语言模型间的双向隐藏状态耦合

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了双院模型（Bicameral Model），该模型通过可训练的神经接口将两个冻结的语言模型在中间隐藏状态层面进行耦合，从而实现了无需序列化文本交换的连续且并发的协调。该方法通过允许辅助模型与主模型并行地操作工具，在算术和逻辑任务中展现出显著提升。

0 人收藏 0 人点赞

arxiv

提交意见反馈