arXiv

通过自适应校正调度在生成采样中强制执行约束

arXiv cs.LG ↗ · 13小时前缓存

本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法，证明与末端或逐步投影方法相比，该方法能够改善成本-精度边界。

0 人收藏 0 人点赞

测量五九可靠性：饱和基准测试中样本高效的LLM评估

arXiv cs.LG ↗ · 13小时前缓存

本文提出了一种使用交叉熵方法进行极端可靠性（“五九”）估计的样本高效框架，解决了标准基准测试在检测罕见故障方面的局限性。

0 人收藏 0 人点赞

评估失效的缩放定律：为何简单平均在数据稀疏和题目难度差距下会崩溃，以及项目反应理论如何跨领域恢复真实情况

arXiv cs.LG ↗ · 13小时前缓存

本文指出，在数据稀疏和难度异构的情况下，AI基准测试中的简单平均法会失效，并提出项目反应理论（IRT）作为一种稳健的替代方案，以恢复真实的排名情况。

0 人收藏 0 人点赞

FeatMap：理解特征空间中的图像操作及其对特征空间几何结构的启示

arXiv cs.LG ↗ · 13小时前缓存

本文通过分析各种图像操作在特征空间中的映射方式，研究了深度神经网络中间特征表示的几何结构。研究表明，特征空间在一阶近似下呈现线性结构，文中使用生成式图像编辑模型来探测这些表示。

0 人收藏 0 人点赞

变分线性注意力：用于长上下文 Transformer 的稳定联想记忆

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了变分线性注意力（VLA），这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题，证明了状态范数的有界性，并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。

0 人收藏 0 人点赞

深度学习在蛋白质复合物预测与设计中的应用

arXiv cs.LG ↗ · 13小时前缓存

本博士论文介绍了用于蛋白质复合物预测和设计的深度学习方法，包括用于接触预测的 GLINTER、用于同源配对的 ESMPair 以及用于结合子设计的 RedNet。

0 人收藏 0 人点赞

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 CATS，这是一种级联自适应树猜测框架，旨在通过优化内存使用同时保持高 Token 接受率，加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞

Muon 并没有那么特别：随机或反转谱同样有效

arXiv cs.LG ↗ · 13小时前缓存

本文对 Muon 优化器的几何依据提出了挑战，认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器，以证明随机或反转谱的性能与 Muon 相当。

0 人收藏 0 人点赞

神经丛扩散中的过度平滑作为表示退化

arXiv cs.LG ↗ · 13小时前缓存

本文利用箭图理论和几何不变量理论，分析了神经丛扩散（NSD）中的过度平滑现象，将其视为一种表示退化。文章提出了受矩映射启发的正则化方法，并探讨了在非均匀丛维数下缓解异质图基准测试中该问题的可能性。

0 人收藏 0 人点赞

乐观对偶平均化统一了现代优化器

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 SODA，这是乐观对偶平均化的一种广义形式，统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器，在不同规模下均可提升性能，且无需为权重衰减进行额外的超参数调优。

0 人收藏 0 人点赞

利用非对称数据进行遗忘：通过公共数据改善遗忘-效用权衡

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了非对称朗之万遗忘（ALU），这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明，ALU 降低了遗忘成本，并在保持高模型效用的同时实现了大规模遗忘。

0 人收藏 0 人点赞

COSMOS：一种基于聚类服务器模型与仅伪标签通信的模型无关个性化联邦学习方法

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 COSMOS，这是一个模型无关的个性化联邦学习框架，采用了聚类服务器模型和仅通过伪标签进行通信的机制。论文提供了理论分析，展示了指数级的个性化风险收缩，并证明了该方法在异构环境下的性能优于现有的基线方法。

0 人收藏 0 人点赞

可解释性应具备可操作性

arXiv cs.LG ↗ · 13小时前缓存

本文主张，可解释性研究应基于“可操作性”进行评估，即研究成果在多大程度上能够促成具体的决策与干预措施。作者提出了一套与实际应用结果相一致的评估标准框架，以解决当前可解释性工作缺乏现实影响力的问题。

0 人收藏 0 人点赞

CORE：用于知识图谱补全的循环正交体关系嵌入

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 CORE，这是一种新的知识图谱补全模型，通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明，该模型在链接预测任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞

秩不等于容量：潜在图模型的光谱占用分析

arXiv cs.LG ↗ · 13小时前缓存

本文提出了一种名为 Spectra 的方法，利用光谱占用率来分析和控制潜在图模型的实际容量，并论证了模型的秩并不等同于其容量。

0 人收藏 0 人点赞

偏好优化中的虚假相关性学习：机制、后果及通过平局训练的缓解方法

arXiv cs.LG ↗ · 13小时前缓存

本文分析了诸如直接偏好优化（DPO）等偏好优化方法中的虚假相关性学习，确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略，以减少对虚假特征的依赖，同时不降低因果学习效果。

0 人收藏 0 人点赞

齐性空间上的可转向神经常微分方程

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了齐性空间上的可转向神经常微分方程，为学习连续时间的等变动力学提供了一个几何框架。

0 人收藏 0 人点赞

HEPA：一种用于时间序列的自监督地平线条件化事件预测架构

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 HEPA，这是一种用于预测时间序列中罕见关键事件的自监督架构，采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比，它在多个领域均展现出卓越的性能，同时所需的标记数据和调整参数显著减少。

0 人收藏 0 人点赞

基于超球面流的语言建模

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 S-FLM，一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行，旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

0 人收藏 0 人点赞

GRAFT-ATHENA：用于自主发现和进化数值算法的自我改进智能体团队

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 GRAFT-ATHENA，这是一个自我改进的智能体框架，能够自主发现并进化用于解决科学问题的数值算法。它在物理信息机器学习基准测试中展示了接近机器精度的准确率，并成功应对了复杂的工程挑战。

0 人收藏 0 人点赞

arXiv

提交意见反馈