来自 arXiv 的文章
本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法,证明与末端或逐步投影方法相比,该方法能够改善成本-精度边界。
本文指出,在数据稀疏和难度异构的情况下,AI基准测试中的简单平均法会失效,并提出项目反应理论(IRT)作为一种稳健的替代方案,以恢复真实的排名情况。
本文通过分析各种图像操作在特征空间中的映射方式,研究了深度神经网络中间特征表示的几何结构。研究表明,特征空间在一阶近似下呈现线性结构,文中使用生成式图像编辑模型来探测这些表示。
本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。
本博士论文介绍了用于蛋白质复合物预测和设计的深度学习方法,包括用于接触预测的 GLINTER、用于同源配对的 ESMPair 以及用于结合子设计的 RedNet。
本文介绍了 CATS,这是一种级联自适应树猜测框架,旨在通过优化内存使用同时保持高 Token 接受率,加速内存受限边缘设备上的 LLM 推理。
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
本文利用箭图理论和几何不变量理论,分析了神经丛扩散(NSD)中的过度平滑现象,将其视为一种表示退化。文章提出了受矩映射启发的正则化方法,并探讨了在非均匀丛维数下缓解异质图基准测试中该问题的可能性。
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
本文介绍了非对称朗之万遗忘(ALU),这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明,ALU 降低了遗忘成本,并在保持高模型效用的同时实现了大规模遗忘。
本文介绍了 COSMOS,这是一个模型无关的个性化联邦学习框架,采用了聚类服务器模型和仅通过伪标签进行通信的机制。论文提供了理论分析,展示了指数级的个性化风险收缩,并证明了该方法在异构环境下的性能优于现有的基线方法。
本文主张,可解释性研究应基于“可操作性”进行评估,即研究成果在多大程度上能够促成具体的决策与干预措施。作者提出了一套与实际应用结果相一致的评估标准框架,以解决当前可解释性工作缺乏现实影响力的问题。
本文介绍了 CORE,这是一种新的知识图谱补全模型,通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明,该模型在链接预测任务中表现出具有竞争力的性能。
本文分析了诸如直接偏好优化(DPO)等偏好优化方法中的虚假相关性学习,确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略,以减少对虚假特征的依赖,同时不降低因果学习效果。
本文介绍了 HEPA,这是一种用于预测时间序列中罕见关键事件的自监督架构,采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比,它在多个领域均展现出卓越的性能,同时所需的标记数据和调整参数显著减少。
本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。
本文介绍了 GRAFT-ATHENA,这是一个自我改进的智能体框架,能够自主发现并进化用于解决科学问题的数值算法。它在物理信息机器学习基准测试中展示了接近机器精度的准确率,并成功应对了复杂的工程挑战。