arXiv

牛顿之灯：一种用于微调交流潮流热启动模型的强化学习框架

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了牛顿之灯，这是一种强化学习框架，用于微调热启动模型，以更高效地解决交流潮流问题，尤其是在接近电压崩溃的情况下。

0 人收藏 0 人点赞

为大语言模型推理提供高性能且灵活的模型内部可观测性

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 DMI-Lib，这是一种高速深层模型检查器，通过将监控与推理热点路径解耦，实现了大语言模型推理的高效内部可观测性。

0 人收藏 0 人点赞

ASD-Bench：用于自闭症谱系障碍的 AI 模型四维综合基准测试

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 ASD-Bench，这是一个全面的基准测试，从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍（ASD）筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型，强调了在临床 AI 应用中采用多指标评估的重要性。

0 人收藏 0 人点赞

基于线性函数逼近的Q学习切换系统理论

arXiv cs.LG ↗ · 13小时前缓存

本文提出了一种针对使用线性函数逼近的Q学习的切换系统理论，利用联合谱半径分析了在确定性、独立同分布（i.i.d.）及马尔可夫观测下的收敛稳定性。

0 人收藏 0 人点赞

信任域逆强化学习：利用局部策略更新进行显式对偶上升

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了信任域逆强化学习（TRIRL），这是一种结合了单调对偶改进与高效局部策略更新的方法，其性能优于最先进的模仿学习方法。该方法通过使用信任域约束，解决了逆强化学习中稳定性与计算成本之间的权衡问题。

0 人收藏 0 人点赞

通过具有效率意识的变分后验引导实现高效的大语言模型推理

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 VPG-EA 框架，该框架利用变分推断和后验引导，通过解决思维链生成中的“过度思考”现象，提高了大语言模型的推理效率。

0 人收藏 0 人点赞

行为曲线中的辛普森悖论：聚合如何扭曲用户动态的参数模型

arXiv cs.LG ↗ · 13小时前缓存

这篇学术论文识别并表征了行为曲线建模中的辛普森悖论，展示了由于生存偏差，聚合如何系统性地扭曲对用户动态的参数估计。作者们在 Goodreads 和 Amazon Electronics 等数据集上验证了这种失真，并提出了分层峰值估计方法来缓解这一问题。

0 人收藏 0 人点赞

通过稀疏内部快照实现骨干均衡的扩散模型异常检测

arXiv cs.LG ↗ · 13小时前缓存

本文提出了一种公平比较基于扩散模型的异常检测器的协议，并提出了规范特征快照（CFS），该算法利用稀疏的内部激活状态实现高效的异常检测。

0 人收藏 0 人点赞

同质与异构数据分布下联邦学习聚合策略的比较研究

arXiv cs.LG ↗ · 13小时前缓存

本文对各种联邦学习聚合策略进行了全面的实验比较，分析了它们在homogeneous和heterogeneous数据分布下的性能和效率。

0 人收藏 0 人点赞

ACSAC：基于因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 方法

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 ACSAC，一种强化学习方法，它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size，该方法在操控任务中展示了最先进的性能。

0 人收藏 0 人点赞

何时以及如何规范化：一种泛化视角

arXiv cs.LG ↗ · 13小时前缓存

本文引入了一个理论框架，用于分析对称数据规范化方法的泛化误差，证明希尔伯特曲线序列化在覆盖数上呈现多项式增长，而字典序排序则呈指数增长。

0 人收藏 0 人点赞

RT-Transformer：将 Transformer Block 视为球面状态估计器

arXiv cs.LG ↗ · 13小时前缓存

本文提出了一种理论框架，解释 Transformer 组件（注意力机制、残差连接、归一化）如何源于使用径向-切线随机微分方程（Radial-Tangential SDEs）的球面状态估计问题。

0 人收藏 0 人点赞

DisagMoE：通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 DisagMoE，一种 MoE 训练系统，通过将注意力层和前馈网络（FFN）层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现，通过解决节点间通信瓶颈，在 H800 集群上实现了高达 1.8 倍的加速。

0 人收藏 0 人点赞

用于二维浅水方程的有限体积信息神经网络框架：崎岖的损失景观与数据指导的重要性

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了“数据引导的 FVM-PINN”框架，该框架利用有限体积损失来求解二维浅水方程，并证明稀疏数据指导对于防止网络在崎岖的损失景观中崩溃至关重要。

0 人收藏 0 人点赞

SkillGen：经过验证的推理时代理技能合成

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 SkillGen，这是一个多智能体框架，通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型（LLM）代理技能。该方法确保技能可审计，并通过实证验证其对代理性能具有净正面影响。

0 人收藏 0 人点赞

测试时个性化：针对缩放失败的一种诊断框架与概率修正方法

arXiv cs.LG ↗ · 13小时前缓存

本文提出了测试时个性化（TTP），这是一种通过候选采样和基于奖励的选择来扩展推理时计算，从而提升大语言模型（LLM）个性化能力的框架。该研究诊断了标准奖励模型中的失效模式，并提出了一种概率个性化奖励模型以缓解这些问题。

0 人收藏 0 人点赞

SURGE：二元神经网络中的代理梯度适配

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 SURGE，这是一种新颖的可学习梯度补偿框架，用于训练二元神经网络，旨在解决直通估计器等传统方法中存在的梯度失配和信息丢失问题。

0 人收藏 0 人点赞

大海捞针：通过反事实扰动实现弱监督日志实例异常定位

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 LogMILP，这是一种用于日志实例异常定位的弱监督框架，它利用原型引导的结构建模和反事实扰动一致性正则化，仅使用包级标签即可提高检测精度和可解释性。

0 人收藏 0 人点赞

AESOP：通过对抗性执行路径选择来压垮深度学习流水线

arXiv cs.LG ↗ · 13小时前缓存

本文介绍了 AESOP，这是一种用于对抗性执行路径选择的框架，能够显著增加深度学习推理流水线中的浮点运算次数（FLOPs）和延迟，揭示了基于效率的新型漏洞。

0 人收藏 0 人点赞

通过可微图划分对蛋白质语言模型表示的结构解释

arXiv cs.LG ↗ · 13小时前缓存

本文提出了 SoftBlobGIN 框架，通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递，增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升，同时提供了可审计的结构化解释。

0 人收藏 0 人点赞

arXiv

提交意见反馈