来自 arXiv 的文章
本文介绍了牛顿之灯,这是一种强化学习框架,用于微调热启动模型,以更高效地解决交流潮流问题,尤其是在接近电压崩溃的情况下。
本文介绍了 DMI-Lib,这是一种高速深层模型检查器,通过将监控与推理热点路径解耦,实现了大语言模型推理的高效内部可观测性。
本文介绍了 ASD-Bench,这是一个全面的基准测试,从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍(ASD)筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型,强调了在临床 AI 应用中采用多指标评估的重要性。
本文提出了一种针对使用线性函数逼近的Q学习的切换系统理论,利用联合谱半径分析了在确定性、独立同分布(i.i.d.)及马尔可夫观测下的收敛稳定性。
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
本文介绍了 VPG-EA 框架,该框架利用变分推断和后验引导,通过解决思维链生成中的“过度思考”现象,提高了大语言模型的推理效率。
这篇学术论文识别并表征了行为曲线建模中的辛普森悖论,展示了由于生存偏差,聚合如何系统性地扭曲对用户动态的参数估计。作者们在 Goodreads 和 Amazon Electronics 等数据集上验证了这种失真,并提出了分层峰值估计方法来缓解这一问题。
本文提出了一种公平比较基于扩散模型的异常检测器的协议,并提出了规范特征快照(CFS),该算法利用稀疏的内部激活状态实现高效的异常检测。
本文对各种联邦学习聚合策略进行了全面的实验比较,分析了它们在homogeneous和heterogeneous数据分布下的性能和效率。
本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。
本文提出了一种理论框架,解释 Transformer 组件(注意力机制、残差连接、归一化)如何源于使用径向-切线随机微分方程(Radial-Tangential SDEs)的球面状态估计问题。
本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。
本文介绍了“数据引导的 FVM-PINN”框架,该框架利用有限体积损失来求解二维浅水方程,并证明稀疏数据指导对于防止网络在崎岖的损失景观中崩溃至关重要。
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。
本文介绍了 SURGE,这是一种新颖的可学习梯度补偿框架,用于训练二元神经网络,旨在解决直通估计器等传统方法中存在的梯度失配和信息丢失问题。
本文介绍了 LogMILP,这是一种用于日志实例异常定位的弱监督框架,它利用原型引导的结构建模和反事实扰动一致性正则化,仅使用包级标签即可提高检测精度和可解释性。
本文介绍了 AESOP,这是一种用于对抗性执行路径选择的框架,能够显著增加深度学习推理流水线中的浮点运算次数(FLOPs)和延迟,揭示了基于效率的新型漏洞。
本文提出了 SoftBlobGIN 框架,通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递,增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升,同时提供了可审计的结构化解释。