标签
本文研究当决策主体(智能体)为了回应策略而策略性地修改其协变量时的离线策略评估(OPE)。该方法利用事后解释进行局部披露,以揭示智能体的前策略协变量,并构建策略价值的双重稳健估计量。
一篇分析AI智能体可靠性的论文,已被ICML 2026接收。研究发现,即使是最新的前沿模型(GPT 5.5、Gemini 3.1 Pro、Claude Opus 4.7),相较于早期版本也仅有微小的可靠性提升,结果一致性较低,且智能体框架中依然存在持续性问题。
这篇ICML 2026论文介绍了Derivative Informed XC-Loss(DI-Loss),这是一种用于机器学习交换关联泛函的训练方法,它在密度矩阵的格拉斯曼流形上引入了一阶和二阶导数监督。在四种架构上,与仅使用能量和密度监督相比,DI-Loss将总能量平均绝对误差(MAE)降低了66%,并改善了TDDFT计算中的激发态预测。
RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。
该论文提出了一种可扩展的监督微调方法,用于训练语言模型跨学科提出科研假设,已被ICML 2026接收,代码已开源。
MOOSE-Star 提出了一个从 DeepSeek-R1-Distill-Qwen-7B 微调而来的 7B 模型,用于科学假设发现,同时附带一个包含 108K NCBI 论文的数据集。该模型在灵感检索准确率上达到了最先进水平,超越了像 GPT-5.4 和 Gemini-3 Pro 这样更大的模型。
快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。