标签
这篇arXiv预印本挑战了“垃圾进,垃圾出”的经验法则,认为在高维表格数据中,激进的手动数据清洗可能会通过减少三角测量潜在驱动因素所需的维度,从而限制预测性能。
本文介绍了 Vigil,这是一个用于评估具身智能体的框架,它将任务执行成功与智能体正确识别和报告任务完成的能力区分开来。
本文介绍了一种用于多智能体大语言模型系统的批评与路由控制器,将协调过程建模为序贯决策问题。该方法利用策略梯度优化控制器以实现迭代优化,在表现优于基线方法的同时,降低了对顶级模型的依赖。
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
本文介绍了 PathBoost,这是一种用于图级预测的梯度树提升方法,它使用基于路径的特征与图神经网络竞争,同时提供更好的可解释性。
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
本文提出了 AGWM,一种基于可供性的世界模型,该模型使用动态先决条件图来跟踪具有组合先决条件环境中的动作可执行性。实验表明,与标准世界模型相比,AGWM 能够降低预测误差并提高泛化能力。
本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。
本文介绍了自适应 Q 分块(AQC),这是一种强化学习方法,能够动态选择动作分块大小,以平衡反应式控制与长期规划。该方法在 OGBench 和 Robomimic 上取得了最先进的结果,提升了大规模 VLA 模型在机器人任务中的性能。
本文介绍了 WARDEN,一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重,在显著降低攻击成功率的同时保持了计算效率。