来自 arXiv 的文章
本文识别了物理信息神经网络(PINNs)中一种由容量引起的失效模式,其中过参数化网络发展出功能模块化,阻碍收敛,并提出模块稀疏同步(ModSync)框架,该框架惩罚任务专用连接以保持跨目标交互,并达到最先进的精度。
BIM-Edit是一个基准测试,用于评估大语言模型在IFC格式下对建筑信息模型(BIM)进行自然语言编辑的能力。结果显示存在显著差距,最佳模型在几何、语义和拓扑指标上的平均得分仅为49.5%。
本文提出了一种自适应、学科感知的提示路由框架,用于基于LLM的高中辅导,利用14个教学特征来切换策略。对359名学生进行的A/B测试显示,与静态基线相比,效率和转化率有所提高。
ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。
本文提出了一种新颖的架构,将多头注意力与Soft Actor-Critic算法相结合,用于增材制造中的孔隙率预测和工艺参数优化,相比标准强化学习方法实现了更快的收敛速度和更高的奖励值。
介绍了一个结合流生成编辑和进化算法的框架,用于在残差空间中进行优化,支持使用不可微目标进行可控数据编辑。在MorphoMNIST和晶体数据上进行了验证。
本文评估了多智能体编排架构(DAG Plan and Execute、ReAct)在企业规模下的表现,并引入了一个任务管理器以实现持续的事件驱动操作,展示了在延迟和正确性方面的改进。
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
本文提出了一种自动生成流水线,为DialNav创建大规模训练数据集(RAINbow)。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型,该方法在基线上取得了显著提升。
本文识别出由以人为中心的管道导致的人形机器人共语动作生成中的具身差距,并提出PhysDrift,一种具身感知框架,直接从语音预测可执行的人形机器人关节轨迹,改善了语音-动作对齐和物理合理性。
本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。
本文提出了eCNNTO,一种带有残差连接的卷积神经网络,通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化,实现了最多97%的迭代次数减少,并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。
提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。
MetaResearcher 提出了一种框架,用于在对抗性虚拟环境中通过自我反思强化学习训练深度研究智能体,解决了静态环境和仅事实检索任务的局限性。
本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。
TelcoAgent是一个基于基础模型的框架,用于5G网络中可扩展且可解释的多KPM预测,利用自动化的3GPP知识图谱构建和时间序列基础模型进行零样本预测。
本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。
CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。