arXiv

来自 arXiv 的文章

Cards List

面向广义PINNs的无模块化冲突规避训练

arXiv cs.AI · 3天前 缓存

本文识别了物理信息神经网络(PINNs)中一种由容量引起的失效模式,其中过参数化网络发展出功能模块化,阻碍收敛,并提出模块稀疏同步(ModSync)框架,该框架惩罚任务专用连接以保持跨目标交互,并达到最先进的精度。

0 人收藏 0 人点赞

BIM-Edit:基于IFC的建筑信息模型的大语言模型基准测试

arXiv cs.AI · 3天前 缓存

BIM-Edit是一个基准测试,用于评估大语言模型在IFC格式下对建筑信息模型(BIM)进行自然语言编辑的能力。结果显示存在显著差距,最佳模型在几何、语义和拓扑指标上的平均得分仅为49.5%。

0 人收藏 0 人点赞

RACL:用于连续元启发式学习的推理智能体控制层

arXiv cs.AI · 3天前 缓存

介绍了RACL,一种推理智能体控制层,通过学习从操作内存控制内部搜索行为来改进元启发式优化,在车辆路径测试中显示出成本改善。

0 人收藏 0 人点赞

学习提示:通过自适应基于LLM的高中辅导提高学生参与度

arXiv cs.AI · 3天前 缓存

本文提出了一种自适应、学科感知的提示路由框架,用于基于LLM的高中辅导,利用14个教学特征来切换策略。对359名学生进行的A/B测试显示,与静态基线相比,效率和转化率有所提高。

0 人收藏 0 人点赞

ScaffoldAgent: 基于效用引导的开放式深度研究动态大纲优化

arXiv cs.AI · 3天前 缓存

ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。

0 人收藏 0 人点赞

基于多头注意力的特征提取器与Soft Actor-Critic结合的增材制造孔隙率预测及工艺参数优化

arXiv cs.AI · 3天前 缓存

本文提出了一种新颖的架构,将多头注意力与Soft Actor-Critic算法相结合,用于增材制造中的孔隙率预测和工艺参数优化,相比标准强化学习方法实现了更快的收敛速度和更高的奖励值。

0 人收藏 0 人点赞

基于流生成模型的残差空间进化优化

arXiv cs.AI · 3天前 缓存

介绍了一个结合流生成编辑和进化算法的框架,用于在残差空间中进行优化,支持使用不可微目标进行可控数据编辑。在MorphoMNIST和晶体数据上进行了验证。

0 人收藏 0 人点赞

基于 Lean 的过程验证强化学习用于定理证明

arXiv cs.AI · 3天前 缓存

本文提出了过程验证强化学习,利用 Lean 证明助手作为过程预言机,在训练期间提供细粒度的策略级反馈,从而提升定理证明性能。

0 人收藏 0 人点赞

面向大规模企业AI的自主事件驱动多智能体编排

arXiv cs.AI · 3天前 缓存

本文评估了多智能体编排架构(DAG Plan and Execute、ReAct)在企业规模下的表现,并引入了一个任务管理器以实现持续的事件驱动操作,展示了在延迟和正确性方面的改进。

0 人收藏 0 人点赞

奖励作为具身世界模型的智能体

arXiv cs.AI · 3天前 缓存

本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。

0 人收藏 0 人点赞

通过自动具身对话增强推进DialNav发展

arXiv cs.AI · 3天前 缓存

本文提出了一种自动生成流水线,为DialNav创建大规模训练数据集(RAINbow)。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型,该方法在基线上取得了显著提升。

0 人收藏 0 人点赞

PhysDrift:弥合人形机器人共语动作生成中的具身差距

arXiv cs.AI · 3天前 缓存

本文识别出由以人为中心的管道导致的人形机器人共语动作生成中的具身差距,并提出PhysDrift,一种具身感知框架,直接从语音预测可执行的人形机器人关节轨迹,改善了语音-动作对齐和物理合理性。

0 人收藏 0 人点赞

自主智能之道:自生成目标智能、具身主体性与自我的消解

arXiv cs.AI · 3天前 缓存

本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。

0 人收藏 0 人点赞

eCNNTO:一种高度可泛化的卷积网络,用于加速拓扑优化

arXiv cs.AI · 3天前 缓存

本文提出了eCNNTO,一种带有残差连接的卷积神经网络,通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化,实现了最多97%的迭代次数减少,并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。

0 人收藏 0 人点赞

Multi-Agent Transactive Memory

arXiv cs.AI · 3天前 缓存

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。

0 人收藏 0 人点赞

MetaResearcher:在对抗性虚拟环境中通过自我反思强化学习扩展深度研究

arXiv cs.AI · 3天前 缓存

MetaResearcher 提出了一种框架,用于在对抗性虚拟环境中通过自我反思强化学习训练深度研究智能体,解决了静态环境和仅事实检索任务的局限性。

0 人收藏 0 人点赞

大型语言模型黑盒不确定性估计方法的系统性评估

arXiv cs.AI · 3天前 缓存

本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。

0 人收藏 0 人点赞

TelcoAgent:可扩展的5G多KPM预测与基于3GPP的可解释性

arXiv cs.AI · 3天前 缓存

TelcoAgent是一个基于基础模型的框架,用于5G网络中可扩展且可解释的多KPM预测,利用自动化的3GPP知识图谱构建和时间序列基础模型进行零样本预测。

0 人收藏 0 人点赞

面向AI辅助法律发现的Human-on-the-Loop编排

arXiv cs.AI · 3天前 缓存

本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。

0 人收藏 0 人点赞

CombEval: 评估大语言模型中组合计数能力的框架

arXiv cs.AI · 3天前 缓存

CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈