标签
TraceScope 提供了一个基于交互式网页的工具,用于探索 arXiv 上最新人工智能论文的语义流,其开源库可在 GitHub 上获取。
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。
本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。
本文介绍了 GCCM,一种图对比一致性模型。该模型通过引入负样本对和特征扰动,缓解了一致性训练中的捷径问题,从而提升了生成图预测的效果。
本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。
本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。
本文引入了近似下一策略采样(ANPS)作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代(SV-API)和 SV-RL,通过将训练数据与下一策略的状态分布对齐,从而实现更大且更安全的策略更新。
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
本文介绍了一个统一的基准测试,旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性,以及生物医学领域图构建方法的有效性。
本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。
亚马逊与斯坦福研究者提出分位词元回归,通过在 LLM 输入中插入专用分位词元来预测完整概率分布,在 Airbnb 与 Stack Overflow 基准上实现约 4 个百分点 MAPE 降低与 2 倍更窄区间。
昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱,并提出了轻量级大语言模型框架LLHKG,其性能可媲美GPT-3.5。
辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。
研究表明,大型语言模型通过“基于单元的绑定表示”(CBR)对篇章级关系绑定进行编码:一种低维线性子空间,每个“单元”对应实体-关系索引对,为模型如何追踪实体与关系提供了因果证据。
RADAR 提出角色锚定的多智能体辩论框架,让“政客”与“科学家”智能体在证据上对抗推理,识别因遗漏语境而具误导性的半真半假,在 omission-aware 事实验证上全面超越基线。
arXiv 预印本指出,信息密度低是 NER 在嘈杂用户生成内容性能崩溃的根本原因,并提出窗口感知优化模块(WOM),在 WNUT2017 上最高提升 F1 4.5%。