arxiv

标签

Cards List
#arxiv

过去6个月arXiv人工智能论文的交互式语义流分析

Reddit r/ArtificialInteligence · 昨天

TraceScope 提供了一个基于交互式网页的工具,用于探索 arXiv 上最新人工智能论文的语义流,其开源库可在 GitHub 上获取。

0 人收藏 0 人点赞
#arxiv

ReFlect:用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI · 昨天 缓存

本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。

0 人收藏 0 人点赞
#arxiv

SkillRet:面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI · 昨天 缓存

本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞
#arxiv

多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI · 昨天 缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞
#arxiv

大语言模型搜索代理的推理时预算控制

arXiv cs.AI · 昨天 缓存

本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞
#arxiv

GCCM:通过对比一致性模型增强生成图预测

arXiv cs.AI · 昨天 缓存

本文介绍了 GCCM,一种图对比一致性模型。该模型通过引入负样本对和特征扰动,缓解了一致性训练中的捷径问题,从而提升了生成图预测的效果。

0 人收藏 0 人点赞
#arxiv

DataDignity:用于大型语言模型的训练数据归属

arXiv cs.AI · 昨天 缓存

本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。

0 人收藏 0 人点赞
#arxiv

向思维模型教授工具推理:工具集成推理的全流程方案

arXiv cs.CL · 昨天 缓存

本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。

0 人收藏 0 人点赞
#arxiv

近似下一策略采样:在深度强化学习中替代保守目标策略更新

arXiv cs.LG · 昨天 缓存

本文引入了近似下一策略采样(ANPS)作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代(SV-API)和 SV-RL,通过将训练数据与下一策略的状态分布对齐,从而实现更大且更安全的策略更新。

0 人收藏 0 人点赞
#arxiv

重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习

arXiv cs.CL · 昨天 缓存

本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。

0 人收藏 0 人点赞
#arxiv

用于评估知识图谱构建方法和图神经网络的统一基准

arXiv cs.LG · 昨天 缓存

本文介绍了一个统一的基准测试,旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性,以及生物医学领域图构建方法的有效性。

0 人收藏 0 人点赞
#arxiv

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL · 昨天 缓存

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

0 人收藏 0 人点赞
#arxiv

恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers · 2026-05-01 缓存

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。

0 人收藏 0 人点赞
#arxiv

基于分位词元与邻居上下文的文本到分布预测

arXiv cs.CL · 2026-04-23 缓存

亚马逊与斯坦福研究者提出分位词元回归,通过在 LLM 输入中插入专用分位词元来预测完整概率分布,在 Airbnb 与 Stack Overflow 基准上实现约 4 个百分点 MAPE 降低与 2 倍更窄区间。

0 人收藏 0 人点赞
#arxiv

言过其实:量化大语言模型认知-修辞失准的框架

arXiv cs.CL · 2026-04-23 缓存

提出一套量化框架,揭示 LLM 如何借修辞手段夸大确定性,并发现跨模型的认知-修辞失准共性。

0 人收藏 0 人点赞
#arxiv

基于语言模型的知识图谱构建

arXiv cs.CL · 2026-04-22 缓存

昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱,并提出了轻量级大语言模型框架LLHKG,其性能可媲美GPT-3.5。

0 人收藏 0 人点赞
#arxiv

情绪会影响大语言模型的道德判断吗?

arXiv cs.CL · 2026-04-22 缓存

辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。

0 人收藏 0 人点赞
#arxiv

语言模型中基于单元的关系绑定表示

arXiv cs.CL · 2026-04-22 缓存

研究表明,大型语言模型通过“基于单元的绑定表示”(CBR)对篇章级关系绑定进行编码:一种低维线性子空间,每个“单元”对应实体-关系索引对,为模型如何追踪实体与关系提供了因果证据。

0 人收藏 0 人点赞
#arxiv

辩论未言之隐:角色锚定的多智能体推理检测半真半假

arXiv cs.CL · 2026-04-22 缓存

RADAR 提出角色锚定的多智能体辩论框架,让“政客”与“科学家”智能体在证据上对抗推理,识别因遗漏语境而具误导性的半真半假,在 omission-aware 事实验证上全面超越基线。

0 人收藏 0 人点赞
#arxiv

信息密度对用户生成内容命名实体识别影响的机制与优化研究

arXiv cs.CL · 2026-04-22 缓存

arXiv 预印本指出,信息密度低是 NER 在嘈杂用户生成内容性能崩溃的根本原因,并提出窗口感知优化模块(WOM),在 WNUT2017 上最高提升 F1 4.5%。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈