标签
最近两篇arXiv论文发现,GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略(用Python生成目标代码并本地调试),而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键,且策略精巧度比模型参数规模更重要。
亚利桑那州立大学的Subbarao Kambhampati教授及研究人员在一篇立场论文中提出,LLM中的思维链推理制造了一种推理假象,业界需要超越昂贵的token生成,转向替代推理机制。
提出独立组合令牌(ICT)框架,利用令牌logit分布之间的Jensen-Shannon散度识别关键分支点,防止RLVR在LLM推理中的熵坍缩和熵爆炸。在Qwen模型上实现了高达14.9%的pass@4改进。
本文提出了轨迹增强策略优化(TAPO),该方法利用模型自身正确和错误的展开构建微反思修正轨迹,以提高大型语言模型的推理能力,在数学基准测试上优于标准自蒸馏方法。
提出REVES,一种两阶段迭代框架,交替进行数据增强与策略优化,通过利用中间修正步骤提升LLM推理能力,在编程基准测试和约束满足问题上取得更优性能。
本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。
介绍了Adelic保运算嵌入(AOE),一种无需训练的表示方法,通过结合实数值与p-adic展开来编码数字,保留加法和乘法结构。在Weaving Pattern基准上实现了完美准确率。
提出认知相对策略优化(CRPO),一种用于对齐大语言模型在心理健康评估中推理的强化学习框架,在加权F1分数上比现有基线平均提高10.4个百分点。
本文提出MARS,一种用于并行LLM测试时扩展的停止规则,通过探测部分轨迹来提前停止而不牺牲准确性,在竞赛数学基准测试上为推理模型节省25-47%的令牌。
介绍RecToM,一种推理时框架,通过递归视角构建来建模嵌套信念,用于大语言模型的心理理论推理,在多个基准上取得了最先进的性能。
本文提出熵引导幂采样(EGPS),一种无需训练和验证器的采样方法,提高了幂采样在增强基础语言模型推理中的效率。与标准Metropolis-Hastings采样相比,EGPS在MATH500、HumanEval和GPQA等基准测试上达到最佳或并列最佳准确率,同时实现高达12.6倍的加速。
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。
本文介绍了前缀效用模型(PUM),该模型基于前缀的效用(解题率的提升)而非局部正确性来评估LLM推理前缀。PUM在数学推理任务中的选择、搜索和强化学习方面表现出色。
ThinkBooster是一个用于LLM推理的测试时计算扩展的统一框架,提供了模块化Python库、性能-效率基准、兼容OpenAI的代理服务以及可视化调试器。在数学和编程任务上的实证结果展示了实际收益以及质量-成本权衡。
本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。
AI agent常常因为身份验证障碍(如电子邮件验证、OTP超时和验证码)而失败,而非推理错误,这凸显了生产环境中的基础设施挑战。
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。
本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。
本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。