llm-reasoning

#llm-reasoning

@Gracker_Gao: AI 论文：强AI写代码的方式不是写代码最近两篇arXiv论文揭示了一个反直觉发现：GPT-5.4和Claude Opus 4.6遇到陌生编程语言时，根本不直接写目标语言代码——而是写Python程序来生成目标代码，再本地调试。这种"元…

X AI KOLs Timeline ↗ · 19小时前缓存

最近两篇arXiv论文发现，GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略（用Python生成目标代码并本地调试），而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键，且策略精巧度比模型参数规模更重要。

0 人收藏 0 人点赞

#llm-reasoning

@rao2z: \"当LLM输出逐步计划时，它会产生一种强烈的错觉，让你以为正在观看机器推理...

X AI KOLs Following ↗ · 2天前缓存

亚利桑那州立大学的Subbarao Kambhampati教授及研究人员在一篇立场论文中提出，LLM中的思维链推理制造了一种推理假象，业界需要超越昂贵的token生成，转向替代推理机制。

0 人收藏 0 人点赞

#llm-reasoning

超越熵：从令牌级分布偏差中学习以提升LLM推理

arXiv cs.AI ↗ · 4天前缓存

提出独立组合令牌（ICT）框架，利用令牌logit分布之间的Jensen-Shannon散度识别关键分支点，防止RLVR在LLM推理中的熵坍缩和熵爆炸。在Qwen模型上实现了高达14.9%的pass@4改进。

0 人收藏 0 人点赞

#llm-reasoning

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文提出了轨迹增强策略优化（TAPO），该方法利用模型自身正确和错误的展开构建微反思修正轨迹，以提高大型语言模型的推理能力，在数学基准测试上优于标准自蒸馏方法。

0 人收藏 0 人点赞

#llm-reasoning

REVES: REVES：修订与验证增强的测试时扩展训练

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

提出REVES，一种两阶段迭代框架，交替进行数据增强与策略优化，通过利用中间修正步骤提升LLM推理能力，在编程基准测试和约束满足问题上取得更优性能。

0 人收藏 0 人点赞

#llm-reasoning

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了CoRA，一种基于GRPO的强化学习框架，旨在将LLM的置信度与生成的理由对齐，以提高思维链推理的可靠性，在多个基准测试中将不对齐误差降低了高达26.51%。

0 人收藏 0 人点赞

#llm-reasoning

数字已经自带嵌入

arXiv cs.LG ↗ · 2026-06-15 缓存

介绍了Adelic保运算嵌入（AOE），一种无需训练的表示方法，通过结合实数值与p-adic展开来编码数字，保留加法和乘法结构。在Weaving Pattern基准上实现了完美准确率。

0 人收藏 0 人点赞

#llm-reasoning

Mental-R1：对齐LLM推理用于心理健康评估

arXiv cs.AI ↗ · 2026-06-12 缓存

提出认知相对策略优化（CRPO），一种用于对齐大语言模型在心理健康评估中推理的强化学习框架，在加权F1分数上比现有基线平均提高10.4个百分点。

0 人收藏 0 人点赞

#llm-reasoning

MARS: 面向并行LLM测试时扩展的边际对抗风险控制停止策略

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出MARS，一种用于并行LLM测试时扩展的停止规则，通过探测部分轨迹来提前停止而不牺牲准确性，在竞赛数学基准测试上为推理模型节省25-47%的令牌。

0 人收藏 0 人点赞

#llm-reasoning

关注视角：为心理理论进行递归推理

arXiv cs.AI ↗ · 2026-06-11 缓存

介绍RecToM，一种推理时框架，通过递归视角构建来建模嵌套信念，用于大语言模型的心理理论推理，在多个基准上取得了最先进的性能。

0 人收藏 0 人点赞

#llm-reasoning

在困难处采样：通过熵引导的幂采样增强基础模型推理

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出熵引导幂采样（EGPS），一种无需训练和验证器的采样方法，提高了幂采样在增强基础语言模型推理中的效率。与标准Metropolis-Hastings采样相比，EGPS在MATH500、HumanEval和GPQA等基准测试上达到最佳或并列最佳准确率，同时实现高达12.6倍的加速。

0 人收藏 0 人点赞

#llm-reasoning

早期令牌置信度预测多智能体LLM辩论中的推理质量

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量，发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。

0 人收藏 0 人点赞

#llm-reasoning

TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

TRACE是一个统一的展开预算分配框架，通过基于前缀信息性在树状展开中动态分配资源，增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。

0 人收藏 0 人点赞

#llm-reasoning

从正确性到效用：基于增益的LLM推理前缀评估

arXiv cs.CL ↗ · 2026-06-08 缓存

本文介绍了前缀效用模型（PUM），该模型基于前缀的效用（解题率的提升）而非局部正确性来评估LLM推理前缀。PUM在数学推理任务中的选择、搜索和强化学习方面表现出色。

0 人收藏 0 人点赞

#llm-reasoning

ThinkBooster: 用于LLM推理的无缝测试时计算扩展的统一框架

arXiv cs.CL ↗ · 2026-06-08 缓存

ThinkBooster是一个用于LLM推理的测试时计算扩展的统一框架，提供了模块化Python库、性能-效率基准、兼容OpenAI的代理服务以及可视化调试器。在数学和编程任务上的实证结果展示了实际收益以及质量-成本权衡。

0 人收藏 0 人点赞

#llm-reasoning

大型语言模型是否适用于图计算？进展与展望

arXiv cs.CL ↗ · 2026-06-08 缓存

本综述回顾了大型语言模型在图计算中的应用，将其分为两种范式：LLM作为执行器和LLM作为规划器。研究发现，LLM在简单任务上表现良好，但在大规模精确计算方面不可靠，并提出了未来方向。

0 人收藏 0 人点赞

#llm-reasoning

AI agent在身份验证步骤比推理步骤更容易失败。其他人也有发现吗？

Reddit r/artificial ↗ · 2026-06-05

AI agent常常因为身份验证障碍（如电子邮件验证、OTP超时和验证码）而失败，而非推理错误，这凸显了生产环境中的基础设施挑战。

0 人收藏 0 人点赞

#llm-reasoning

LLM推理研究中的奇怪现象：我们正在尝试去除思维链痕迹

Reddit r/artificial ↗ · 2026-06-05

本文讨论了LLM推理研究的一个转变：从通过思维链使推理显式化，转向探索无需语言痕迹的潜在推理，质疑可见性对于有效推理是否必要。

0 人收藏 0 人点赞

#llm-reasoning

基于外部子图生成的大语言模型逐步推理增强

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了SGR框架，通过查询相关的子图生成将外部知识图谱与大语言模型相结合，融合基于Cypher的推理与协同推理集成，从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明，该框架相比标准提示方法和知识增强基线具有更高的推理准确性。

0 人收藏 0 人点赞

#llm-reasoning

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了提示引导的多样化策略优化（HDPO），这是一个两阶段强化学习框架，鼓励LLMs首先生成多个候选解决方案大纲（提示），然后选择最可靠的一个进行详细推理，从而提升推理的多样性和可靠性。

0 人收藏 0 人点赞

llm-reasoning

提交意见反馈