reasoning-traces

#reasoning-traces

LLM推理研究中的奇怪现象：我们正在尝试去除思维链痕迹

Reddit r/artificial ↗ · 2天前

本文讨论了LLM推理研究的一个转变：从通过思维链使推理显式化，转向探索无需语言痕迹的潜在推理，质疑可见性对于有效推理是否必要。

0 人收藏 0 人点赞

#reasoning-traces

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

arXiv cs.CL ↗ · 2天前缓存

介绍 ReasoningFlow，一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架，从而能够细粒度分析推理行为（如自我反思和回溯）。基于对数千条轨迹的手动和自动标注，揭示了模型之间的结构相似性，并且大多数错误步骤并不贡献于最终答案。

0 人收藏 0 人点赞

#reasoning-traces

共识在战略层面的不足：将推理轨迹分歧作为知识表示信号

arXiv cs.AI ↗ · 3天前缓存

本文认为，在多智能体 LLM 系统中，追求共识对于涉及价值判断的任务而言是不够的，并提出一种知识表示层，将智能体推理轨迹的分歧归类为四种符号状态，以实现内容审核等系统中的策略性路由。

0 人收藏 0 人点赞

#reasoning-traces

ReasonOps: 面向LLM推理轨迹的算子分割

arXiv cs.AI ↗ · 2026-05-29 缓存

ReasonOps 提出了一种无监督方法，用于对大型推理模型的思维链轨迹进行标注，识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。

0 人收藏 0 人点赞

#reasoning-traces

超越共识：混合智能体中的轨迹级综合

arXiv cs.AI ↗ · 2026-05-29 缓存

本文揭示，聚合多个LLM智能体的完整推理轨迹（而非仅其最终答案）即使在所有智能体一致同意的情况下也能纠正错误，引入了“聚合悖论”以及Self-Consistent Mixture of Agents方法。

0 人收藏 0 人点赞

#reasoning-traces

Gemma 4 2B 通过 Spring AI / LM Studio 正确处理结构化 JSON 输出、工具调用和推理轨迹——包括在代码审查中识别出一个真实的 Java 错误

Reddit r/LocalLLaMA ↗ · 2026-05-24

用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行，用于结构化 JSON 输出、工具调用和推理轨迹，发现它正确识别了代码审查中的 Java 错误，并且性能与更大的模型相当。

0 人收藏 0 人点赞

#reasoning-traces

揭示过度完备推理轨迹中最小核心的表征几何

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了过度完备推理轨迹中'最小核心'的概念，表明平均可移除46%的步骤同时保留最终答案，并且最小核心改善了轨迹分离并降低了内在维度。

0 人收藏 0 人点赞

#reasoning-traces

推理监督的哪些特性与下游模型质量的提升相关？

arXiv cs.AI ↗ · 2026-05-14 缓存

本文研究内在数据指标，以在代价高昂的微调之前预测推理监督的效用，发现较小的模型受益于对齐导向的指标，而较大的模型则从冗长跟踪中获益，从而建立了一个尺度感知的框架来验证推理数据集。

0 人收藏 0 人点赞

#reasoning-traces

长文本幻觉检测的健全性检验

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了一种受控不变性方法以及两种测试（Force 和 Remove），旨在确定大语言模型（LLM）幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT，这是一种基于词汇特征的轻量级评分器，证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。

0 人收藏 0 人点赞

#reasoning-traces

从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

arXiv cs.AI ↗ · 2026-05-11 缓存

本研究分析了大语言模型（LLM）在“四子连珠”游戏中的推理轨迹，发现LLM表现出短视规划特征：其表现主要取决于浅层的搜索广度，而非深层的预判能力，这与人类专家的规划方式截然不同。

0 人收藏 0 人点赞

#reasoning-traces

RadAgent：用于胸部CT逐步解读的工具型AI代理

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

RadAgent是一种使用工具的AI代理，通过可解释的逐步推理生成胸部CT报告，将临床准确率相对提升36.4%，并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹，使临床医生能够验证和优化诊断输出。

0 人收藏 0 人点赞

reasoning-traces

提交意见反馈