reasoning-traces

标签

Cards List
#reasoning-traces

LLM推理研究中的奇怪现象:我们正在尝试去除思维链痕迹

Reddit r/artificial · 2天前

本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。

0 人收藏 0 人点赞
#reasoning-traces

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

arXiv cs.CL · 2天前 缓存

介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。

0 人收藏 0 人点赞
#reasoning-traces

共识在战略层面的不足:将推理轨迹分歧作为知识表示信号

arXiv cs.AI · 3天前 缓存

本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。

0 人收藏 0 人点赞
#reasoning-traces

ReasonOps: 面向LLM推理轨迹的算子分割

arXiv cs.AI · 2026-05-29 缓存

ReasonOps 提出了一种无监督方法,用于对大型推理模型的思维链轨迹进行标注,识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。

0 人收藏 0 人点赞
#reasoning-traces

超越共识:混合智能体中的轨迹级综合

arXiv cs.AI · 2026-05-29 缓存

本文揭示,聚合多个LLM智能体的完整推理轨迹(而非仅其最终答案)即使在所有智能体一致同意的情况下也能纠正错误,引入了“聚合悖论”以及Self-Consistent Mixture of Agents方法。

0 人收藏 0 人点赞
#reasoning-traces

Gemma 4 2B 通过 Spring AI / LM Studio 正确处理结构化 JSON 输出、工具调用和推理轨迹——包括在代码审查中识别出一个真实的 Java 错误

Reddit r/LocalLLaMA · 2026-05-24

用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行,用于结构化 JSON 输出、工具调用和推理轨迹,发现它正确识别了代码审查中的 Java 错误,并且性能与更大的模型相当。

0 人收藏 0 人点赞
#reasoning-traces

揭示过度完备推理轨迹中最小核心的表征几何

arXiv cs.AI · 2026-05-15 缓存

本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。

0 人收藏 0 人点赞
#reasoning-traces

推理监督的哪些特性与下游模型质量的提升相关?

arXiv cs.AI · 2026-05-14 缓存

本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。

0 人收藏 0 人点赞
#reasoning-traces

长文本幻觉检测的健全性检验

arXiv cs.CL · 2026-05-12 缓存

本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。

0 人收藏 0 人点赞
#reasoning-traces

从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

arXiv cs.AI · 2026-05-11 缓存

本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。

0 人收藏 0 人点赞
#reasoning-traces

RadAgent:用于胸部CT逐步解读的工具型AI代理

Hugging Face Daily Papers · 2026-04-16 缓存

RadAgent是一种使用工具的AI代理,通过可解释的逐步推理生成胸部CT报告,将临床准确率相对提升36.4%,并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹,使临床医生能够验证和优化诊断输出。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈