标签
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。
ReasonOps 提出了一种无监督方法,用于对大型推理模型的思维链轨迹进行标注,识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。
本文揭示,聚合多个LLM智能体的完整推理轨迹(而非仅其最终答案)即使在所有智能体一致同意的情况下也能纠正错误,引入了“聚合悖论”以及Self-Consistent Mixture of Agents方法。
用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行,用于结构化 JSON 输出、工具调用和推理轨迹,发现它正确识别了代码审查中的 Java 错误,并且性能与更大的模型相当。
本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。
本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。
本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。
本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。
RadAgent是一种使用工具的AI代理,通过可解释的逐步推理生成胸部CT报告,将临床准确率相对提升36.4%,并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹,使临床医生能够验证和优化诊断输出。