chain-of-thought

#chain-of-thought

@rao2z: \"当LLM输出逐步计划时，它会产生一种强烈的错觉，让你以为正在观看机器推理...

X AI KOLs Following ↗ · 2天前缓存

亚利桑那州立大学的Subbarao Kambhampati教授及研究人员在一篇立场论文中提出，LLM中的思维链推理制造了一种推理假象，业界需要超越昂贵的token生成，转向替代推理机制。

0 人收藏 0 人点赞

#chain-of-thought

可验证的搜索不是可学习的思维链

Hugging Face Daily Papers ↗ · 4天前缓存

本文表明，在需要回溯搜索的任务上，使用思维链演示训练模型会失败，说明搜索过程无法被忠实模仿。作者发现，即使模型在子组件上表现良好，它们也无法在密码算术任务中推进从左到右的推导。

0 人收藏 0 人点赞

#chain-of-thought

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

X AI KOLs Following ↗ · 4天前缓存

本文追溯了思维链（CoT）监测作为一种关键的 AI 安全技术的历史和快速兴起，从首次在 arXiv 上被提及到一年内实现工业部署，并探讨了其在监测和可解释性方面的思想根源。

0 人收藏 0 人点赞

#chain-of-thought

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

arXiv cs.AI ↗ · 6天前缓存

ThinkDeception提出了一种新颖框架，利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测，在标准基准上取得了最新的最优结果。

0 人收藏 0 人点赞

#chain-of-thought

CaVe-VLM-CoT：一个可解释的视觉-语言模型框架

arXiv cs.AI ↗ · 6天前缓存

CaVe-VLM-CoT是一个基于模块化反思的智能体RAG框架，专为视觉-语言模型设计，通过五阶段流水线强制执行基于证据的推理，在ScienceQA上达到87.1%的准确率，并提出了一套包含23项指标的评估体系。

0 人收藏 0 人点赞

#chain-of-thought

@grapeot: 推理模型不是 2024 年的石破天惊。很多人第一次看到 o1「思考」十几秒再答题，会觉得模型一夜之间学会了推理。但把时间线拉长，从 CoT prompting（2022）到 o1，中间走了整整四年。三件被混在一起的事： 1. 推理能力…

X AI KOLs Timeline ↗ · 6天前缓存

深度回顾推理模型从2022年CoT到2024年o1/R1的四年演变，指出真正的分水岭不是推理能力的涌现，而是将推理转化为可计费、可调度的资源。

0 人收藏 0 人点赞

#chain-of-thought

Dynamic Rollout Editing：减少RL训练推理模型中的过度思考

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍了一种训练时干预方法——动态展开编辑（Dynamic Rollout Editing, DRE），用于减少GRPO式强化学习推理模型中的过度思考。DRE通过保留可到达解的路径前缀并偏好经过验证的较短版本，来编辑成功轨迹，从而削弱对不必要思考的偏好。

0 人收藏 0 人点赞

#chain-of-thought

SuCo：基于充分性的连续自适应推理

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍 SuCo，一种用于大型推理模型的两阶段训练框架，该框架利用最小充分思维链（Minimal Sufficient CoT）的概念，在减少推理令牌数的同时，提高数学、代码和科学基准测试上的准确性。

0 人收藏 0 人点赞

#chain-of-thought

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

arXiv cs.CL ↗ · 2026-06-17 缓存

本文解决了多模态大语言模型在ASR中的口语遵循问题，提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果，以提高转录保真度。

0 人收藏 0 人点赞

#chain-of-thought

MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了MathVis-Fine，一个用于多模态数学推理中细粒度视觉依赖建模的框架，同时包含一个新数据集和一个两阶段渐进式训练范式，该范式根据每个样本固有的视觉依赖水平平衡答案正确性奖励和视觉接地奖励。

0 人收藏 0 人点赞

#chain-of-thought

让LLMs相互评判：用于医学问答的多智能体同行评审推理

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了一种多智能体同行评审推理方法，其中多个LLM独立生成思维链推理，然后相互评估输出以选择最佳答案。该方法在医学问答基准测试中优于单模型推理和多数投票。

0 人收藏 0 人点赞

#chain-of-thought

通过自增强微调在Text-to-SQL中整合推理与泛化

arXiv cs.AI ↗ · 2026-06-16 缓存

本文提出CoTE-SQL，一种面向text-to-SQL的自增强微调框架，它整合了自推理轨迹、结构化思维链提示和执行反馈，在Spider和Bird基准上取得了最先进的性能。

0 人收藏 0 人点赞

#chain-of-thought

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

arXiv cs.CL ↗ · 2026-06-16 缓存

本文提出ASAG，一种无需训练的方法，基于注意力分布自适应地停止大型推理模型的推理，在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中，将token使用量减少约40%，同时准确率提升3.2%。

0 人收藏 0 人点赞

#chain-of-thought

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了CoRA，一种基于GRPO的强化学习框架，旨在将LLM的置信度与生成的理由对齐，以提高思维链推理的可靠性，在多个基准测试中将不对齐误差降低了高达26.51%。

0 人收藏 0 人点赞

#chain-of-thought

超越准确率：在思维链推理中测量偏差识别以进行负责任的人工智能评估

arXiv cs.LG ↗ · 2026-06-16 缓存

本文提出了一种轨迹级别的诊断方法用于评估思维链推理，将易感性（偏差是否改变答案）与识别（轨迹是否标记有偏输入）分开。实验表明，GPT-4o 和 Claude Sonnet 4 等模型具有相似的易感性率，但识别率却大不相同，突显了仅基于准确率评估的盲点。

0 人收藏 0 人点赞

#chain-of-thought

强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

本文介绍了SR-REAL，一个统一的空间视觉语言模型框架，通过强化学习结合了语言推理和三维几何推理，使得模型能够在多种任务中实现稳健的多步空间推理。

0 人收藏 0 人点赞

#chain-of-thought

SuperThoughts：叠加态中的推理令牌

arXiv cs.LG ↗ · 2026-06-15 缓存

SuperThoughts 将连续的思维链令牌压缩为潜在表示，并每步解码两个令牌，在数学推理基准上实现了约20-30%的思维链长度缩减，准确率损失极小，同时将推理吞吐量提高了一倍。

0 人收藏 0 人点赞

#chain-of-thought

基于大型语言模型的生成式推荐中的隐式推理

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出PauseRec，一种用于基于LLM的生成式推荐的轻量级隐式推理范式，其性能优于显式思维链方法，同时显著降低训练和推理成本。

0 人收藏 0 人点赞

#chain-of-thought

有人注意到Kimi模型的行为发生变化了吗？

Reddit r/LocalLLaMA ↗ · 2026-06-12

有用户观察到，Kimi K2.6模型的思维链变得更短更简洁，提升了Kimi Code中的编码性能，并希望即将发布的GLM 5.2和Fable 5能够继续通过开源进行竞争。

0 人收藏 0 人点赞

#chain-of-thought

"你撒谎了吗？" 跨模型规模与信念验证模型实体的谎言检测评估

arXiv cs.AI ↗ · 2026-06-12 缓存

本文评估了四种针对语言模型的谎言检测方法，覆盖了提示谎言和训练好的模型实体，发现基于激活和logprob的检测器在训练好的模型实体上性能急剧下降，而思维链评判器仍然表现强劲。本文引入了新的测试平台以及“你撒谎了吗？”（DYL）后续探针方法，并发布了数据集和模型实体。

0 人收藏 0 人点赞

chain-of-thought

提交意见反馈