我训练了TIME:基于Qwen模型的短时上下文触发思考而非过度思考
摘要
一个个人项目最终产出了一篇ACL 2026论文,介绍了TIME方法,训练Qwen3模型进行短时、上下文触发的思考,而非过度推理。该工作使用了QLoRA和四阶段课程,所有数据和代码均已开源发布。
这最初是我为我的Open-WebUI设置而做的个人项目。不知怎么地,它最终成了一篇**ACL 2026**论文。不是实验室论文,而是一篇个人独立完成的论文。
**TIME**基本上是我尝试训练**Qwen3**模型在响应真正需要的地方进行短时爆发式思考,而不是一开始就抛出一个巨大的推理块。不仅仅是“让思考变短”或“按任务开启/关闭思考”或“将思考拆分为任务的交错推理”。更像是:当上下文给出理由时,让模型在响应过程中重新思考。
时间部分之所以引入,是因为时间是建模潜在上下文变化的一种非常干净的方式:沉默、间隙、过时的假设、截止日期、时区变化等。此外,时间在很多正常对话中本来就很重要。
有趣的是,它还有助于解决我所谓的**QwQ**问题。**QwQ**是**原初的过度思考基准最大化**模型,而**Qwen**系列仍然有这种倾向:思考模式可能会为即使是‘hi’这样的琐碎内容消耗1万个token。
方法方面:在**Qwen3** 4B/8B/14B/32B上使用**QLoRA**,四阶段课程,**Unsloth**,**vLLM**评估,TIMEBench基准测试。在我自己的个人电脑上本地训练:7950X3D,128GB RAM,RTX Pro 6000 Blackwell 96GB。所有笔记本和数据均可获取,任何人都可以轻松复现(24GB VRAM足以训练14B模型,48GB足以训练32B模型)。
我打算稍后在**Qwen3.5**和**Qwen3.6**上做同样的事情,看看是否能减少过度思考的问题。模型上传需要时间,因为合并后的检查点很大,但数据集、笔记本、脚本、训练课程和评估框架已经上传。
**论文**:[https://arxiv.org/abs/2601.05300v2](https://arxiv.org/abs/2601.05300v2)
**TIME仓库**(数据和代码):[https://github.com/The-Coherence-Initiative/TIME](https://github.com/The-Coherence-Initiative/TIME)
**TIMEBench仓库**:[https://github.com/The-Coherence-Initiative/TIMEBench](https://github.com/The-Coherence-Initiative/TIMEBench)
相似文章
TEMPO:为大推理模型扩展测试时训练
TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。
向思维模型教授工具推理:工具集成推理的全流程方案
本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。
POV:带思考模式的 Qwen 3.5
用户观察到 Qwen 3.5 在生成时陷入重复思考循环。
量化推理模型自以为需要更长的思考,实则不然
本文揭示,对推理模型进行激进的训练后量化会导致过度思考错误增加,即模型在中间步骤得出正确答案却未能作为最终答案输出。对过度思考标记施加简单的logit惩罚,可将思维链长度减少12-23%,同时提升准确率,尤其对量化模型效果显著。
Qwen3.6 35B-A3B在笔记本上的运行:我的从零到一时刻
作者分享了在ASUS Zenbook Pro 14上本地运行Qwen3.6 35B-A3B的体验,在32k上下文下实现了27 TPS的生成速度,标志着向完全本地化AI以保护隐私的个人里程碑。