我训练了TIME：基于Qwen模型的短时上下文触发思考而非过度思考

Reddit r/LocalLLaMA 2026/05/18 02:14 论文

time qwen reasoning overthinking qlora training acl-2026

摘要

一个个人项目最终产出了一篇ACL 2026论文，介绍了TIME方法，训练Qwen3模型进行短时、上下文触发的思考，而非过度推理。该工作使用了QLoRA和四阶段课程，所有数据和代码均已开源发布。

这最初是我为我的Open-WebUI设置而做的个人项目。不知怎么地，它最终成了一篇**ACL 2026**论文。不是实验室论文，而是一篇个人独立完成的论文。 **TIME**基本上是我尝试训练**Qwen3**模型在响应真正需要的地方进行短时爆发式思考，而不是一开始就抛出一个巨大的推理块。不仅仅是“让思考变短”或“按任务开启/关闭思考”或“将思考拆分为任务的交错推理”。更像是：当上下文给出理由时，让模型在响应过程中重新思考。时间部分之所以引入，是因为时间是建模潜在上下文变化的一种非常干净的方式：沉默、间隙、过时的假设、截止日期、时区变化等。此外，时间在很多正常对话中本来就很重要。有趣的是，它还有助于解决我所谓的**QwQ**问题。**QwQ**是**原初的过度思考基准最大化**模型，而**Qwen**系列仍然有这种倾向：思考模式可能会为即使是‘hi’这样的琐碎内容消耗1万个token。方法方面：在**Qwen3** 4B/8B/14B/32B上使用**QLoRA**，四阶段课程，**Unsloth**，**vLLM**评估，TIMEBench基准测试。在我自己的个人电脑上本地训练：7950X3D，128GB RAM，RTX Pro 6000 Blackwell 96GB。所有笔记本和数据均可获取，任何人都可以轻松复现（24GB VRAM足以训练14B模型，48GB足以训练32B模型）。我打算稍后在**Qwen3.5**和**Qwen3.6**上做同样的事情，看看是否能减少过度思考的问题。模型上传需要时间，因为合并后的检查点很大，但数据集、笔记本、脚本、训练课程和评估框架已经上传。 **论文**：[https://arxiv.org/abs/2601.05300v2](https://arxiv.org/abs/2601.05300v2) **TIME仓库**（数据和代码）：[https://github.com/The-Coherence-Initiative/TIME](https://github.com/The-Coherence-Initiative/TIME) **TIMEBench仓库**：[https://github.com/The-Coherence-Initiative/TIMEBench](https://github.com/The-Coherence-Initiative/TIMEBench)

查看原文

我训练了TIME：基于Qwen模型的短时上下文触发思考而非过度思考

相似文章

TEMPO：为大推理模型扩展测试时训练

向思维模型教授工具推理：工具集成推理的全流程方案

POV：带思考模式的 Qwen 3.5

量化推理模型自以为需要更长的思考，实则不然

Qwen3.6 35B-A3B在笔记本上的运行：我的从零到一时刻

提交意见反馈