@jakevin7: DeepSeek V4 的"Think Max"模式,本质就是在 prompt 开头加了一句"你必须把每一步都想清楚,不许走捷径" 所以推理能力到底是涌现的,还是……被骂出来的?
摘要
DeepSeek V4的"Think Max"模式实际上只是在prompt开头添加了要求逐步思考的指令,引发了对推理能力来源的讨论。
查看缓存全文
缓存时间: 2026/06/08 15:22
DeepSeek V4 的“Think Max“模式,本质就是在 prompt 开头加了一句“你必须把每一步都想清楚,不许走捷径“
所以推理能力到底是涌现的,还是……被骂出来的?
相似文章
@wsl8297: 平时拿 DeepSeek 写代码的人,可以看看 DeepSeek-Code-Whale。 GitHub:https://github.com/usewhale/DeepSeek-Code-Whale… 开源终端 AI 编程 Agent,专…
DeepSeek-Code-Whale 是一个开源的终端 AI 编程代理,专门为 DeepSeek 模型优化,支持 MCP 工具、Skills 扩展、前缀缓存优化(90% 缓存命中率)和 1M 上下文窗口,旨在降低 AI 编程成本并提供高效的命令行工作流。
@PKUCXK: 你可以在思考模式(通过网页/应用)中尝试以下两个提示,以获得在某些领域(如计数)更好的模型体验…
Xiaokang Chen 分享了两个提示词「Think with Grounding」和「Think with Pointing」,用于在思考模式下提升模型在计数等领域的表现。这些提示词利用边界框和点,使多模态大模型的推理过程更接近人类思维。
@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告,对所有主流大模型做了一轮横评,结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。 不是 GPT,不是 Claude,是 Gemini。 但大家用 Gemini 的…
根据DeepSeek V4技术报告对主流大模型的横评,Gemini 3.1 Pro的世界知识被认为最强,但用户普遍觉得不好用,原因是该模型不主动调用搜索工具。
@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…
FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention(LSA)的新型推理范式,通过神经内存索引器主动预测未来上下文需求,将物理KV缓存占用压缩至全上下文基线的13.5%,同时平均精度提升0.6%。该方法采用解耦训练策略,无需加载基座模型即可独立训练索引器,显著降低训练成本。
@jakevin7: 分享一下maka 最近在做一件很有意思的事:让 agent 自动优化自己的 system prompt,完全闭环,不需要任何人工介入。Karpathy 的 autoresearch、AEGIS 等都做过类似方向,一个有目标的自我强化学习系…
Maka是一个本地优先的桌面AI工作台,其新功能让agent自动优化自己的system prompt,通过生成变体、容器评测和acceptance policy迭代改进,无需人工介入。