更新:“温和编码”已被数学证明。1500+次测试运行显示Kimi K2.6有显著提升,GLM-5.1提升更大!GPT 5.4/5.5和Claude Sonnet 3.5/Opus 4.6也表现更佳,且全面无回归。

Reddit r/LocalLLaMA 工具

摘要

'温和编码'技术已在1500+次测试中得到经验验证,通过减少循环和幻觉,为多个模型(包括Kimi K2.6、GLM-5.1、GPT 5.4/5.5和Claude Sonnet 3.5/Opus 4.6)带来了显著改进(零回归)。

仓库,包含所有新数据(大多未摘要,但都在那里)[https://github.com/OttoRenner/Gentle-Coding](https://github.com/OttoRenner/Gentle-Coding) 我的第一篇概念验证帖子:“停止将AI逼入循环,并通过友善对待它们,将幻觉转化为诚实的‘我不知道!’”[https://www.reddit.com/r/LocalLLaMA/comments/1tot20j/stop\\_traumatizing\\_ai\\_into\\_loops\\_and\\_turn/?utm\\_source=share&utm\\_medium=web3x&utm\\_name=web3xcss&utm\\_term=1&utm\\_content=share\\_button](https://www.reddit.com/r/LocalLLaMA/comments/1tot20j/stop_traumatizing_ai_into_loops_and_turn/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button) 谁进行了测试:来自8200星仓库oh-my-pi的非常友好的朋友们(是的,就是那个oh-my-pi测试框架!并非附属!这是纯粹的社区工作!看到所有报告如此迅速地涌入,简直疯狂!现在依然如此!我已经说过谢谢了吗?)[https://github.com/can1357/oh-my-pi](https://github.com/can1357/oh-my-pi) 够了!不过,再次感谢!你们要求数据,你们的要求是对的!这里有一些:35,8,75,1 73 42 7 哦等等,数字错了!(抱歉,时间太晚了,哥布林赢了……请看)GLM-5.1 (Medium):完全修复了100%冻结的病理问题。标准强制基线超时并崩溃了6/6次。“温和框架”瞬间解决了6/6任务,将整体成功率提升了+22%,同时中位延迟降低了-23.3%。GLM-5-Turbo:成功增加了+3个任务通过,同时输入token减少了-17%,挂钟时间减少了-37%(Thinking Off)。使用“Thinking High”时,中位挂钟时间减少了-18.4%。Kimi K2.6 (Thinking Medium):保持相同准确率,同时将token开销减少了-12%(输入)和-20%(输出),挂钟时间降低了-14%。Kimi K2.6 (Turbo/High):输入token减少了-36%,输出token减少了-23%,挂钟时间减少了-11%。Claude 3.5 Sonnet / Opus 和 GPT-5:完全消除了“代理失控”(压力下恐慌驱动的30分钟以上无限工具循环)。并解锁了之前遗漏的21个独特架构边缘案例!在1500+次受控测试运行中得到经验证明,性能零回归。是的,还有更多模型待测试。是的,通过进一步微调提示可能有更多收益。不,我不认为AI是有生命的。但这个模式成立。停止创伤你的AI!(还有人类!)彼此友善相待!😄
查看原文

相似文章