我测试了Claude的“快速C++”,并没有更快

Reddit r/LocalLLaMA 新闻

摘要

一位开发者对Claude的C++代码进行了基准测试,发现要求达到最高速度往往会引入内存安全违规,而实际性能却没有提升,从而打破了速度与安全之间权衡的假设。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:39

# 我对 Claude 的“快速 C++”做了基准测试。它并没有更快 来源:https://lucisqr.substack.com/p/i-benchmarked-claudes-fast-c-it-wasnt 几天前我展示了,在 C++ 提示词中加入“使其尽可能快”大约会使四个前沿模型返回的**内存安全违规数翻倍**。这个延迟指令使模型放弃 `std::span`,转而手写裸指针遍历——正是 C++29 边界规范(bounds profile)要禁止的构造。 一小时内,我就收到了明显的反对意见,以几种不同措辞表达同一种意思:好吧,但快速版本确实更快。这就是取舍。你用安全换取速度,在热路径上你每次都做这个取舍。 这是一个合理的假设。但它也是错误的,我可以给你看指令周期计数。裸指针并没有带来速度提升。带来速度的是别的东西,而那个东西在保持边界完整的情况下完全可以做到。所以大家以为存在的取舍其实不存在:不安全的版本并不是更快的版本,它只是一个不安全的版本。 https://hftuniversity.com/post/your-ai-s-fast-c-wasn-t-faster-and-one-sentence-makes-it-safe **#cpp** **#cplusplus** **#programming** **#hft** **#claude** --- ### 关于此帖的讨论 ### 想要更多内容?

相似文章

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。