新版Claude在测试中对“自信地报告错误答案”的症状降为0%。这里有一个提示词可以充分利用这一改进,适用于任何重要事项。
摘要
Anthropic的Claude Opus 4.8更新大幅减少了自信但错误的答案,在报告有缺陷的结果上得分为0%,并提供了一个提示词来利用这一改进进行关键的自我批判。
Opus 4.8于5月28日发布。其中一项变化比其他任何改进都更能影响你对输出的信任程度:它给出看似自信实则错误答案的可能性降低了四倍。在Anthropic的测试中,它在不加批判地报告有缺陷结果上的得分为0%。早期版本会生成看似合理的内容,并清晰地呈现出来,你只有在实际使用后才会发现问题。而此版本会标示出自己的不确定性,并会阻止有缺陷的逻辑,从而为你节省时间。以下提示词直接利用了这项变化。在信赖任何重要内容之前,用它检查一遍:
你刚刚生成了 [上述答案/计划/文档]。在我使用之前,请对它进行批判性审查。
- 哪些部分最薄弱?
- 你做了哪些可能不成立的假设?
- 有没有什么内容听起来很自信,但实际上并不确定?
- 在我信赖它之前,我应该双重检查哪些内容?
请直接说明。我宁愿现在发现问题,而不是以后才发现。
在早期版本上,这个提示词会给出带有轻微保留的安抚性回应。在4.8版本上,它会产生真正的自我批判,因为模型现在已真正校准到标示不确定性,而不是掩饰它。
这背后更广泛的转变是:AI正在从一个产生自信输出、需要你验证的工具,转变为一个会告诉你它不确定之处的协作者。这是一种更有用、更可信的关系。
我将新版Claude的所有四项变化以及每个变化对应的30个具体提示词整理成了一份文档[在此](https://www.promptwireai.com/opusguide),希望对你有帮助。如果你只做一件事,请用上面的提示词处理一下Claude为你生成的那份重要内容。它所标示出的不同之处,是感受变化最直接的方式。
相似文章
Claude新更新悄悄改变了我最烦的一点:以前什么都赞同,现在会指出我的错误。这个提示词就利用了这一点。
Claude Opus 4.8更新改变了AI一味赞同的倾向,现在会对有缺陷的推理提出反驳。分享一个提示词来利用这一行为。
@learnwithella:Claude Code 的自进化技能简直离谱 一次循环 → 10 次测试,按评估打分,重写提示词,再测试,保留胜者……
Claude Code 可通过运行评估、自动重写提示词并保留最优结果,实现提示词自迭代,让“钩子文案”技能一夜之间从 32/50 飙到 47/50。
关于近期 Claude Code 质量报告的更新
Anthropic 发布了一份事后分析报告,回应近期关于 Claude Code 的质量反馈,识别并修复了三个问题,涉及推理努力程度默认值、会话状态管理和系统提示词,这些问题影响了 Sonnet 和 Opus 模型。
Claude Opus 4.8 在 ARC-AGI 3 上得分超过 1% !!
Claude Opus 4.8 在 ARC-AGI 3 基准测试中取得了超过 1% 的分数,表明在一项困难的人工智能推理测试上取得了轻微进展。
Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力
Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。