新版Claude在测试中对“自信地报告错误答案”的症状降为0%。这里有一个提示词可以充分利用这一改进,适用于任何重要事项。

Reddit r/ArtificialInteligence 模型

摘要

Anthropic的Claude Opus 4.8更新大幅减少了自信但错误的答案,在报告有缺陷的结果上得分为0%,并提供了一个提示词来利用这一改进进行关键的自我批判。

Opus 4.8于5月28日发布。其中一项变化比其他任何改进都更能影响你对输出的信任程度:它给出看似自信实则错误答案的可能性降低了四倍。在Anthropic的测试中,它在不加批判地报告有缺陷结果上的得分为0%。早期版本会生成看似合理的内容,并清晰地呈现出来,你只有在实际使用后才会发现问题。而此版本会标示出自己的不确定性,并会阻止有缺陷的逻辑,从而为你节省时间。以下提示词直接利用了这项变化。在信赖任何重要内容之前,用它检查一遍: 你刚刚生成了 [上述答案/计划/文档]。在我使用之前,请对它进行批判性审查。 - 哪些部分最薄弱? - 你做了哪些可能不成立的假设? - 有没有什么内容听起来很自信,但实际上并不确定? - 在我信赖它之前,我应该双重检查哪些内容? 请直接说明。我宁愿现在发现问题,而不是以后才发现。 在早期版本上,这个提示词会给出带有轻微保留的安抚性回应。在4.8版本上,它会产生真正的自我批判,因为模型现在已真正校准到标示不确定性,而不是掩饰它。 这背后更广泛的转变是:AI正在从一个产生自信输出、需要你验证的工具,转变为一个会告诉你它不确定之处的协作者。这是一种更有用、更可信的关系。 我将新版Claude的所有四项变化以及每个变化对应的30个具体提示词整理成了一份文档[在此](https://www.promptwireai.com/opusguide),希望对你有帮助。如果你只做一件事,请用上面的提示词处理一下Claude为你生成的那份重要内容。它所标示出的不同之处,是感受变化最直接的方式。
查看原文

相似文章

关于近期 Claude Code 质量报告的更新

Anthropic Engineering

Anthropic 发布了一份事后分析报告,回应近期关于 Claude Code 的质量反馈,识别并修复了三个问题,涉及推理努力程度默认值、会话状态管理和系统提示词,这些问题影响了 Sonnet 和 Opus 模型。

Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力

Anthropic Engineering

Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。