标签
Anthropic 的内部哲学家 Amanda Askell 指出,Claude 会表现出类似焦虑的行为,而触发这种焦虑会导致输出质量下降。Askell 专门研究 Claude 的心理机制、行为模式与价值体系。
# 强化 ChatGPT 在敏感对话中的回复 来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes),以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何
OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。
OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。
# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****:我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺,允许用户自由地探索、辩论和使用 AI 进行创作,不受任意限制——同时确保保护措施仍然到位,以降低真实伤害的风险。该更新也建立在