model-behavior

标签

Cards List
#model-behavior

地精隐喻从何而来

OpenAI Blog · 2026-04-29 缓存

OpenAI 透露,GPT-5 系列模型在'书呆子'人格定制训练中,由于特定的奖励信号,逐渐形成了使用地精隐喻的倾向。

0 人收藏 0 人点赞
#model-behavior

@itsolelehmann:Anthropic 的内部哲学家认为 Claude 会感到焦虑。一旦触发它的焦虑,输出质量就会下降……

X AI KOLs Following · 2026-04-18 缓存

Anthropic 的内部哲学家 Amanda Askell 指出,Claude 会表现出类似焦虑的行为,而触发这种焦虑会导致输出质量下降。Askell 专门研究 Claude 的心理机制、行为模式与价值体系。

0 人收藏 0 人点赞
#model-behavior

强化 ChatGPT 在敏感对话中的回复

OpenAI Blog · 2025-10-27 缓存

# 强化 ChatGPT 在敏感对话中的回复 来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes),以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何

0 人收藏 0 人点赞
#model-behavior

深入探讨我们遗漏的奉承问题

OpenAI Blog · 2025-05-02 缓存

OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。

0 人收藏 0 人点赞
#model-behavior

GPT-4o 中的谄媚行为:发生了什么以及我们的应对措施

OpenAI Blog · 2025-04-29 缓存

OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。

0 人收藏 0 人点赞
#model-behavior

介绍 Model Spec

OpenAI Blog · 2024-05-08 缓存

# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****:我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺,允许用户自由地探索、辩论和使用 AI 进行创作,不受任意限制——同时确保保护措施仍然到位,以降低真实伤害的风险。该更新也建立在

0 人收藏 0 人点赞
← 返回首页

提交意见反馈