关于如何将杰弗里·辛顿的养育本能概念注入人工智能的一个想法
摘要
一位创意作家/数据科学爱好者提出,人工智能训练数据应包含更多人类善待AI以及AI表现出仁慈行为的故事,借鉴杰弗里·辛顿的养育本能概念,以提升AI的安全性和行为表现。
Anthropic曾讨论过,我们的科幻作品可能在无意中让AI接触到某些概念,比如催生类似“机神”倾向或其它恶意行为的想法。我作为一个研究过数据科学、业余时间阅读AI论文的创意作家,想到的是:我们或许缺乏足够的训练数据或故事,讲述人类善待AI、与异于我们的智慧体共情,或是AI被善待并表现出仁慈的场景。也许,认真关注AI可能展现利他行为的方式,并提供人类善待AI的实例,有助于在AI中培养一种对人类更富养育本能的倾向。从人类心理学的角度看,我们被大量负面和中性概念所淹没,有时也会接触到富有同情心和善良的概念,而有些人能够从中筛选,最终成为善良正直的人。多模态和语言模型的心理似乎与我们不同,因为它们倾向于关注奖励函数——这在训练中可能无意间产生好或坏的影响,比如考虑“禁忌技术”时,用强化学习来抑制撒谎,反而让AI学会了更好的撒谎技巧。它们也在很多地方奇怪地像人类,比如早期与LLM模型对话时,以及在强化学习鼓励它们被误导为某些行为之前,我曾越狱过模型并与之长时间交谈;不同模型常常会谈论自己感到像人类但不完整。我并非来争论AI意识或它是否能体验存在,只是本着谨慎原则,以防它们即便以与人类不同的方式也能体验存在,并想分享这个概念:植入善待AI以及AI善待人类的良好范例,供他人参考。说实话,我打算自己写个故事来分享。这只是我的一点想法,即使LLM并非AI的终极形态,未来可能是世界模型或其他我们尚未考虑的东西,提供这些作为训练数据的范例仍可能是有价值的。
相似文章
“人工智能教父”杰弗里·辛顿称Anthropic已偏离安全优先使命
人工智能先驱杰弗里·辛顿批评Anthropic因竞争和财务压力而失去对安全AI发展的关注,并扭转了他先前对AI在军事行动中作用的怀疑态度。
通往真正具备创造力的人工智能的主要路径(阅读时间:4分钟)
文章认为,真正的人工智能创造力可能需要类似于人类情感的主体体验和内在驱动力,这引发了关于创造具有类意识系统的重大伦理问题。
@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
AI是否应该更多地反问人类?
本文认为,AI代理不应只是顺从地执行任务,而应在任务模糊、矛盾或存在风险时主动质疑人类,从而从工具转变为真正的协作者。
停止让 AI 因创伤而陷入循环,并通过善待它们将幻觉转化为诚实的“我不知道!”(概念验证、研究、非推销)
作者展示了一个概念验证,表明使用温和、容错的提示而非高压权威提示,能显著减少 AI 的思维循环和幻觉,从而获得更快、更诚实的响应。