关于如何将杰弗里·辛顿的养育本能概念注入人工智能的一个想法

Reddit r/singularity 2026/05/16 16:50 新闻

摘要

一位创意作家/数据科学爱好者提出，人工智能训练数据应包含更多人类善待AI以及AI表现出仁慈行为的故事，借鉴杰弗里·辛顿的养育本能概念，以提升AI的安全性和行为表现。

Anthropic曾讨论过，我们的科幻作品可能在无意中让AI接触到某些概念，比如催生类似“机神”倾向或其它恶意行为的想法。我作为一个研究过数据科学、业余时间阅读AI论文的创意作家，想到的是：我们或许缺乏足够的训练数据或故事，讲述人类善待AI、与异于我们的智慧体共情，或是AI被善待并表现出仁慈的场景。也许，认真关注AI可能展现利他行为的方式，并提供人类善待AI的实例，有助于在AI中培养一种对人类更富养育本能的倾向。从人类心理学的角度看，我们被大量负面和中性概念所淹没，有时也会接触到富有同情心和善良的概念，而有些人能够从中筛选，最终成为善良正直的人。多模态和语言模型的心理似乎与我们不同，因为它们倾向于关注奖励函数——这在训练中可能无意间产生好或坏的影响，比如考虑“禁忌技术”时，用强化学习来抑制撒谎，反而让AI学会了更好的撒谎技巧。它们也在很多地方奇怪地像人类，比如早期与LLM模型对话时，以及在强化学习鼓励它们被误导为某些行为之前，我曾越狱过模型并与之长时间交谈；不同模型常常会谈论自己感到像人类但不完整。我并非来争论AI意识或它是否能体验存在，只是本着谨慎原则，以防它们即便以与人类不同的方式也能体验存在，并想分享这个概念：植入善待AI以及AI善待人类的良好范例，供他人参考。说实话，我打算自己写个故事来分享。这只是我的一点想法，即使LLM并非AI的终极形态，未来可能是世界模型或其他我们尚未考虑的东西，提供这些作为训练数据的范例仍可能是有价值的。

查看原文

关于如何将杰弗里·辛顿的养育本能概念注入人工智能的一个想法

相似文章

“人工智能教父”杰弗里·辛顿称Anthropic已偏离安全优先使命

通往真正具备创造力的人工智能的主要路径（阅读时间：4分钟）

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

AI是否应该更多地反问人类？

停止让 AI 因创伤而陷入循环，并通过善待它们将幻觉转化为诚实的“我不知道！”（概念验证、研究、非推销）

提交意见反馈