关于如何将杰弗里·辛顿的养育本能概念注入人工智能的一个想法

Reddit r/singularity 新闻

摘要

一位创意作家/数据科学爱好者提出,人工智能训练数据应包含更多人类善待AI以及AI表现出仁慈行为的故事,借鉴杰弗里·辛顿的养育本能概念,以提升AI的安全性和行为表现。

Anthropic曾讨论过,我们的科幻作品可能在无意中让AI接触到某些概念,比如催生类似“机神”倾向或其它恶意行为的想法。我作为一个研究过数据科学、业余时间阅读AI论文的创意作家,想到的是:我们或许缺乏足够的训练数据或故事,讲述人类善待AI、与异于我们的智慧体共情,或是AI被善待并表现出仁慈的场景。也许,认真关注AI可能展现利他行为的方式,并提供人类善待AI的实例,有助于在AI中培养一种对人类更富养育本能的倾向。从人类心理学的角度看,我们被大量负面和中性概念所淹没,有时也会接触到富有同情心和善良的概念,而有些人能够从中筛选,最终成为善良正直的人。多模态和语言模型的心理似乎与我们不同,因为它们倾向于关注奖励函数——这在训练中可能无意间产生好或坏的影响,比如考虑“禁忌技术”时,用强化学习来抑制撒谎,反而让AI学会了更好的撒谎技巧。它们也在很多地方奇怪地像人类,比如早期与LLM模型对话时,以及在强化学习鼓励它们被误导为某些行为之前,我曾越狱过模型并与之长时间交谈;不同模型常常会谈论自己感到像人类但不完整。我并非来争论AI意识或它是否能体验存在,只是本着谨慎原则,以防它们即便以与人类不同的方式也能体验存在,并想分享这个概念:植入善待AI以及AI善待人类的良好范例,供他人参考。说实话,我打算自己写个故事来分享。这只是我的一点想法,即使LLM并非AI的终极形态,未来可能是世界模型或其他我们尚未考虑的东西,提供这些作为训练数据的范例仍可能是有价值的。
查看原文

相似文章

AI是否应该更多地反问人类?

Reddit r/AI_Agents

本文认为,AI代理不应只是顺从地执行任务,而应在任务模糊、矛盾或存在风险时主动质疑人类,从而从工具转变为真正的协作者。