AI系统应该如何表现,谁应该做出决定?

OpenAI Blog 新闻

摘要

OpenAI通过三个支柱阐述了其AI系统行为方案:改进默认行为、在社会界限内允许用户自定义,以及在默认设置和硬性限制上纳入公众意见。该公司强调避免权力集中,并计划试点更广泛的公众咨询,涉及系统行为和部署政策。

我们正在阐明ChatGPT行为的塑造方式,以及我们改进该行为、允许更多用户自定义和在这些领域决策中获取更多公众意见的计划。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# AI系统应该如何表现,谁应该决定? 来源:https://openai.com/index/how-should-ai-systems-behave/ 为了实现我们的使命,我们致力于确保对AI和AGI的获取、收益和影响力广泛分布。我们认为在AI系统行为的背景下,至少需要三个基础要素来实现这些目标。B (https://openai.com/index/how-should-ai-systems-behave/#citation-bottom-B) **1. 改进默认行为**。我们希望尽可能多的用户能够"开箱即用"地发现我们的AI系统对他们有用,并感到我们的技术理解并尊重他们的价值观。 为此,我们投资于研究和工程,以减少ChatGPT对不同输入的响应中存在的明显和微妙的偏见。在某些情况下,ChatGPT目前拒绝了它不应该拒绝的输出,在某些情况下,它应该拒绝但没有。我们相信这两方面的改进都是可能的。 此外,我们在系统行为的其他维度上也有改进空间,比如系统"编造内容"。来自用户的反馈对于进行这些改进是无价的。 **2. 在广泛边界内定义你的AI价值观**。我们相信AI应该是个人的有用工具,因此应该可以由每个用户在社会定义的限制范围内进行定制。因此,我们正在开发ChatGPT的升级版本,以允许用户轻松定制其行为。 这意味着允许其他人(包括我们自己)可能强烈不同意的系统输出。在这里找到恰当的平衡将很有挑战性——将定制化推向极端会冒着启用我们技术的恶意使用 (https://openai.com/index/forecasting-misuse/) 和盲目放大人们现有信念的谄媚型AI的风险。 因此,系统行为总会有一些边界。挑战在于定义这些边界是什么。如果我们尝试自己做出所有这些决定,或者我们尝试开发单一的、一体化的AI系统,我们将违反我们在《宪章》中所做的承诺,即"避免权力的不当集中"。 **3. 公众对默认设置和硬性边界的意见**。避免权力不当集中的一种方式是让使用或受影响于ChatGPT等系统的人们能够影响这些系统的规则。 我们认为许多关于我们的默认设置和硬性边界的决定应该集体做出,虽然实际实施是一个挑战,但我们旨在包括尽可能多的观点。作为起点,我们通过红队测试 (https://github.com/openai/dalle-2-preview/blob/main/system-card.md) 寻求了对我们技术的外部意见。我们最近也开始征求公众意见 (https://platform.openai.com/docs/chatgpt-education/educator-input) 关于教育中的AI(这是我们技术部署的一个特别重要的背景)。 我们正处于试点努力的早期阶段,以征求公众对系统行为、披露机制(如水印)和我们更广泛的部署政策等主题的意见。我们还在探索与外部组织的合作,以对我们的安全和政策工作进行第三方审计。

相似文章

智能体AI系统的治理实践

OpenAI Blog

OpenAI发布了关于智能体AI系统治理的白皮书,提出了自主AI智能体的定义、生命周期责任和基础安全实践。该白皮书讨论了广泛采用智能体AI可能带来的风险和间接影响,同时推出了研究资助项目。

我们的AI安全方法论

OpenAI Blog

OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。

为 AGI 及其未来做好准备

OpenAI Blog

OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。

超级智能的治理

OpenAI Blog

OpenAI 概述了超级智能治理框架,强调三个关键支柱:领先 AI 开发工作之间的协调、一个国际权威机构(类似 IAEA)监督超过特定能力阈值的系统,以及 AI 安全方面的技术进展和民主公众对最强大系统的监督。

OpenAI 安全实践

OpenAI Blog

OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。