我们对数据和人工智能的态度
摘要
OpenAI 阐述了其对数据和人工智能的态度,宣布推出 Media Manager——一个将在 2025 年发布的工具,使创作者和内容所有者能够控制其作品在人工智能训练中的使用方式。该公告回应了内容创作者的关切,旨在为人工智能系统中尊重创作者偏好建立行业标准。
ChatGPT 发布一年多以来,人工智能正在改变我们生活、工作和学习的方式。它也引发了关于人工智能时代数据的重要讨论。我们将分享我们的态度、为创作者和内容所有者打造的全新 Media Manager,以及我们未来的发展方向。
查看缓存全文
缓存时间: 2026/04/20 14:47
# 我们的数据和人工智能方法
来源:https://openai.com/index/approach-to-data-and-ai/
人工智能应该为每个人扩展机会。通过以新的方式转换信息,人工智能系统帮助我们解决问题并表达自己。今天,我们的人工智能工具(如 ChatGPT)正在世界各地被使用,帮助肯尼亚和印度的农民提高作物产量([Digital Green](https://openai.com/customer-stories/digital-green))、帮助研究人员加速药物发现([Moderna](https://openai.com/customer-stories/moderna))、帮助政府支持其工作队伍([宾夕法尼亚州](https://www.governor.pa.gov/newsroom/shapiro-administration-and-openai-launch-first-in-the-nation-generative-ai-pilot-for-commonwealth-employees/))、帮助教育工作者[推进学生学习](https://openai.com/index/teaching-with-ai),以及帮助视觉障碍人士[导航我们的世界](https://openai.com/customer-stories/be-my-eyes)([Be My Eyes](https://openai.com/customer-stories/be-my-eyes))。[DALL·E](https://openai.com/index/dall-e-3) 和 [Sora](https://openai.com/index/sora)(目前处于研究预览阶段)等人工智能工具正在[赋予](https://openai.com/index/dall-e-2-extending-creativity)从有抱负的艺术家到[电影制片人](https://openai.com/index/sora-first-impressions)的创意工作者力量。
我们的使命是造福全人类。这不仅包括我们的用户,还包括创作者和出版商。虽然我们认为法律先例和健全的公共政策使学习成为合理使用,但我们也认为我们有责任为人工智能时代的内容发展一个广泛有益的社会契约。
我们认为人工智能系统应该造福并尊重创作者和内容所有者的选择。我们不断改进我们行业领先的系统以反映内容所有者的偏好,并致力于构建产品和商业模式,为创作者和出版商打造充满活力的生态系统。
我们不是专业作家、艺术家或记者,也不从事这些业务。我们专注于构建工具来帮助这些专业人士创作和取得更多成就。为了实现这一目标,我们认真听取并与这些社群的成员密切合作,并期待我们的持续对话。今天,我们分享更多关于我们现在的位置和我们的发展方向。
几十年前,robots.txt 标准被引入并由互联网生态系统中的网络出版商自愿采用,以表示网络爬虫可以访问网站的哪些部分。
去年夏天,OpenAI 率先为人工智能使用网络爬虫权限,使网络出版商能够表达他们对自己内容在人工智能中使用方式的偏好。每当我们训练新模型时,我们都会考虑这些信号。
也就是说,我们理解这些是不完整的解决方案,因为许多创作者无法控制其内容可能出现的网站,而且内容经常在多个领域被引用、评论、混编、重新发布和作为灵感使用。我们需要一个高效、可扩展的解决方案,让内容所有者能够表达他们对其内容在人工智能系统中的使用方式的偏好。
OpenAI 正在开发 Media Manager,这是一个工具,将使创作者和内容所有者能够告诉我们他们拥有什么,并指定他们希望如何在机器学习研究和培训中包括或排除他们的作品。随着时间的推移,我们计划引入额外的选择和功能。
这将需要最先进的机器学习研究,以构建一个前所未有的工具来帮助我们在多个来源中识别受版权保护的文本、图像、音频和视频,并反映创作者的偏好。
我们在开发 Media Manager 时与创作者、内容所有者和监管机构合作。我们的目标是在 2025 年推出该工具,我们希望它能在整个人工智能行业设立标准。
今天,我们生活在一个为广告商而非用户、为数量而非质量打造的注意力经济中。我们的雄心是使用人工智能来改变这一点:赋予创作者和出版商力量,并增强用户体验。
我们不断使我们的产品成为更有用的发现引擎。我们最近[改进了 ChatGPT 中的源链接](https://twitter.com/OpenAI/status/1773738074041717109?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1773738074041717109%7Ctwgr%5E7c2838dc939a7245d8929143dbf1f89784a18d50%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fwww.theverge.com%2F2024%2F3%2F29%2F24115885%2Fopenai-makes-source-links-more-prominent-to-people-who-are-searching-with-chatgpt),为用户提供更好的背景,为网络出版商提供与我们受众联系的新方式。我们也在与合作伙伴合作,在我们的产品中展示他们的内容,并增加他们与读者的联系。我们宣布与全球新闻出版商建立合作伙伴关系,从 [Financial Times](https://openai.com/blog/content-partnership-with-financial-times) 到 [Le Monde](https://openai.com/blog/global-news-partnerships-le-monde-and-prisa-media)、[Prisa Media](https://openai.com/blog/global-news-partnerships-le-monde-and-prisa-media)、[Axel Springer](https://openai.com/blog/axel-springer-partnership) 等,在 ChatGPT 中展示他们的内容并丰富关于新闻主题的用户体验。更多创新即将到来。该内容也可用于训练 ChatGPT,以便更好地向用户展示相关的出版商内容,并改进我们的新闻编辑室工具。
我们的合作伙伴关系旨在造福合作伙伴及其用户,使我们的模型对他们的员工、客户和社区更有用。为了帮助推进教育资源,我们与非营利组织 [Khan Academy](https://openai.com/customer-stories/khan-academy) 和英国的 [ExamSolutions](https://beta.examsolutions.net/) 建立了合作伙伴关系,以改进我们模型的数学性能,这加快了他们在其平台上扩展个性化人工智能辅导访问的能力。
我们希望我们的人工智能模型从尽可能多的语言、文化、主题和行业中学习,这样它们就能造福尽可能多的人。数据集越多样化,模型的知识、理解和语言就越多样化——就像一个接触过广泛文化观点和经验的人——人工智能能够安全服务的人和国家就越多。
每一代新的基础模型都是从头开始在新数据集上训练的。我们不断改进我们的架构,并将数据集的规模和多样性显著增加到远超以前的模型。与人工智能领域的大型公司不同,我们没有数十年来积累的大型数据库。我们主要依靠公开可用的信息来教我们的模型如何提供帮助。
我们使用以下方式训练我们的模型:
- 精选公开可用数据,主要来自行业标准的机器学习数据集和网络爬取,类似于搜索引擎。我们排除已知设有付费墙、主要汇总个人身份信息、包含违反我们政策的内容或已选择退出的来源。
- 来自[数据合作伙伴](https://openai.com/blog/data-partnerships)的专有数据。我们合作以访问非公开可用的内容,例如档案和元数据。我们的合作伙伴范围从用于训练 Sora 的图像和视频的主要私人视频库到[冰岛政府](https://openai.com/customer-stories/government-of-iceland),以帮助保护其本土语言。我们不追求仅用于公开可用信息的付费合作伙伴关系。
- 来自人工智能培训师、红队成员、员工和数据控制设置允许改进模型的用户的人类反馈。
我们谨慎处理个人和敏感信息的处理,并训练我们的模型不提供关于人们的私人或敏感信息。我们使用多种技术来处理原始数据以在训练中安全使用,并越来越多地使用人工智能模型来帮助我们清理、准备和生成数据。
我们不对客户的商业数据进行训练,包括来自 ChatGPT Team、ChatGPT Enterprise 或我们 API 平台的数据。ChatGPT 免费和付费用户可以在他们的[设置](https://twitter.com/OpenAI/status/1785390246575964628)中控制他们是否为未来的模型改进做出贡献。
相似文章
让营销团队充分利用AI工具
OpenAI 推出了专为营销团队设计的AI工具和解决方案,可以提升工作效率,功能远超基础内容生成。
我们的AI安全方法论
OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。
推进AI治理发展
OpenAI发布AI治理建议,承诺企业进行内部和外部红队测试以应对安全风险,共享有关新兴能力的信息,以及建立检测AI生成音频和视觉内容的机制。
让AI为所有人服务,无处不在:我们的本地化方法
OpenAI通过国家AI计划(OpenAI for Countries)宣布其AI本地化方法,使政府能够构建适应本地环境的主权AI系统,同时保持全球前沿模型水平。该公司发布了详细的模型规范指南,其中包含红线原则,以确保所有部署中的人类安全、权利和事实准确性。
AI系统应该如何表现,谁应该做出决定?
OpenAI通过三个支柱阐述了其AI系统行为方案:改进默认行为、在社会界限内允许用户自定义,以及在默认设置和硬性限制上纳入公众意见。该公司强调避免权力集中,并计划试点更广泛的公众咨询,涉及系统行为和部署政策。