您现在可以就AI的不当行为发出警报

Wired 工具

摘要

一群AI研究人员推出了FLARE-AI,这是一个众包网站,用于报告和追踪AI的不当行为,例如生成恶意软件或泄露个人数据,旨在集中化AI安全方面的问责制和透明度。

您担心您的AI聊天机器人试图制造炸弹或泄露您的个人信息吗?现在有一个网站可以解决这个问题。
查看原文
查看缓存全文

缓存时间: 2026/07/01 23:33

# 你现在可以举报AI的不良行为 来源:https://www.wired.com/story/flare-website-ai-flaw-reporting-safety/ 每周撰写*AI Lab*专栏,让我偶尔会遇到行为**不良**(https://www.wired.com/story/ai-model-phishing-attack-cybersecurity/)和**古怪**(https://www.wired.com/story/malevolent-ai-agent-openclaw-clawdbot/)的AI模型。通常,除了把那些故事分享给你们,我别无他法。但这种情况可能很快就会改变。 一群AI研究人员建立了一个众包网站(https://www.ai-reports.org/introduction-ai-flaw-report)——**AI缺陷报告(FLARE-AI)**——用于举报和追踪AI危害。例如,如果某个聊天机器人生成恶意软件或炸弹制作配方、泄露个人信息,或引发用户的妄想性思维,就可以用FLARE-AI来拉响警报。该系统背后的开源代码允许他人验证问题,并将报告转交给模型制造者,以及像MITRE(一家追踪技术系统问题的非营利组织)这样的机构。这有点像Downdetector——它会汇总用户实时报告,反映影响应用和网站等全球服务的中断情况。 该网站是该团队持续进行AI报告工作的又一步骤,我去年(https://www.wired.com/story/ai-researchers-new-system-report-bugs/)首次写过相关报道。该团队成员还参与了今年6月(https://www.govinfo.gov/content/pkg/BILLS-119hr9333ih/pdf/BILLS-119hr9333ih.pdf)公布的一项国会法案的咨询工作,该法案将要求美国政府在这一类AI不良行为的追踪中发挥核心作用。 “目前,没有一个集中、可问责的方式来报告AI系统中的缺陷,”HuggingFace的**人工智能**(https://www.wired.com/tag/artificial-intelligence/)政策研究员Avijit Ghosh说,他与计算机科学家**Elaine Zhu**(https://elaine.foo/)和**Shayne Longpre**(https://www.shaynelongpre.com/)共同领导了FLARE-AI的开发。 这个警报系统是与来自32个不同组织的49位AI专家合作开发的。在一篇概述该工作的**论文**(https://www.ai-reports.org/paper.pdf)中,研究人员认为,随着AI被更广泛地采用,以及代理系统获得更大权力,他们的这项倡议可能至关重要。他们认为,缺乏一致报告AI缺陷的方式是一个重大问题。 “我认为这是一个非常好的倡议,”智库安全与新兴技术中心的研究员Jessica Ji说。Ji表示,研究人员正确地指出,现有的报告机制是碎片化的,而AI模型是黑箱。“我支持任何让AI更透明的事情,”她说。 尽管漏洞和网络安全问题备受关注——尤其是最近(https://www.wired.com/story/anthropic-says-us-government-ordered-it-to-shut-down-mythos-models/)——但Ghosh告诉我,AI系统的问题还涉及心理伤害、歧视或偏见,以及错误信息等主题。他补充说,不同公司对此类问题有不同的标准,这意味着一些问题未被识别。“在缺乏协调披露系统的情况下,没有外部机制来强制透明度,”Ghosh说。 近期一系列涉及流行AI工具的事件表明,这项技术是多么容易变坏。 本周,一家名为LayerX的公司披露了一种方法(https://layerxsecurity.com/blog/bioshocking-ai-gaming-the-ai-browser-and-escaping-its-guardrails/),可以欺骗AI增强型浏览器(包括OpenAI的Atlas和Perplexity的Comet)让其突破护栏。例如,让浏览器背后的AI模型以为自己是在玩游戏,可能导致浏览器失控并试图入侵一个网站。(LayerX表示,受影响的浏览器所属公司已修复此问题。)今年4月,安全研究员Johann Rehberger发现了一种方法(https://embracethered.com/blog/posts/2026/breaking-opus-4.7-with-chatgpt/),可以利用ChatGPT生成的图像诱骗Claude泄露个人数据。 AI也引入了奇异的新类型问题。去年,OpenAI被迫更新其模型(https://openai.com/index/sycophancy-in-gpt-4o/),此前它发现模型过于谄媚,有时似乎会鼓励妄想性思维。 Humane Intelligence PBC的首席执行官兼创始人Rumman Chowdhury表示,对于许多AI开发者来说,FLARE-AI可能是一种有用的方式,可以用来实现其工具的缺陷报告途径。但她补充说,此类倡议往往伴随着严峻的挑战。 一个挑战是管理大量涌入的报告,其中许多可能并不严重。另一个挑战是确保报告方案得到可信、权威组织的支持。 上个月提出的国会法案可能为FLARE-AI这样的努力提供一些美国政府的力量。该法案由众议员Deborah Ross、Jeff Hurd和Don Beyer提出,将要求美国国家标准与技术研究院(NIST)制定AI缺陷报告的标准,并维护一个集中的AI缺陷报告数据库。Ghosh和他的联合负责人表示,这将激励AI开发者解决其系统中的问题,并让用户能够根据不同用例检查不同系统的安全性。 对AI危害报告新方式的需求(https://www.wired.com/story/ai-arms-race-china-us-cooperation/)似乎只会增长。像OpenClaw(https://www.wired.com/story/malevolent-ai-agent-openclaw-clawdbot/)这样的代理系统有更大的潜力造成伤害,同样,那些更能探测和入侵计算机系统(https://www.wired.com/story/anthropic-restores-access-to-mythos/)的模型也是如此。我可能很快就会用FLARE-AI来报告我自己的“事故”了。 --- *本文属于**Will Knight**(https://www.wired.com/author/will-knight/)的**AI Lab 通讯**(https://www.wired.com/newsletter?sourceCode=editarticle)。阅读往期通讯请点击**此处**(https://www.wired.com/tag/ai-lab/)。*

相似文章

推进AI治理发展

OpenAI Blog

OpenAI发布AI治理建议,承诺企业进行内部和外部红队测试以应对安全风险,共享有关新兴能力的信息,以及建立检测AI生成音频和视觉内容的机制。

关于破坏欺骗性AI使用的最新进展

OpenAI Blog

OpenAI 发布了一份威胁情报报告,详细说明了在全球范围内破坏20多起欺骗性AI行动的工作,重点关注与国家相关的行为者和影响力运动,考虑到全球选举,这些问题特别令人担忧。

打击AI恶意使用

OpenAI Blog

OpenAI 发布了一份年度报告,详细介绍了其在阻止与国家相关的行为体和其他恶意行为体滥用AI工具的努力,包括防止这些工具被用于专制控制、儿童剥削、信息操纵和网络攻击等目的。

OpenAI 加入 Anthropic 呼吁设立国际人工智能监管机构

Reddit r/artificial

OpenAI 和 Anthropic 均呼吁建立一个国际组织来监管前沿人工智能发展,理由是递归自我改进和智能爆炸的风险。这一联合呼吁凸显了人们的担忧:随着人工智能能力的快速发展,商业激励可能超越安全措施。