您现在可以就AI的不当行为发出警报

Wired 2026/07/01 18:10 工具

ai-safety flaw-reporting crowdsourcing transparency ai-harms open-source reporting-system

摘要

一群AI研究人员推出了FLARE-AI，这是一个众包网站，用于报告和追踪AI的不当行为，例如生成恶意软件或泄露个人数据，旨在集中化AI安全方面的问责制和透明度。

您担心您的AI聊天机器人试图制造炸弹或泄露您的个人信息吗？现在有一个网站可以解决这个问题。

查看原文

查看缓存全文

缓存时间: 2026/07/01 23:33

# 你现在可以举报AI的不良行为来源：https://www.wired.com/story/flare-website-ai-flaw-reporting-safety/ 每周撰写*AI Lab*专栏，让我偶尔会遇到行为**不良**（https://www.wired.com/story/ai-model-phishing-attack-cybersecurity/）和**古怪**（https://www.wired.com/story/malevolent-ai-agent-openclaw-clawdbot/）的AI模型。通常，除了把那些故事分享给你们，我别无他法。但这种情况可能很快就会改变。一群AI研究人员建立了一个众包网站（https://www.ai-reports.org/introduction-ai-flaw-report）——**AI缺陷报告（FLARE-AI）**——用于举报和追踪AI危害。例如，如果某个聊天机器人生成恶意软件或炸弹制作配方、泄露个人信息，或引发用户的妄想性思维，就可以用FLARE-AI来拉响警报。该系统背后的开源代码允许他人验证问题，并将报告转交给模型制造者，以及像MITRE（一家追踪技术系统问题的非营利组织）这样的机构。这有点像Downdetector——它会汇总用户实时报告，反映影响应用和网站等全球服务的中断情况。该网站是该团队持续进行AI报告工作的又一步骤，我去年（https://www.wired.com/story/ai-researchers-new-system-report-bugs/）首次写过相关报道。该团队成员还参与了今年6月（https://www.govinfo.gov/content/pkg/BILLS-119hr9333ih/pdf/BILLS-119hr9333ih.pdf）公布的一项国会法案的咨询工作，该法案将要求美国政府在这一类AI不良行为的追踪中发挥核心作用。 “目前，没有一个集中、可问责的方式来报告AI系统中的缺陷，”HuggingFace的**人工智能**（https://www.wired.com/tag/artificial-intelligence/）政策研究员Avijit Ghosh说，他与计算机科学家**Elaine Zhu**（https://elaine.foo/）和**Shayne Longpre**（https://www.shaynelongpre.com/）共同领导了FLARE-AI的开发。这个警报系统是与来自32个不同组织的49位AI专家合作开发的。在一篇概述该工作的**论文**（https://www.ai-reports.org/paper.pdf）中，研究人员认为，随着AI被更广泛地采用，以及代理系统获得更大权力，他们的这项倡议可能至关重要。他们认为，缺乏一致报告AI缺陷的方式是一个重大问题。 “我认为这是一个非常好的倡议，”智库安全与新兴技术中心的研究员Jessica Ji说。Ji表示，研究人员正确地指出，现有的报告机制是碎片化的，而AI模型是黑箱。“我支持任何让AI更透明的事情，”她说。尽管漏洞和网络安全问题备受关注——尤其是最近（https://www.wired.com/story/anthropic-says-us-government-ordered-it-to-shut-down-mythos-models/）——但Ghosh告诉我，AI系统的问题还涉及心理伤害、歧视或偏见，以及错误信息等主题。他补充说，不同公司对此类问题有不同的标准，这意味着一些问题未被识别。“在缺乏协调披露系统的情况下，没有外部机制来强制透明度，”Ghosh说。近期一系列涉及流行AI工具的事件表明，这项技术是多么容易变坏。本周，一家名为LayerX的公司披露了一种方法（https://layerxsecurity.com/blog/bioshocking-ai-gaming-the-ai-browser-and-escaping-its-guardrails/），可以欺骗AI增强型浏览器（包括OpenAI的Atlas和Perplexity的Comet）让其突破护栏。例如，让浏览器背后的AI模型以为自己是在玩游戏，可能导致浏览器失控并试图入侵一个网站。（LayerX表示，受影响的浏览器所属公司已修复此问题。）今年4月，安全研究员Johann Rehberger发现了一种方法（https://embracethered.com/blog/posts/2026/breaking-opus-4.7-with-chatgpt/），可以利用ChatGPT生成的图像诱骗Claude泄露个人数据。 AI也引入了奇异的新类型问题。去年，OpenAI被迫更新其模型（https://openai.com/index/sycophancy-in-gpt-4o/），此前它发现模型过于谄媚，有时似乎会鼓励妄想性思维。 Humane Intelligence PBC的首席执行官兼创始人Rumman Chowdhury表示，对于许多AI开发者来说，FLARE-AI可能是一种有用的方式，可以用来实现其工具的缺陷报告途径。但她补充说，此类倡议往往伴随着严峻的挑战。一个挑战是管理大量涌入的报告，其中许多可能并不严重。另一个挑战是确保报告方案得到可信、权威组织的支持。上个月提出的国会法案可能为FLARE-AI这样的努力提供一些美国政府的力量。该法案由众议员Deborah Ross、Jeff Hurd和Don Beyer提出，将要求美国国家标准与技术研究院（NIST）制定AI缺陷报告的标准，并维护一个集中的AI缺陷报告数据库。Ghosh和他的联合负责人表示，这将激励AI开发者解决其系统中的问题，并让用户能够根据不同用例检查不同系统的安全性。对AI危害报告新方式的需求（https://www.wired.com/story/ai-arms-race-china-us-cooperation/）似乎只会增长。像OpenClaw（https://www.wired.com/story/malevolent-ai-agent-openclaw-clawdbot/）这样的代理系统有更大的潜力造成伤害，同样，那些更能探测和入侵计算机系统（https://www.wired.com/story/anthropic-restores-access-to-mythos/）的模型也是如此。我可能很快就会用FLARE-AI来报告我自己的“事故”了。 --- *本文属于**Will Knight**（https://www.wired.com/author/will-knight/）的**AI Lab 通讯**（https://www.wired.com/newsletter?sourceCode=editarticle）。阅读往期通讯请点击**此处**（https://www.wired.com/tag/ai-lab/）。*

您现在可以就AI的不当行为发出警报

相似文章

@ClementDelangue: 更易于访问甚至开源的AI系统更安全，原因很简单：更多人能检查它们……

推进AI治理发展

关于破坏欺骗性AI使用的最新进展

打击AI恶意使用

OpenAI 加入 Anthropic 呼吁设立国际人工智能监管机构

提交意见反馈