Provenance: 在人工智能主导的信息环境中的生存工具包

Reddit r/singularity 新闻

摘要

本文讨论了信息环境中日益严重的人工智能生成欺骗的威胁,并提出 provenance(内容认证的生态系统级采纳)作为补救措施,重点强调了如 AI 诈骗、捏造科学数据和协调虚假信息活动等风险。

最近我在评论区遇到了一些令人警醒的时刻。不是那种我意识到没有其他人注意到我认为明显是 AI 生成内容的时刻。而是那种我在比我更警惕的评论者的帮助下才意识到自己被欺骗的时刻。仅凭感官从来都不是在线真实性完美的仲裁者,但这种差距正在扩大。不幸的事实是,你和你的奶奶越来越容易被欺骗,因为 AI 对现实的理解日益精准。今天我讲述一个已经提出但尚未被广泛采用的静默技术补救措施。如果它不被广泛采纳,就毫无意义。这条路不必导致因对我们信息生态系统的深度不信任而加剧的公民功能失调。走向广泛采用 provenance 的道路可以提供帮助。
查看原文
查看缓存全文

缓存时间: 2026/05/24 22:55

# 溯源 来源:https://vinchenkov.substack.com/p/provenance 最近在评论区遇到了一些令人警醒的时刻。并非意识到只有我注意到明显是AI生成内容——而是通过比我更警惕的评论者帮助,才发现自己已被欺骗。 单凭感官从来就不是判断线上内容真伪的完美标准,但这种缺陷正在扩大。不幸的事实是,随着AI对现实的理解日益精准,你的祖母、某人的十几岁侄子,还有我,越来越容易被欺骗。 除非,我们走上一条通向**生态系统级溯源采纳**的道路。 今天我要写的是一个早已被提出的低调技术解决方案,但如果不被广泛采用,它就无法解决任何问题。这条道路不必导致因对信息生态系统深度不信任而恶化的公民功能障碍。 我知道很多人不难预见潜在的危害,但我想先谈谈几个我觉得有趣的案例。 **新型网络钓鱼** 谁说AI用户不能有创意?男性们蜂拥涌入TikTok、X,甚至Facebook,发布**自己**伪装成Z世代女性的诱饵内容(https://www.wired.com/story/ai-generated-maga-girls)。许多骗子将这些免费、极具吸引力的平台上的受众引流到Discord和Telegram,在那里向付费客户提供“高级”内容。我在X上看到过简化这一过程的“操作指南”。这是照片级生成技术所实现欺骗的粗劣但有效的示范。 **(懒惰的)好奇心武器化** 专题研究通常从学术界流传到主流平台,为感兴趣的公众提供公共事务信息。积极参与的公民有助于民主运作,但随着科学日益政治化,一种新的攻击方式开始受到青睐。下图包含虚构数据,声称增加饮水可以治疗阿尔茨海默病。这只需一个提示词就能伪造。研究论文的密集性质促使读者借助视觉辅助来理解。这种倾向容易被那些只想快速获取信息的人(比如我)利用。可信的显微镜图像权威性也无济于事。这类攻击者会绕过期刊和同行评审,直接**发布**到社交媒体。注意,目前这只是**推测性的未来危害**,但提前防范是明智的。 X头像 @rust_ruslan Ruslan Rust@rust_ruslan 多喝水能预防阿尔茨海默病吗?不能。这完全是AI生成的……但下面的数据很容易被当作真实的。新的ChatGPT图像模型确实令人印象深刻,但我认为它对未来的科学诚信构成了真正的风险。例如,我只需生成 4:44 PM · 2026年4月24日·368K观看 55条回复·200次转发·871个赞 (https://x.com/rust_ruslan/status/2047718238663172329?s=20) **协调行动** 敌对的国家行为者正在利用新型深度伪造技术创建虚假但可信的人物。朝鲜多年来一直在对财富500强公司进行IT工作者渗透阴谋(https://fortune.com/2025/08/04/north-korean-it-worker-infiltrations-exploded/),生成式AI的进步使得此类攻击规模更大。雇佣这些操作人员的公司数量在一年内增长了220%,仅在那段时期内就达到320家公司。一旦渗透成功,这些操作人员为政权进行创收活动、窃取敏感数据,在某些情况下还利用公司自身的数据要挟公司,直到赎金要求得到满足。这种欺诈计划利用AI伪造身份、流式传输实时深度伪造,并在被录用后管理日常工作。 **潜在的破坏性力量** 国际信息环境小组(IPIE)的一份报告(https://cdn.prod.website-files.com/643ecb10be528d2c1da863cb/682f5ae442fffdff819ef830_TP%202025.2.pdf)发现,在2024年全球选举周期中,生成式AI被广泛用于选举干预,尽管其对选举结果的影响尚无定论。 自上一个选举周期以来,我们已经从超现实且常常荒谬的图像输出,过渡到几乎与真实世界无法区分的渲染。当你推演模型能力的发展轨迹时,在网上兜售一张伪造图像只是初级阶段。连贯、更长的视频格式,融合了令人信服的对话和环境音,以捕捉看似真实的瞬间,将定义下一代深度伪造。 加剧这一威胁的是被称为**骗子红利**的现象。随着错误信息侵蚀社会信任,公众人物获得了一种依据,可以将他们认为有损声誉的真实媒体诋毁为伪造。这种合理的否认性随着不信任的加深而增强。 在一个极具讽刺意味的“抓现行”时刻,一名调查记者拍摄到了一段监管者与行业对手之间进行秘密交易的视频。视频在Twitter上流传了一夜,但到了早上,双方发表声明,援引“骗子红利”。 记者如何向他人证明自己亲眼所见? 元数据是关于底层数据或对象本身的数据。 在安全网页浏览和软件分发中,已有成熟的协议使用元数据和加密技术来验证一方或对象确实是其声称的身份。 我们将直接把这个应用到上面的场景中,详细阐述关键技术细节,以便我们**自己理解信任信号是如何产生的**。 假设用于拍摄视频的设备是iPhone 20。**目标是使任何篡改行为在视频于互联网上传播时都显而易见**。我们可以通过**加密签名**来实现这一点。 这款假设的手机包含一个**硬件安全区**¹,这是手机芯片中一个隔离的组件,**私钥**在其中受到保护,不受系统其余部分的影响,即使主操作系统被攻破也无妨。这种隔离是在硬件层面实现的,并且安全区生成的密钥基于物理熵,使得猜测变得不可行。 私钥用于生成加密签名,**公钥**则用于**验证签名**。公钥可以自由分享给任何需要的人。这对密钥之间存在固定的数学关系。给定某些内容和其上的签名,公钥可以确定该签名是否由配对的私钥生成。 在记者拍摄视频后不久,iPhone开始构建一个符合开放标准规范的元数据文件。在当今最有前景的溯源标准中,这个文件被称为C2PA(内容溯源与真实性联盟)清单。关键项包括: - **断言** - **声明**,即这些断言的集合 - 对该声明的**加密签名** 断言是对数字内容的陈述。在我们的例子中,可能看到的断言包括: - 拍摄设备详情(iPhone 20) - 拍摄的日期、时间和地点(任何自我标识的披露由用户控制) - 对内容执行的操作,例如“创建”、“裁剪”、“压缩”…… - 以及信任信号的关键:**与内容的硬绑定** 硬绑定是内容的哈希值,是从视频原始字节中确定性导出的指纹。如果你输入相同的视频,每次都会得到相同的指纹。改变输入中的哪怕一个字节,哈希值也会完全改变。这个硬绑定连同其他断言,被打包成资产的声明,然后使用手机安全区中的私钥进行签名。 因此,下游方使用声明和签名来确保内容未被篡改: [](https://substackcdn.com/image/fetch/$s_!D1Uf!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff5870d88-ed8b-4c68-8078-5efa9f448f5e_1574x982.png) 清单组装完成后,记者将视频上传到社交媒体平台以吸引关注。在上传过程中,C2PA清单会与视频内容一起附加,并且,对于此场景至关重要,**媒体平台会保留元数据**。 假设这个视频在Twitter上获得关注。一些用户轻易相信了视频,另一些用户现在对网络内容天生怀疑,还有一些人认为这是一场抹黑运动,因为视频中的对象恰好是公开否认其真实性的知名人士。 现在,溯源展现了其公共意义。Twitter读取并验证声明的完整性。然后,Twitter向用户展示溯源数据的有效性和关键断言。用户可以看到这个视频确实来自光学传感器,并且没有进行任何修改,所有这些**都通过Apple的公钥得到证明**。 关于如何向用户展示这些信息存在争议。我不是UI专家,但我们应该期待Meta等公司如果**被激励**,会知道如何最好地呈现这些信息。 在我们简化的例子中,只有一个签名身份:Apple。在大多数情况下,实际上会有多个。拍摄设备制造商、视频编辑应用、可能还有生成式AI模型,每个都会在清单所代表的轨迹上声明其修改。 清单中存在的每个身份都面临两个问题:“他们声称什么?”以及“我能信任他们吗?” C2PA利用两个不同的链条来回答这些问题。 我们已经看到了声明是什么以及如何使用它们。当对内容进行多次连续修改时,附带的清单将包含**一个声明链²**,**每个声明都可验证地归属于签名者**。 为了回答信任问题,使用**证书链**。每个身份的证书由更高一级的权威机构背书,而更高一级的权威机构又由更高级的权威机构背书,直到链条终止于平台已经信任的根权威机构。如果链条中的任何一环断裂,信任信号就会消失。 为了深入理解,考虑一个更琐碎的场景:一位业余举重运动员准备在Instagram上发帖声称新的个人纪录。我们从这里分岔出两条路径: **“轻量级兄弟”** 这位运动员剪辑了视频,然后使用他喜欢的编辑应用Adobe添加一些生成式AI效果。他们可能使用许多合理的效果,但我们选择在房间角落放一个加油小精灵,在动作最关键的时刻大喊。帖子附带的清单显示了一个声明层级: 1. 第一个由Apple创建和签名,类似于我们之前看到的。 2. 第二个是新的声明,由Adobe创建和签名,包含断言:“添加了加油小精灵”,新编辑视频的哈希值,以及一个**成分**。成分是对先前声明的引用。这里的成分是Apple对原始视频的声明,编辑后的视频由此衍生而来。 Instagram将使用各自的公钥读取并验证这两个声明,发现每个签名在数学上都是有效的。 *此外*,Instagram检查**Apple和Adobe的证书链是否连接到受信任的权威机构**。 证书(在记者示例中也隐式存在)是由**证书颁发机构**(CA)颁发给声明者(如Apple或Adobe)的文件,**认可其合规性**并持有其公钥。 Instagram沿着Apple和Adobe的证书链一级一级向上爬升,发现每一级都直接连接到其信任存储中的根CA。 [](https://substackcdn.com/image/fetch/$s_!bHqL!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5fc13002-27e1-4caf-a1e9-80983e2b25a7_1524x792.png) **冒领荣誉** 在另一个时间线里,这位运动员使用独立AI提供商Badfaith LLC的视频生成模型,悄悄地在杠铃每侧各加了一对25磅的铃片。Badfaith附加了一个新的声明,其中包含欺骗性断言“调整了对比度”。 Instagram读取带有新声明的清单并开始验证过程。它验证签署的声明是有效的,这意味着内容自那以后未被篡改。 Instagram再次开始沿Badfaith的证书链向上爬升,看看**他们信任的某个权威机构是否认可他们**。然而,发现了一个断开的链接。原来,链条中的最高权威机构最近**撤销了**一个中间证书,因为该中间证书被发现向可疑行为者颁发欺诈性证书。 结果,举重视频的观看者不会在该帖子中看到已验证的溯源信息。 [](https://substackcdn.com/image/fetch/$s_!8UO1!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F132108ec-47d5-4ecf-8066-242a3f80bc0e_1472x856.png) 溯源旨在作为谨慎判断的额外基础。它并不证明内容所传达的含义。断章取义的片段仍然是断章取义。摆拍仍然是摆拍。模糊的图像仍然需要解读。所有这些媒体可能都具有可验证的溯源,但对其含义仍需一定程度的判断。另一方面,如果一段数字媒体明显可疑,你一看便知。不需要元数据。 其呈现方式对公众如何使用它也至关重要。平台不得在已验证的溯源上显示绿色盾牌,或在未验证时显示红色“X”。一个中立、信息丰富的UI组件,说明数字物品的来源,有助于确保用户不会将溯源信号误认为真相的证据。 某个实体的可信度与其记录和声誉等因素相关。声誉一旦受损,重建之路漫长。但对于在线安全社区和溯源管理组织来说,因欺诈行为而被吊销的证书不应指望能恢复。在这个领域,信任是一种全有或全无的社会契约。 因违反溯源合规而被吊销证书,对企业可能是毁灭性的打击。Apple是中立的参与者,没有合理的动机签署欺诈性声明。保持中立并履行其作为硬件级声明者的角色,符合其最大财务利益。在有激励性政策框架下,X、Instagram、TikTok、Reddit等媒体分享平台也会效仿。 熟悉AI信息环境的读者可能想知道“AI检测器呢?”我们上面详述的框架假设溯源数据在数字资产的整个生命周期内都被保留。**检测器用于只有像素级信息的情况**。 **现实是,这些工具处于一场偏向其对手的军备竞赛中。** 攻击者只需稍加了解,就可以利用对抗性模型或开源模型来抵消或完全绕过这些检测措施。 目前存在在线AI内容检测器,我们可以将其分为两种形式。我们先说其中更不可靠的一种。 取证检测器试图以**不依赖提供商**的方式检测AI输出。它们试图解释通常与一般AI输出相关的统计信号和伪影。它们根据解释的信号给出置信度分数,表明内容由AI生成的概率。 统计取证检测器的精度有限,尤其是在面对经过篡改或针对检测进行优化的输出时。像Google SynthID(https://deepmind.google/technologies/synthid/)这样的水印嵌入方案是更可靠的替代方案。它通过修改内容引入不可察觉的水印,这些水印嵌入在生成过程的早期阶段。这种方法不太容易遭受常见的对抗性攻击,因为它以深度方式与内容融合。但它在提供商层面运行,因此跨模型不兼容。 但我们的叙事继续推进:随着模型本身成为生成内容的主宰,深度伪造时代正在让位于**合成现实**。我们不再仅仅面对AI复制的现实;我们将面对由与互联网本身一样无处不在的AI系统构建的现实。AI生成的内容与人类创作的内容之间的界限越来越模糊。拥有强大、无摩擦的溯源不是一种奢侈;而是维持功能信息生态系统的必要条件。 我们现在有专家指南,但这些指南无法充分过滤专为欺骗而设计的内容。我们现有的工具无法在不产生大量噪音的情况下大规模应用。但如果我们选择**生态系统级溯源**的道路,我们有办法避免最坏的结果,同时享受生成式AI所能提供的积极价值。 *¹ 这种技术已经在保护现代设备中使用的私钥和生物识别数据。例如,Apple的Secure Enclave、Android的Titan芯片以及物联网设备中的硬件安全模块(HSM)。* *² 如果未经你的许可,苹果无法签署Adobe的声明。通过使用归属声明链,Adobe只能签署关于其自身修改行为的断言。这份文件将成为公共记录*。

相似文章

我们为何构建

Reddit r/artificial

一篇观点文章,提倡构建能够从领域专家处提供透明、可验证知识的AI系统,从而实现基于发现的学习,并抵制集中式宣传。

理解我们在线看到和听到的内容来源

OpenAI Blog

OpenAI宣布推出工具和研究成果,帮助验证内容真实性,包括文本水印、元数据方法和扩展的图像检测,以及与C2PA元数据集成,用于追踪AI生成和编辑的内容。