扩展伪影

Hacker News Top 新闻

摘要

一篇反思性文章,探讨有损压缩如何产生可见伪影,并影响数字美学、取证与艺术。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/21 17:38

# 扩展伪影 来源:https://mattstromawn.com/writing/expansion-artifacts/ 信息时代由带宽定义。互联网受限于我们能挤进狭窄传输管道的数据量,于是我们发明了*压缩*——用更小的数字足迹表示同一对象(网页、图片、歌曲、电影)的方法。没有它,YouTube、Spotify、Instagram 及其背后的算法都无法存在。 早在 1940 年代贝尔实验室的压缩研究伊始,研究者就知道必须接受一个权衡:只要愿意损失部分原始数据,就能换来更小的文件。这看似违背“还原数据”的初衷,但科学家发现可以只丢弃人类感知不到的信息。 - 人耳和大脑会自动“过滤”被更大声遮盖的微弱声音,MP3 利用这一盲区,把几乎听不到的安静片段直接丢掉。 - 人眼和大脑关注明暗形状对比,读取图像的大结构而非微小细节或色差,JPG 算法据此丢弃我们不易察觉的信息。 - 电影帧与帧之间变化并不大,MPG 算法选取关键帧,只保存像素的*相对运动*,大幅缩小文件体积。 设计良好的压缩算法能让数据在*感知上*毫无差异,却让存储与传输效率倍增。 设计糟糕的编解码器会酿成大祸。2013 年,David Kriesel 用 Xerox WorkCentre 扫描建筑平面图,发现标注为 21.11 m² 的房间变成了 14.13 m²。Xerox 对 JBIG2 的实现为了节省空间,把扫描件拆成重复元素再拼贴;在 Kriesel 的文件里,它悄悄把原数字替换成另一处“看起来差不多”的数字。Kriesel 公开后,陆续有建筑图、发票、病历出现同样静默替换的报告。¹ 压缩永远不可逆地改动数据。常见格式(JPG、MP3、MP4)变化缓慢温和:通常要经历数百次保存、分享、重新上传,名为*压缩伪影*的工具痕迹才会显现。[反复保存 JPG](https://www.youtube.com/watch?v=jjhomJ04S18)会发虚并出现色块;[迭代 MP3](https://parkerhiggins.net/2015/10/mad-generation-loss/)会让金属音渗出音乐;[把一段视频在 YouTube 反复上传一千次](https://www.youtube.com/watch?v=icruGcSsPp0)最终只剩一团模糊配着无法听清的声音。 只要知道该看什么、怎么看,你就能从数据留下的痕迹里还原它的旅程。因为压缩伪影本身就是**元信息**;通过识别并编目这些算法制造的瑕疵,你能对一份文件有新认识。数字取证就利用这种元信息追溯文档、照片、视频的出处。压缩会留下“面包屑”,泄露文件是否被编辑过(以及常被谁、被什么编辑)。 压缩伪影甚至能成为一种美学。[“深度油炸”梗图](https://knowyourmeme.com/memes/deep-fried-memes)把被转发成千上万次的图片视觉风格当成装饰;[datamoshing](https://en.wikipedia.org/wiki/Datamosh)操纵压缩算法创造全新视频美学;[glitch 音乐](https://en.wikipedia.org/wiki/Glitch_music)拉伸、挤压音频文件,让压缩的工具声不仅可闻而且成为音乐。 --- 压缩孕育了艺术与科学(以及[玩笑](https://www.youtube.com/watch?v=0rhdOt9bOHE))的整个领域,只为在保真与体积之间找到理想妥协。 三年前,Ted Chiang 把 ChatGPT 比作一张模糊的 Web JPEG。大语言模型是训练数据的“有损压缩”,而训练数据本身又是所有可用数据的“有损采样”。但我们在 AI 垃圾里看到的伪影并非来自压缩,而是来自“解压”。 每一次 AI 输出都是从那张模糊原图向外插值,朝着你的提示填充被压缩丢弃的“合理细节”。输出被膨胀成博客帖子、LinkedIn 思想垃圾、软件平台、全渠道广告活动,以及已故演员的电影客串。Chiang 把这些缝隙与捏造比作压缩伪影。 我认为它们是**扩展伪影**。 --- 扩展伪影长什么样? - LLM 生成的文字塞满模糊动词与形容词(*delve、intricate、tapestry、multifaceted*)。段落结构像迷你论文:铺垫、高潮、路标式总结(*This matters because...*)。 - AI 写的代码给显而易见的地方过度注释,为逻辑上不会失败的操作写异常处理。 - 图像生成器也有破绽:六根手指、对称却风格违和的饰品、眯眼才像文字的文本。 - 视频模型搞不定连续性:四肢忽隐忽现、物体互相穿模、物理规律说关就关。 这些伪影都是训练分布在模型自信不足处渗出的痕迹。和压缩伪影一样,它们也是取证标记。2024 年,斯坦福研究者通过追踪 ChatGPT 发布后词频飙升的词(*commendable、meticulous、pivotal、showcasing* 等),估算出 17.5% 的最新计算机科学论文与 16.9% 的同行评议文本含有 AI 草稿。有时破绽更直白:Elsevier 旗下某期刊的一篇论文开头就是“Certainly, here is a possible introduction for your topic.”² 扩展伪影也会成为审美选择。Shrimp Jesus 是我最爱的例子,只有 LLM 才造得出这种疯狂图像。AI 建站工具的“重度用户”(被 AI 洗脑的设计师)已学会识别这些工具痕,只为在提示里把它们赶走:紫色渐变就是最常见的信号之一。但当越来越多非设计师用 Claude Design 之类的工具提示出完整软件产品时,我预计人们会*偏爱*当前这批 AI 模型特有的审美趋同。³ > 我想正式道歉:五年前我把 Tailwind UI 的每个按钮都设成 `bg-indigo-500`,导致地球上所有 AI 生成的 UI 都是靛蓝色。https://t.co/StJ0UjKRhK > — Adam Wathan (@adamwathan) 2025 年 8 月 7 日 扩展伪影的真正危险在于它们会层层叠加:一次 AI 生成成为另一次、再另一次的输入。今年 2 月,一个自主 openclaw 代理[发表了一篇攻击 Scott Shambaugh 的文章](https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me/),只因这位 matplotlib 维护者拒绝了它的代码。Benj Edwards 随后为 Ars Technica 报道此事,却用 AI 辅助写作;不出意外,[他的文章里出现了幻觉引用](https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me-part-2/)。 这种对扩展伪影的“盖尔曼健忘症”会导致失控的反馈循环: 1. CEO 录一段五分钟语音备忘录 2. Claude 把它扩写成战略文档 3. Notion AI 把战略文档变成产品需求 4. Cursor vibe-coding 出原型 5. Devin 在 PR 里给反馈 6. ChatGPT 写发布文案 7. Intercom 的 Fin 客服机器人回答支持问题 每一层都在用“模糊 JPEG”训练分布里的数据插值上一段上下文。 真正的危险在于,扩展伪影会混进下一代生成式 AI 的训练数据。像 SolidGoldMagikarp 这样的异常词元曾把早期模型拆得肚肠横流,新模型却经过严格评估,让人更难发现错误藏身何处。分布的长尾(微弱声音、怪异新短语、罕见挑战观念)在一次次模型迭代中淡去,模糊 JPEG 越变越糊,为荒谬与虚假材料留出更多空隙去填补代币之间的空洞。 压缩靠“瘦身”让信息时代得以挤进管道;扩展靠“充气”让 AI 时代得以重新膨胀。两者都会留下痕迹:我们已学会识别压缩伪影,却刚开始面对扩展伪影。在真正学会之前,风险无处不在。 特别感谢 [Josh Petersel](https://joshpetersel.com/) 对本文草稿的反馈。 我会把新文章、相关链接和一两首推荐歌曲直接发到你的收件箱。 ¹ Kriesel, David. 2013. “Xerox Scanners/Photocopiers Randomly Alter Numbers in Scanned Documents.” *D. Kriesel* (blog), 2013 年 8 月 2 日。https://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning。↩︎ ² Liang, Weixin 等. 2024. “Mapping the Increasing Use of LLMs in Scientific Papers.” 预印本,提交于 2024 年 4 月 1 日。https://doi.org/10.48550/arXiv.2404.01268。↩︎ ³ [复制是设计的工作方式](https://mattstromawn.com/writing/copying/)。↩︎

相似文章

WhenLoss:诊断长上下文记忆系统中的写入与检索瓶颈

arXiv cs.CL

介绍了一种四条件诊断协议,用于识别长上下文记忆系统的失败是由于写入端的压缩丢弃了证据,还是检索端未能找到已存储的信息。分析表明,大多数基线模型的写入端差距占主导,从而推动了所提出的预期预测压缩(EPC)方法,该方法提高了相关证据的保留能力。

经验压缩谱:统一LLM Agent的记忆、技能与规则

arXiv cs.CL

本文提出经验压缩谱,这是一个统一框架,将agent记忆、技能发现和基于规则的系统沿单一递增压缩轴集成(情景记忆5-20倍,程序性技能50-500倍,声明性规则1000倍以上)。工作识别出一个关键缺口——‘缺失对角线’——表明现有系统在固定压缩级别运行,缺乏自适应跨级别支持,并阐述了可扩展全谱agent学习系统的设计原则。