各位,好好检查你们那该死的消息来源
摘要
一篇关于技术文章中虚假引用和AI幻觉数据泛滥的吐槽,以瑞典乌鸦的假故事和代码审查缺陷检测的夸大说法为例。
暂无内容
查看缓存全文
缓存时间: 2026/05/15 15:32
# 请他妈的核实你的来源,各位!——Pawel Brodzinski 谈技术领导力
来源:https://brodzinski.com/2026/05/check-fcking-sources.html
抱歉,这是一篇吐槽。标题已经暗示了,废话!
压垮我的最后一根稻草是这条推送:
> *"瑞典制造了智能机器,让乌鸦用垃圾换食物,把聪明的鸟儿变成了意想不到的城市清洁工。"*
ai 生成的瑞典乌鸦清洁城市一张明显是 AI 生成的图片并没有提升可信度(三条腿的乌鸦已经很有说服力),但真正让我去搜索的是那个标题。当然,“搜索”这个词可能有点夸张——实际上只查了一次。
不是瑞典,而是一家瑞典初创公司。不是“制造了”,而是运行了一次性的试点项目。而且该项目完全没有接近“把乌鸦变成城市清洁工”,因为最终被废弃,没有任何后续。事实核查在此:(https://www.snopes.com/fact-check/sweden-crows-cigarette-butts/)
乌鸦捡烟头造假但如果你想让别人关注你那条明显是 AI 生成的、试图推销某样东西的 LinkedIn 帖子(我不知道具体推销什么;一旦看到 AI 生成的图片,我就没兴趣再读了),这招确实很吸睛。
## 链接不再意味着可信度
乌鸦清洁工的故事虽然有趣,但还不至于让我专门写一篇文章。实际上,虚假引用早已是我的心头大患,所以这只是“又一个例子”罢了。
更有意思的是另一个案例。最近,我读到一篇关于 AI 编程的文章,里面充满了支持作者观点的数据。其中一个具体说法是:
> *"SmartBear/Cisco 的研究确立了一组没人关注的数字:**缺陷检测率从 100 行以下 PR 的 87% 下降到 1000 行以上 PR 的 28%**。"*
很棒。这正是我正在研究的内容。让我看看这项研究,从数据中学点东西。哦,链接指向的并不是研究本身,而是另一篇文章。但那篇文章又有一个链接,指向另一篇压根不再提及这项研究的文章。
顺便说一句,在这条链接链中的任何网站上,都没有提到原始引用中的数字。我敢打赌,这些数据是 AI 生成的,没有任何人工验证。
哪怕一个稍微有点能力的人类都能发现其中的不一致。而该作者显然想跻身于比“稍微有点能力”更高的专业水平。
## 源数据是幻觉的常见根源
现在,SmartBear/Cisco 的研究 (https://static0.smartbear.co/support/media/resources/cc/book/code-review-cisco-case-study.pdf) 很容易通过谷歌搜到,所以那条链接链最终只是个小麻烦。然而,阅读这篇论文却是一次启发性的经历。
**研究中没有任何一处声称针对特定 PR 大小的缺陷检测率为 87% 或 28%。在整个数据样本中,几乎没有任何数据点的 PR 大小超过 1000 行代码。最后,这篇论文并未将"缺陷检测"明确作为分析参数(它使用了"缺陷密度",并对检测率得出了一些结论)。**
换句话说,原文中的整个说法一定是幻觉。
为作者辩护一句:SmartBear/Cisco 的研究推断,更长的 PR 可能会导致更差的缺陷检测。但它既没有明确也没有直接地做出这个论断。
> *"检查速率低于**300 行/小时**时,缺陷检测效果最佳。速率低于 500 仍然不错;如果超过这个速度,预计会遗漏很大比例的缺陷。"*
角度是每小时审查的代码行数,而不是 PR 大小。推论是更大的 PR 需要更长时间,并且在耗时较长时,审查者往往会加快流程。而审查的速度与缺陷密度呈负相关。
这和“*缺陷检测率从 87% 下降到 28%*”相差甚远。
## AI 在边缘处失败
这是 AI 在边缘处不可靠的完美例子 (https://pawelbrodzinski.substack.com/p/ai-wont-generate-a-good-product-idea)。"SmartBear/Cisco 研究"或显示特定代码审查动态的样本数据并不特别多。对于 LLM 来说,这已经算是边缘。
AI 边缘与专家知识如果我们让 AI 自动运行,它肯定会给出结果。很可能,当 LLM 找不到相关答案时,它会编造一些东西。它很乐意编造数字。这些数字看起来很好、很具体、很合理。运气好的话,它们甚至可能(某种程度上)与原始来源所说的相符。但这真的会是研究所报告的内容吗?
**我们都知道,"73.6% 的统计数据都是编造的。(https://www.businessinsider.com/736-of-all-statistics-are-made-up-2010-2?IR=T)" 我要补充一句:"自从 AI 广泛采用以来,这个比例上升到了 86.9%。"**
可悲的是,我们越是将数据研究外包给 AI,我的讽刺就越可能成为现实。而且情况只会更糟。那篇编造数字的原文很快会被另一个 LLM 当作可信文章使用。毕竟,它*看起来*就像真的。链接链的长度会增加一节,为未来的 AI 查询添加更多自我强化的噪声。干得好啊,各位!
## 可信度是我们的货币
好吧,我知道。我无法扭转潮流。AI 垃圾内容会继续存在。算法奖励这些内容。写一篇文章大概需要我几个小时。如果需要研究背景事实,时间更长。再加上一些后期编辑时间。
ChatGPT 可以在几分钟内为我完成这些。而我则一边喝咖啡,一边享受阳光。输出一大堆链接和大量引用数据。毫不费力。结果呢?除去一些个人风格,它可能看起来和我写的一样好。
唯一需要付出的代价是我的可信度。LLM 拉取的数据可能被误解(如果走运)或者完全是假的(如果不走运)。引用链接会指向那些在生成式引擎优化(即 2026 年的 SEO)中排名最高的帖子。而巧合的是,这些页面往往对人类读者来说难以阅读。最终的结果将是我不会自愿署上名字的东西。
我基本上就成了自己廉价、匿名的埃隆·马斯克版本,传播一个看似搞笑(实则虚假)的笑话,关于一次严重的 AWS 宕机 (https://edition.cnn.com/business/live-news/amazon-tech-outage-10-20-25-intl)。
埃隆·马斯克分享关于 AWS 宕机的虚假推文我这是在交易我的信任和可信度。而正是这些工具,对于在 AI 时代驾驭职业关系至关重要 (https://brodzinski.com/2025/10/trust-networks-ai-slop-antidote.html)。
## 核实你的来源,各位!
由于注意力持续时间缩短,我们不想花时间阅读实际的研究论文来支持我们的一时脑热。我明白。我自己也经历过这种痛苦。
5 年前,我们需要非常精通谷歌搜索技巧才能找到一篇合适的研究论文来支持[插入任何说法]。现在?用简单英语向 ChatGPT 或 Gemini 解释一下,瞧!一个新鲜出炉的链接就来了。
它很可能是垃圾,但你怎么知道呢?除非你他妈的做好功课,亲自读一下那东西。然后至少运用一点判断力。
我的意思是,作为作者,我们必然也是读者。编造数据就像在自家门口拉屎。**如果你让 AI 在你"写作"中无人看管地编造数据,你怎么能相信你读到的任何东西?**最终,你怎么能指望别人比你更在意呢?
所以,拜托了,请他妈的核实你的来源,各位!
---
我实际上读过我在这里链接的来源。包括 SmartBear/Cisco 的研究。我知道,很奇怪,对吧?웃https://okhuman.com/M0eKWQ
感谢您的阅读。如果您订阅以获取新文章到邮箱,我将不胜感激。
我还在 Pre-Pre-Seed substack (https://pawelbrodzinski.substack.com/) 上发表文章,那里我更聚焦于与早期产品开发相关的所有内容。
相似文章
我是一名专业事实核查员。AI的错误比你想象的更频繁
WIRED的一位专业事实核查员分享说,AI并不可靠,估计大约三分之一的AI生成信息是错误的,并主张人类的监督仍然至关重要。
依赖AI获取准确新闻的后果
麻省理工学院媒体实验室的一项新研究发现,依赖AI聊天机器人验证新闻的人,在独立识别虚假信息方面反而变得更差,凸显了“AI依赖悖论”。
这篇由thehackernews撰写的关于AI幻觉的文章,本身竟然是用AI写的,lol...我们必须采取行动阻止这种现象。
本文讨论了AI幻觉如何造成真实的安全风险,并强调了2025年的一项基准测试,该测试显示大多数AI模型会给出自信但错误的答案。文章解释了原因,并呼吁对AI输出进行人工验证。
@BenjaminDEKR: X 上带有「新闻报道」的虚假 AI 图片正在迅速失控、愈演愈烈。而社区备注(虽然有用)似乎跟不上步伐……
一位用户警告称,X 上虚假 AI 生成图片与捏造新闻故事的组合正在激增,而社区备注审核未能跟上节奏,预计问题将进一步恶化。
这是一个AI胡说检测器:我每天使用它,它能捕捉到你独自发现不了的问题
一款名为Lighthouse的工具,由一位AI治理工程师构建,利用运行时验证来检测AI输出和写作中的认知漂移以及听起来自信的胡说八道。