@alexolegimas: @TuhinChakr 的这篇文章真是精彩。那篇格兰塔获奖故事?结果发现它只是一堆随机的完整短语…

X AI KOLs Following 新闻

摘要

Tuhin Chakrabarty 使用 Infinigram 追踪一篇格兰塔获奖短篇小说中的 n-gram,发现其为从同人小说复制而来的 AI 生成文本,引发了关于 AI 写作检测的争议。

@TuhinChakr 的这篇文章真是精彩。那篇格兰塔获奖故事?结果发现它只是一堆直接从互联网上现有文本中随机抽取的完整短语。该工具可以让您直接追踪这些 n-gram 的来源,而来源大多是随机的同人小说。 https://tuhinchakrabarty.substack.com/p/ai-slop-grantagate-and-bad-writing…
查看原文
查看缓存全文

缓存时间: 2026/05/25 22:44

来自 @TuhinChakr 的这一发现简直绝了。那篇获奖故事,就是 Granta 刊登的那篇?结果发现,它不过是从互联网现有文本中直接随机抄来的整段短语。这个工具能让你直接追踪这些 n-gram 的来源,大部分都是些随机同人小说。

https://tuhinchakrabarty.substack.com/p/ai-slop-grantagate-and-bad-writing…


AI垃圾、Granta门与劣质写作

来源:https://tuhinchakrabarty.substack.com/p/ai-slop-grantagate-and-bad-writing

几天前,在纽约一场非常高级的派对上,一位二十多岁的年轻女子走到我面前问:“你是在写东西吗?”“搞学术的从来就没停下过写东西,朋友。”我用略带 sarcastic 的语气答道。“你知道吗,我想读读你在 Substack 上写的东西。”她说。“但那玩意儿拿不到终身教职。”我回道。那次对话之后,我一直在想:我是不是该写点既非纯学术又带点学术味的东西?我的犹豫部分要归咎于 George Saunders (https://substack.com/@georgesaunders1) 和 Ottessa Moshfegh (https://ottessathisottessathat.substack.com/),他们那些精彩的 Substack 专栏让我望而生畏。我根本不是作家。谁特么会想看我的 Substack?然而,我此刻就在这里,写着我的第一篇 Substack 帖子。

过去两天真是有点疯狂,因为 Granta 杂志发表的一篇短篇故事 (https://granta.com/the-serpent-in-the-grove/) 最近被联邦基金会授予了一个奖项。Nabeel Qureshi 是我信息流里第一个指出那是 AI 生成内容的人 (https://x.com/nabeelqu/status/2056397504824963296)。在我写这句话时,他的推文已有 150 万次浏览,这大概比我写过的任何东西都多出 140 万次。对我们这些幸运——或者我该说不幸的——教授而言(收件箱里塞满了 AI 写的邮件),要识别出这篇短篇故事完全由 AI 生成,根本算不上什么侦探工作。

Pangram 的 AI 检测证实了这一点。对于那些不了解我的人,我得承认我是个有点极端的 AI 检测派,所以自然在 X 上跟那些急于否定检测结果、坚称检测工具没用的人吵了起来。先把这个放一边,昨天《国家报》一个记者问我:“为什么我们突然就认定一个文本是 AI 生成的,就像这次获奖案例一样,明明还没有可靠的检测工具?”我的回答很简短。我指出了 AI 写作中常见的文体特征和模式。去年,我因为一篇分析 AI 写作个性特征 (https://dl.acm.org/doi/full/10.1145/3706598.3713559) 的论文获得了最佳论文荣誉提名。我这样一个人,如今被海量 AI 垃圾训练过,一点也不奇怪。

几天前,我那非常聪明的博士生 (https://cauchy221.github.io/) 跟我说了一个观点,让我印象深刻。用她的话说,糟糕的 AI 写作,或者说低质量的 AI 写作,可以归因于它从预训练中记忆了多少文本。这是个相当精彩的假设。毕竟,大语言模型没有意识,没有完美的具身感知。它们只是自回归模型,通过从一大堆别人写的东西中抽样来生成文本,或多或少如此。简单点说,就是我的同事 Najoung Kim (https://najoung.kim/)(波士顿大学语言学教授)所说的“词汇沙拉”。去年我们写了一篇论文(已被 ICLR 接收),探讨看似新奇 n-gram 常常是毫无意义或不合语用的 (https://arxiv.org/pdf/2509.22641)。这篇短篇故事里就有很好的例子。看看某些短语:“她走路的那种方式让长凳变成了男人”或者“女孩的微笑像水槽上空的日出”。这到底什么意思?

所以,经过再三考虑,我让我的学生用 Infinigram (https://arxiv.org/abs/2401.17377)(一个 n-gram 归属引擎,说得通俗点,就是告诉你某个短语可能从哪里抄袭来的)跑一下这个故事。根据我的个人经验,大语言模型不会遵循体裁惯例;它们会从到处挑拣表达方式,体裁什么的见鬼去吧。比方说,如果我在写文学小说,我会像躲瘟疫一样避开套路或陈腐的隐喻(你看出我玩的小把戏了吧:)。那种写作风格通常存在于同人小说网站和网络更偏僻、排名更低的角落。

让我们找点乐子。下面有个小演示。别忘了点一下。这会展示大语言模型如何把不同来源的逐字表达拼凑起来。严格来说这不构成侵权,因为这些表达不是超长,但它们也不是原创。

现在我们一个个来解码。

  • 比如说,你读到句子“but a belly sound, as if the earthswallows a shoutand holds it there”,这显得相当刺耳。这不是你在好文章里会看到的东西,对吧?别担心,这很可能取自一个同人小说网页《凤凰之陨》(https://www.fanfiction.net/s/4809807/1/The-Fall-of-a-Phoenix)(抱歉,故事已经删了,但原句是:“Heswallows a shoutof pain, breathing heavily, his whole body trembling.”)。
  • 我对那个非常华丽且以典型 ChatGPT 三段式(x, y, z)结尾的句子很感兴趣。这里,“damp earth, woodsmokeand the sour tang of fermentingcocoa”显得特别具体又非常罕见。结果发现它可能来源于一个 AO3 网页 (http://archiveofourown.org/works/5673349)。原句是:“She smelled cookingand the sour tang of fermentinggrain.
  • 看这个句子:“Hiseyes narrowed against the glare outsideand**the**darker glare**inside him.”这里的“eyes narrowed against the glare outside”听起来有点虚浮,还有点不祥的意味,显得多余。原因可能是取自 jedifiction.com (http://jedifiction.com/)(已失效),或者一个随机的恐怖博客 (http://jakeprytherch.blogspot.com/2013/)(原句是:“Hiseyes narrowed against the glareof the halogen strip lights”)。至于“the darker glare”,虽然很常见,但也出现在另一个同人小说《毒药》(https://www.fanfiction.net/s/7196184/8/Poison) 里。

还有好多这种词汇沙拉的例子,写到这里我已经头疼了。另一个夹生抄袭的绝佳例子:“the air sweet with**cane and forgetting.”这到底啥意思?? X 上的读者很快提醒我,这里的cane指的是特立尼达的甘蔗。我表示怀疑。它有可能断章取义地抄自一篇《风骚律师》的评论(一个原本活跃的年长亲戚突然不得不用拐杖,还忘了你的名字)。

还有更烂的写法?

Vishnu began to plan withthe patience of a reptile”它可能来自《被缠住的蜘蛛》(http://narutomushrivalry.wikidot.com/05mission-data:infection-the-mangled-spider)(“She hasthe patience of a reptile, lying in wait.”)。

Something coiled inside herchest.”可能来自另一个同人小说网页 (http://xanadu.xffics.com/winners/favorites/YouSaucyThing.txt)(“Something coiled inside her**stomach as she began to give herself over to sensations[……]*”)。

免责声明:我们实际上无法窥视大语言模型的大脑内部(这大概也是好事)。但完全有可能的是,当你提示它写小说时,它正悄悄地翻遍每个被遗弃的 Wattpad 草稿和某个本不该熬夜的人在凌晨两点写的同人小说。

所以,下次你看到 AI 写作感到尴尬时,请记住:大语言模型不会三思而行,没有反思。它们只是从任何能获取的来源中抽取词语。它们不遵守体裁惯例。很多劣质写作之所以发生,是因为 AI 没有学会审美。它只不过是把整个互联网记下来,然后收工了事。所以没错,也许你不相信 AI 检测器。但你可以相信自己的眼睛。仔细去读。我算不上专家,但或许,这些逐字抄袭、这些语气上的不协调、这些毫无意义的隐喻,恰恰就是 AI 检测器学会识别的模式?

关于本帖的讨论

准备查看更多?

相似文章

文学界尚未准备好应对AI

The Verge

这篇文章报道了英联邦短篇小说奖的一篇获奖作品涉嫌由AI生成,凸显了文学界对AI生成内容缺乏准备以及检测困难的问题。