人工智能能产出我们想读的作品吗?

Hacker News Top 新闻

摘要

本文探讨了AI生成写作的现状、检测方法及其对教育和文学的影响,并提及Granta争议事件——一篇被怀疑由AI创作的故事获奖。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:37

# 人工智能能写出我们真正想读的文章吗? 来源: https://www.newyorker.com/news/fault-lines/can-ai-produce-writing-that-we-actually-want-to-read 在这个关于高等教育未来系列的前一篇文章中,我采访了教授们,了解人工智能如何改变了他们的课堂(https://www.newyorker.com/news/fault-lines/the-despair-of-the-professor-in-the-age-of-ai)。大多数人对师生之间契约的瓦解感到绝望——这种契约建立在这样一种信念上:即使学生并非总是完美,他们至少会偶尔挑战自己去思考。如果学生依赖人工智能摘要来“阅读”材料,如果他们不尝试将自己的想法转化为文字,他们真的在学习什么吗? 当我思考这个系列的原始问题(https://www.newyorker.com/news/fault-lines/will-ai-make-college-obsolete)——我九岁的女儿是否会去上大学——时,我发现自己也在想,她是否还会以那种老式的方式在写作过程中挣扎。读者永远想要人类写的文学作品,但对于其他所有东西——电子邮件、广告文案、法律简报、学生论文——随着技术的进步,人们几乎无法分辨人写和机器写的区别,对人工智能生成文字的抵制几乎肯定会减弱。当那一天到来时,教育者对学生施加的主要激励——“如果你作弊,我会让你不及格”——将消失,因为根本没有办法知道。 考虑到这一点,我想从人工智能对高等教育的影响退后一步,问一个更根本的问题:我们离那个时刻还有多远?目前,我相信人们仍然很容易发现人工智能写作的明显例子。一个阅读了数百篇论文、对学生写作能力有相当把握的教授能够识别出赝品。一个经理突然收到下属整洁、带项目符号、大多乐观的电子邮件,她会有理由怀疑是机器人自动完成了它们的信息。机器人写作也经常充满特征:大量的破折号、“不是X而是Y”的句式、显眼的动词(比如“深入”)。 但这些特征通常只出现在Claude(https://www.newyorker.com/magazine/2026/02/16/what-is-claude-anthropic-doesnt-know-either)最原始的输出中。那我们真正想读的那种文章呢?Claude能写出来吗? 这个问题(或其变体)在过去几周被数以千计的愤怒读者提出,当时文学杂志*Granta*发表了一篇由名叫Jamir Nazir的作家写的英联邦奖获奖故事,该故事似乎具有人工智能写作的所有特征。人们注意到“哼”这个词的奇怪重复,尤其是那些尴尬、便秘般且毫无意义的隐喻。*Granta*的出版商随后发表了一份令人费解的矛盾声明,结论是“也许我们永远不会知道”人工智能是否写了这个故事。Nazir本人反驳了这一指控。一大群作家尖叫说末日已经到来,或者(不那么有说服力地)坚持认为人工智能写作能够赢得英联邦奖的原因是文学小说正处于糟糕的境地。(文学小说比二十、三十或四十年前更好还是更差?我不知道,但我确实知道每一代作家都或多或少发出过同样的抱怨。) 我使用Claude编写了一个简单的游戏:展示大约两百个单词的文本,让玩家判断它是人写的还是人工智能生成的。样本文本全部来自Project Gutenberg(一个公共领域文学的在线图书馆);我让机器人扫描乔治·艾略特、詹姆斯·乔伊斯(https://www.newyorker.com/magazine/1999/06/07/joyces-odyssey)、欧内斯特·海明威和阿瑟·柯南·道尔等作家的作品,并以各自风格生成段落。机器人显示结果,让我和几个朋友猜测每个段落是真品还是赝品。 测试轮次相当简单。人工智能写作有特征,包括格式和标点问题,以及过度依赖牵强的明喻和隐喻。人工智能还有一个奇怪的习惯:让角色不停地坐立不安,总是沿着桌边划动手指或调整衣领。但最可靠的标志更为抽象,我猜反思一下甚至有点诡异。人工智能生成的场景中有角色,但除了坐立不安外,他们基本上什么都不做。 看看这段Claude以亨利·菲尔丁风格生成的段落: > 索菲亚此前很少说话,现在她望着父亲,表情让韦斯顿先生无法很好地解读,是恳求还是责备——确实,她自己可能也不清楚她是什么意思。琼斯站在窗边,像个等待宣判的人。韦斯顿这边,此时已经恢复了一些他惯常的虚张声势,又开始谈论布利菲尔,热情地称赞他的庄园和家族,好像单凭这些考虑早就应该把问题解决了。他特别有力地提到奥尔沃西的认可,重复了两三次这个名字,仿佛那个名字带有任何理智的人都无法抗拒的权威。索菲亚对此什么也没说,但她转身朝向壁炉,那里燃着一小堆煤火,尽管下午并不冷到需要一个壁炉的地步。 这里几乎没有动作,也没有确定性。索菲亚没说什么,韦斯顿先生无法解读她的表情,而她自己也并不完全理解。在韦斯顿说完他的观点之后(用了一个“仿佛”和一个“好像”从句来描述),索菲亚没有回应,而是看向壁炉,那里燃烧着毫无意义的火焰。 在早期回合中,我分享这些死气沉沉的段落的人立刻认为它们是假的,即使机器人已经相当好地模仿了特定作家的风格。 接下来的几天,我与Claude讨论如何消除这些特征。我告诉它避免使用明喻,减少“无处”和“某物”这类词,这些词往往暴露其奇怪的、核心的模棱两可。有一阵子,Claude一直吐出同样惰性的段落,其中杰伊·盖茨比或夏洛克·福尔摩斯几乎什么都不做,对身边发生的微不足道的事情也没有任何看法。我告诉Claude它并没有很好地改掉坏习惯,并建议它创建另一个代理来扫描赝品并捕捉任何错误。第三个代理做笔记,说明如何最好地模仿每个作者。我把这些想象成提示卡,代理会举起来确保每个人都记得让多萝西娅·布鲁克真的做*点什么*。 以下是一些规则的样本,我没有参与编写——这是Claude关于如何模仿每个作者风格的自我指示。(我只包含了几条;每个“做”和“不做”类别通常有大约十条指示。) > **欧内斯特·海明威** > 做: > 用“and”作为主要连词,串起简短的陈述句,创造向前推进的动力 > 将对话标签简化为“he said / she said”;很少使用副词或同一行中的动作节拍 > 将天气或风景作为平实的事实句,而不是框架化的观察(“太阳在山丘上空”) > 不做: > 绝不使用从句堆叠或延迟主要动词的圆周句 > 避免使用拉丁语或多音节词汇(“照亮”、“然而”、“随后”) > 绝不通过自由间接引语或斜体反思来归属内心想法 > 绝不明说或解释角色的感受(“他感到悲伤”、“她害怕”) > **乔治·艾略特** > 做: > 构建长而建筑般平衡的句子,包含多个嵌入的从句,用分号或冒号连接 > 在角色名字出现之前,先用一个简短的社会学或阶级定位短语介绍(“一个大约五十岁的男人,他的……”) > 不做: > 绝不使用句子片段来强调或节奏 > 避免现在时叙述;一切以过去时进行,带有克制的回溯 > 绝不使用口语化或美国习语;叙述中没有缩写 倍增机器人劳动力并提醒机器人它的任务似乎至少部分奏效了。(当我问一位在加州大学伯克利分校教授计算机科学和机器学习的友人为什么机器人需要其他机器人来检查自己的工作,他回答:“百分百认真的回答:没人知道。”)明喻消失了。但Claude有些过于严格地遵守新指令;突然,每个假段落都充满了跳上马背、递送重要包裹或奔跑的角色。这不知为何导致了非常短的句子,人们很容易识别为假的。所以我稍微放宽了规则,让Claude做它通常做的事情,只对模糊词语和明喻加了几条严格规则。 经过几天的测试,我在我的X账户上发布了测试链接。五天内,我收到了超过三万条回复。参加测试的人大约有52%的时间能正确识别真实段落与假段落——这可能是说他们实际上无法区分两者。但大约10%的玩家似乎擅长这个游戏,要么是因为他们对原始材料有先验知识,要么是拥有我仍未认识到的对人工智能特征的特别敏锐眼光。 到这个时候,我已经知道如何制作稍微好一点的赝品。我部署了另一个人工智能员工让它双重检查两个样本的特征。到周末时,我已经能骗过超过一半的游戏参与者。骗过最多人的样本来自机器人布拉姆·斯托克。只有17%的玩家能够识别出它是假的。 > 5月4日。今天上午我大部分时间待在我房间的窗户旁,让自己陷入一番思考——我本希望通过持续活动来避免这种思考,但此处缺乏任何职业最终使它变得不可避免。据我能确定地说,伯爵最后一次被我见到是在二日的晚上;他的缺席现在已经持续了两个夜晚和差不多三天。我不相信他已经离开城堡。马匹在马厩里。南楼梯底部的大门从周二起就从里面锁上了。我每晚在下面三层的走廊里走两次,除了大厅烟囱里的风声,什么也没听到。然而我确信,通过一种我无法解释的方式,他在整个这段时间里一直在城堡的某个地方,并且他知道我的行走路线。 让我印象深刻的是,虽然这无疑比早期版本的游戏包括的更像布拉姆·斯托克,但它仍然描述了缺席和静止。叙述者试图通过“持续活动”来避免“一番思考”,但找不到足够的事情来占据他的头脑。伯爵无处可寻,留下叙述者走过空荡荡的走廊,在那里他只听到“除了大厅烟囱里的风声之外什么也没有”。并非所有假样本都包含这种程度的空虚,但足够多的样本确实如此,这表明虽然Claude能够生成对著名公共领域作家的模仿——好到足以骗过绝大多数甚至敏锐的读者,尽管不是全部——但它仍然无法可靠地让那些角色做什么事情。再多的额外提示卡或反馈也无法解决这个问题;我一旦要求它让事情更活跃,那种残缺且更容易识别的人工智能散文又回来了。 我不愿声称这是伟大的特征,因为它听起来,嗯,太*文学*了,甚至有点俗气——我有点害羞去充分解读这背后可能意味着什么:机器人无法真正赋予场景生命。我会把这个问题留给诗人和反机器人派。在这场对话中我唯一谦虚的观察是:小说的艺术在很大程度上依赖于读者接受这些描述的、氛围的段落——Claude似乎偏爱的那种——正如文学评论家James Wood(https://www.newyorker.com/contributors/james-wood)所称的“相机的轻松一扫”。Wood认为,作者的选择,无论大小,总是浮出表面。人工智能也做出选择,但不是通过调用它关于某条巴黎黄昏街道的个人遐想,而是从几乎所有曾经写过的文字中提取。如果Claude倾向于写这些似乎什么都没发生、走廊总是空荡荡、角色除了随手碰碰附近家具之外什么都不做的段落,那是因为我们也这样做。 我敢肯定Claude很快就能让这些角色中的至少一个点燃炉子或驾车去诺里奇,而这一切只会感觉像一次奇怪的打嗝。不过,这个愚蠢的机器人模仿实验最终让我感到振奋,因为在任何时候,我和测试者都没有得出我们*想要*阅读人工智能写的文学的结论,也没有留下阅读和写作不再必要的启示。 每当我开始思考这项技术及其取代我们的种种可能性时,我提醒自己——几乎作为一种心理卫生——顶尖特级大师已经二十年没能在国际象棋中击败最好的象棋电脑了,然而如今数十万孩子在TikTok上关注象棋网红。我们仍然珍视国际象棋的人类过程,珍视这个游戏如何让我们的思维运转。机器人的优越性与我们为何下棋无关,即使电脑对人类策略产生了很大影响(https://www.newyorker.com/sports/sporting-scene/after-magnus-carlsen-chess-has-entered-a-new-age)。 当然,写作也是如此。这意味着我们可能可以同时抛弃末日论以及“文字留存”的各种迭代和倒转,只需相信人们永远需要理解事物,并且他们需要将这些事物转化为可用于与其他人类交流的语言。跳过这个过程总会感觉像作弊,即使在不远的将来,我们产生的部分文字可能来自机器人。当你阅读一封由人工智能写的电子邮件、文章或短篇小说时产生的那种糟糕感觉,实际上并不是对我们在地球上的用处即将终结的恐惧,而是你发现你的象棋对手在用机器人规划下一步时会感受到的同样不适和失望。只要这种不快感仍然存在,一百万个大型语言模型就可以写出百万份伟大文学作品的复制品,有些甚至可能偶然发现扩展我们造句能力的新发现,但人类与写作的基本关系将保持不变。♦

相似文章

文学界尚未准备好应对AI

The Verge

这篇文章报道了英联邦短篇小说奖的一篇获奖作品涉嫌由AI生成,凸显了文学界对AI生成内容缺乏准备以及检测困难的问题。

出版业正在发生什么?

Hacker News Top

本文讨论了一个 Commonwealth Foundation 短篇小说奖得主可能由 AI 共同撰写的争议,重点介绍了使用 Gemini 等 AI 工具评估写作的情况,以及这对文学出版信任度的潜在影响。