不仅仅是X，更是Y

Hacker News Top 2026/05/31 21:57 新闻

llm ai-detection post-training linguistic-patterns writing rlhf rlvr

摘要

本文探讨了LLM的后训练（RLHF和RLVR）如何产生诸如否定平行结构之类的语言特征，并批评了使用AI检测工具（Grammarly、Pangram）的做法，这些工具迫使写作者为了避免被误判而模仿机器语言。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/31 22:37

# 不只是X，而是Y。来源：https://mail.cyberneticforests.com/its-not-just-data-its-post-training/ ### 反对量化诚信 *当衡量语言的标准成为目标时，它就不再是好语言了。* 💡 ****书呆子评级：1/5。****我讨论了LLM中某些语言习惯的起源，以及这对写作、学生评估和思考意味着什么。 “不是*x*，而是*y*。” 大型语言模型倾向于这种称为否定平行结构的句式。它有其用途：构建对比。它尤其适用于重新框定假设：“你以为它是*那样*，但实际上它是*这样*。” 这种结构在社交媒体上泛滥，尤其是领英，并且在对抗自动化语言生产的持久战中引发了反弹。如果你使用破折号——你可能是个机器人。如果你描述事物时用“*钻研*”、“*安静地*”或“*真正地*”（或者列三个一组的清单，就像那个一样），你可能是机器人。最近由于语言模型过度使用，许多人宣称这是糟糕的写作。我不太确定。没人说肯尼迪是偷懒的作家，当他说：“不要问你的国家能为你做些什么——问你能为国家做些什么。”否定平行结构是一种修辞手法，任何修辞手法的好坏只取决于其内容。 ### 自动化语言生产现在，我们有了AI检测器，声称通过寻找这些模式来保护你免受猎巫行动之苦。你拿自己写的东西，用Grammarly跑一遍，它会分析那些AI检测器可能标记的词汇模式。然后它提供如何修改的建议，这a) 让Grammarly拥有为你写作的权力，b) 使你的写作失去任何节奏或意图。 Grammarly对本节的审查标记了27处我应该修改的文本，以避免被指责为机器。例如，Grammarly将上面的短语——“自动化语言生产”——标记为AI可能性高出11倍。它建议人类更可能说“*反对机械化语言合成*”。简单的两个词组合“*与……对齐*”被标记为AI生成的可能性高出43倍。*真正*的人类说“对应”。这些建议虽小，但累积起来，结果变得不再像我的选择。人类的声音被试图听起来像人类的机器所取代。结果，我刚刚付给另一家AI检测公司Pangram 20美元，用于验证最近投稿的一篇期刊文章在提交前不是AI生成的。它不是，我知道它不是。它也同意。我付钱就是为了这个：不是要了解我是否写了它，而是要被告知它不会标记我。因为如果Pangram的AI系统判定我有罪，我职业生涯就完了。这简直就是勒索（https://timrequarth.substack.com/p/why-you-shouldnt-trust-ai-detector?ref=mail.cyberneticforests.com）。如果它标记了，那怎么办？它会给我一个分数（四个等级：高、很可能、有些可能、人类），给我的诚信贴个标签。在我们都在构建的这个生态系统中，我将不得不用Grammarly改写一切：用一台机器为我写作，来证明我没有用另一台机器为我写作。 ### 敌视理性的文化我们理解这些机器的本能是检查训练数据。那个训练数据不再只是“互联网”。互联网是生肉，但这根香肠经过了大量预处理和后处理。后训练使模型优化以完成它设计要做的任务。这包括诸如RLHF（基于人类反馈的强化学习）和RLVR（通过验证奖励的强化学习）等技术。RLHF让人类对回复进行排名，然后系统强化那些类型的回复。 RLVR更古怪，我怀疑这就是我们如此频繁看到“不是X，而是Y”的原因。把否定平行结构斥为“偷懒”会妨碍我们理解为什么它到处出现。这种语言是一种强大的*思维框架*，以至于我们误以为它是模型的*思考能力*。我们把语言完成的工作归功于计算。 ### 怪异的狗 RLVR并不是一个监视词语并触发子过程的结构。相反，你训练一个模型，就像训练任何模型一样。当模型训练完成后，它会预测token。很多人仍然否认这一点。token预测涉及根据训练数据中的数学分布生成候选列表，并根据给定提示或序列中前文单词的概率对它们进行排名。 RLVR的干预方式是让模型通过写出解题思路来解决数学问题，再现我们大声思考如何解题时会使用的语言。当模型得出正确答案时，它最常用来得出答案的语言在最终的模型中会被强化。这（部分）就是行业所谓的*推理*。 > *我们是在哪一天看到那条奇怪的狗的？* 那么，这样想：你和朋友坐在一起。你们的手机都没电了。朋友问：*我们是在哪一天看到那条奇怪的狗的？* 你开始说：“是星期四。”朋友说：“不，不是星期四，因为星期四我出城了。”于是你说*对，所以一定是星期三*，因为星期三是你们共同朋友的生日，你们俩都去了派对，在去派对的路上看到了那条狗。朋友说：“对，不过星期三是朋友的生日，但派对是星期五。所以我们一定是在星期五看到狗的。” 你们俩通过语言得出了答案，一个可验证的答案：你可以打开手机查看照片，确认奇怪狗的照片确实是在星期五拍的。用非人化的术语来说，你的直觉（“是星期四”）就像模型可能会在第一猜测时吐出的东西，而模型过去往往停留在那里。但你没有。朋友反驳：“不是\[星期四\]，是\[星期三\]。”更多的词语缩小了可能答案的范围，然后你们通过“不是X，而是Y”的方式，得出了正确日期。你们俩有真实的记忆和切身体验可参考。语言是沟通这些体验和解决冲突的载体。相比之下，模型只是以越来越长的爆发式方式扩展语言，复制你们刚才参与的推理*模式*。这些更长的运行在语言*内部*重演那种深思，而不是*通过*语言。其他*高熵*状态被诸如“假设……”之类的词语填充，这触发更长的推测性段落。“因为”、“考虑”、“或者”，甚至“等等”都可能占据这些位置。这些词语引出的语言会带来对比、例外和抽象。如果它们在数学问题上得到正确答案，它们就会被促使更频繁地出现。 ### 我们推理的理由当我们聊起那条奇怪的狗或类似对话时，问题的重点不是要确定狗被遇到的日历日期。它是一个*回忆的开端*。提出问题是为了重建记忆，沉醉于其周围的语境，并通过共享经历加深朋友之间的联结。 > 按这种方式定义推理，意味着提问的目的是得到答案，答案是可验证的，并且在立即收束中没有任何损失。以LLM中惯用的方式定义推理，假设提问的目的是得到答案，答案是可验证的，并且在立即收束中没有任何损失。这对写作有实际影响，而怀疑的开放性正是我们在使用语言模型快速原型化思维时所失去的。歧义、怀疑和不确定性对于某些思维方式来说比任何即时答案都更重要。内心生活在那些利用我们外化思想残渣的工业复合体之间的缝隙中生长。尽管如此，我们在这些状态下使用的语言是一样的。当AI检测器标记文本为AI生成时，是因为它遵循了某种推理的结构模式吗？Pangram和推理模型都基于人类写作时推理的方式检测结构模式。Pangram的模型在2021年之前的数据上训练；然后它将AI生成的相同文本版本插入其训练数据中。因此，如果我们公开羞辱那些文本看起来可能是机器写的人——因为它模仿了人类推理使用的语言——并且人们出于害怕被误判，停止以他们内化为“AI写作”的方式写作，这就传递了一个信号：你用于推理的语言必须受到监管，否则你也会被置于公众审视之下。最终，因写作被标记为AI而羞辱他人，可能导致人们回避模型从我们这里学到的结构：这些结构是有效的论证工具。我们在最需要批判性思维工具的时候，反而把它们从工具箱里拿掉了。 ### 好度量这还有另一个角度。一个基于人工智能的论文评估工具在英国与人类评分员进行了对比测试（https://www.cam.ac.uk/stories/ai-university-essay-grading?ref=mail.cyberneticforests.com）。该系统奖励的写作结构，我不禁注意到*非常像*基于RLVR的推理：“根据论文长度、词汇范围和句子复杂度给出更高的分数，而这些往往与学术标准无关”，所有这些都是AI推理的标志。换句话说，LLM根据工程师用来评估LLM的标准来给人类打分。 > LLM根据工程师用来评估LLM的标准来给人类打分。经济学中有句老话叫古德哈特定律（https://en.wikipedia.org/wiki/Goodhart%27s_law?ref=mail.cyberneticforests.com）。经济学术语版本是：“任何观察到的统计规律性，一旦被施加控制压力，就会趋于崩溃。”或者：*当一个度量成为目标时，它就不再是一个好的度量*。可以稍作调整以适用于大型语言模型：“当衡量语言的标准成为目标时，它就不再是好语言了。” 评估语言模式而非其内容是有危险的，而生成和检测都助长了这种危险。自动化评分介于两者之间：奖励学生运用理性的形式而非理性的行为，只会使这种形式更诱人、更常见。然而，惩罚形式则可能惩罚理性。归根结底，我们必须在所有情况下批判性思考，而不是依赖机器的判断。 ### 反对自动思考我不相信那句老话“如果你没做错事，就没什么好担心的”。自2018年以来，我看到99.8%被引用于自动化监控系统的准确率。正如Arvind Narayanan所指出的，这是基于每篇论文的准确率，每次使用都会累积。从总数来看，10%的大学生（https://substack.com/@aisnakeoil/note/c-185897397?ref=mail.cyberneticforests.com）可能被*错误*指控。如果我们集体把每一点文本都通过AI模型检查是否AI生成，我们将产生更大规模的误报。这些模型集中了真正的权威；公司承诺它们会为我们推理。当我们把每一两行短语都通过AI解释器跑一遍，把结果发布到网上，然后说：“看到了吗？他们是抄袭者！”时，我们就在将某种危险的东西正常化。我们创造了一种自我审查、在AI检测器压力下改写和转述的文化，因为人们努力避免这些猎巫行动。这恰恰是*保护人类表达的反面*。我们应该抵制将信任任何机器判断罪责能力的行为正常化。如果说使用AI写作在最坏的情况下是思想的工业化，那么AI检测在最坏的情况下就变成了思想的监控系统。 --- ### 每月一次，连续第二周。感谢阅读！如上周所述，我现在只是偶尔发帖，目标是每月一次。如果你在付费订阅本通讯，并希望调整捐赠金额（或者想*开始*支持它！），非常欢迎在此设置或更改你的订阅（https://mail.cyberneticforests.com/entropy-studies/#/portal/account）。

不仅仅是X，更是Y

相似文章

吐槽：别再说什么LLM只是“下一个词预测器”了。

写作的社会契约

为了内容而内容

@panickssery: 除了识别LLM的使用外，Pangram还发现许多学者不知道假阳性和假阴性之间的区别…

技能成为新的代码检查工具

提交意见反馈