Reddit用户是否应该关注他们的帖子如何被用于训练AI?

Reddit r/artificial 新闻

摘要

本文认为,随着网络充斥着合成内容,Reddit上混乱但真实的人类对话对于训练AI正变得越来越有价值,凸显了经济向稀缺人类行为数据的转变。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/07/03 13:29

# 人类数据是新的黄金 来源:https://www.quantumrx.eu/human-data-is-the-new-gold/ 标签:agents (https://www.quantumrx.eu/tag/agents/)为何随着互联网被机器填满,Reddit、论坛、评论和杂乱的人类对话变得更加珍贵。 人类数据是新的黄金 图片由Albert Hyseni (https://unsplash.com/@alberthyseni?utm_source=ghost&utm_medium=referral&utm_campaign=api-credit) 提供 *为何随着互联网被机器填满,Reddit、论坛、评论和杂乱的人类对话变得更加珍贵。* --- Reddit的价值并非因为其整洁有序,恰恰相反,在于它的杂乱无章。 它充满了争论、玩笑、糟糕的建议、小众领域的专业知识、情绪化的过度分享、产品投诉、情感闹剧、技术调试、讽刺挖苦、群体认同、匿名忏悔以及高度具体的人类挫败感。这些品质的组合,足以让绝大多数内容在任何编辑标准面前被淘汰,但正是这些品质,使得Reddit对于那些构建下一代人工智能系统的公司来说无可替代。 互联网正在经历一场奇特的逆转。二十年来,最有价值的数字资产是规模、注意力和行为定向。平台希望用户点击、滚动、点赞、分享和购买。价值来自于大规模观察人类行为并出售对这些行为的访问权。如今,底层经济逻辑再次发生转变,这一转变方向的影响远远超出了任何一个单一平台或授权协议。 随着合成内容充斥网络,真正的人类行为变得越来越难以寻觅,获取成本也越来越高。机器可以以几乎为零的边际成本无休止地生成内容——帖子、评论、摘要、产品描述、评论、整篇文章。机器无法生成的是人类对话随时间推移所产生的真实社会纹理:分歧、纠正、变通方法、挫败感、那些揭示人们在不面向特定观众写作时真实想法的玩笑。在一个日益被合成输出占据的网络中,人类信号变成了稀缺资源。 这就是Reddit重要的原因。不是因为每条评论都充满智慧,也不是因为每个讨论串都能得出可靠的结论,而是因为Reddit包含了一些正变得真正难以大规模获取的东西:大规模、杂乱、充满情感纹理的人类对话,这些对话并非为机器阅读而生产。 --- ### 合成网络改变人类行为的价值 旧互联网运作的前提是,大多数可见内容由人产生。搜索引擎、广告模式、内容审核都建立在这个假设之上。整个发现和推荐基础设施都基于一个前提:出现在网上的内容,除了少数例外,都是人类意图的产物。 这个假设正在瓦解。人工智能现在能够以极低的边际成本生成帖子、评论、评论、图片、邮件、摘要、产品描述、约会资料、客服回复、社交动态和整篇文章。其结果不仅仅是网络上内容更多——而是内容作为人类存在信号的可信度发生了根本性转变。当一个评论出现在产品页面上时,现在有相当大的概率是没有人写过它。当一篇文章下面出现一条评论时,同样的不确定性也存在。当一个社交帖子爆红时,它是否源于真人,或者是否被设计成看起来像是真人发帖,这个问题已经变得真正难以回答。 网络上出现的人工智能生成内容越多,经过验证的人类行为就越有价值。不是因为人类总是正确的,或者他们的判断总是可靠的,而是因为人类揭示了机器偏好、恐惧、需求、矛盾和社会语境,而合成文本只能近似地模仿这些。人工智能给出干净的答案。人类则产出答案周围的混乱——犹豫、限定条件、与先前糟糕经历的对比、附着在一个从外部看纯粹理性的决策上的情感重量。越来越重要的是,这种混乱正是最有用的信号所在。 --- ### 为何Reddit成为人工智能金矿 Reddit对人工智能公司有着独特的吸引力,不是因为它是内容平台,而是因为它充当着行为档案库。搜索引擎给你文档。评论网站给你评分。社交信息流给你表演——人们向已知的观众展示经过精心策划的自我形象。Reddit给你的则不同:人们在半匿名空间中,在不确定性中争论,在这里,犯错的社会成本更低,表演的动机也减弱了。 这很重要,因为大多数人类决策并非基于干净的事实。它们是通过社会比较、怀疑、尴尬、信任、幽默、怨恨、身份认同和生活经验做出的。当有人在上Reddit买笔记本电脑之前,他们不仅仅是询问规格。他们在问的是,考虑到他们经常旅行、讨厌嘈杂的风扇、使用Linux、偶尔玩点轻量级游戏、而且已经被两个糟糕的铰链坑过,哪台笔记本电脑值得买。这个问题包含的不仅仅是产品意图。它包含了限制条件、语境、先前的失望,以及任何产品页面都无意捕捉的真实人类权重权衡。 对于试图理解人类如何实际做出决策的人工智能系统来说,Reddit讨论串在结构上比几乎任何其他来源都更丰富。它们展示了人们在知道正确词汇之前是如何解释问题的。它们展示了社区如何发展共享的专业知识并将其转化为实用的建议。它们展示了哪些细节对真实的人重要,而不是制造商想强调哪些细节。它们展示了社会认同在实践中的样子——哪些推荐受到挑战,哪些获得认可,哪些被悄悄忽略。产品页面告诉机器卖家想说什么。Reddit告诉机实际人们在为自己做购买决定时会担心什么。 --- ### 信息与人类信号之间的区别 信息是答案。人类信号是答案对于一个特定语境下的特定个人为何重要的原因。 技术手册可以解释如何修复一个错误代码。而一个Reddit讨论串可以展示有多少人遇到了同样的错误,哪种解决方案实际有效,哪种听起来合理但实际上导致了后续问题,哪个工具版本导致了该问题,用户在找到解决方案前有多沮丧,以及该解决方案是真正的解决办法,还是一个会在六个月后引入另一个问题的临时变通方法。手册包含了权威的答案。讨论串包含了试图应用它的生活经验。 大型语言模型不仅需要事实才能有用。它们还需要人类如何构建问题、协商意义、在不确定性下做出决策以及表达其知识边界的例子。Reddit作为训练数据的价值不在于它可靠——它在某些地方明显不可靠——而是因为它包含了运动中的人类推理。人们提出措辞不当的问题。其他人纠正他们。有人添加了完全改变解释的语境。有人误解了,而误解本身揭示了对该问题的常见看法。有人从一个没有文档预料到的边缘案例中提供了一个变通方法。有人开了个玩笑,其中包含的实用智慧比上面三段还要多。 那不是干净的数据。对于需要在人类不完美沟通世界中运作的人工智能系统来说,这是目前可用的一些最有用的数据。它教会机器人类在不为机器写作时是如何真正说话的。 --- ### 死网理论言之过早,但并非全错 死网理论主要作为一种阴谋论流传:互联网的很大一部分不再由真实的人创建,而是由机器人、自动化系统和旨在制造人类活动假象的合成参与所创建。完全按字面意思理解,它言过其实了。网络并非已死。人类的创造力、社区和沟通仍然真实地存在于其中。 作为对一种发展趋势的文化诊断,它已经变得相当相关。互联网的某些部分正在变得越来越不人性化——不是通过蓄意的、协调一致的替代,而是通过合成内容生产的增量经济学。当人工智能可以在两秒钟内生成一条与真实客户体验无法区分的产品评论时,花钱请人写真实评论的动机就会减弱。当人工智能可以在一夜之间生成一百篇SEO文章时,为低流量话题委托人类进行深思熟虑的写作变得在经济学上更难合理化。当自动化账户能以远低于真实社区管理的成本进行规模化互动时,用前者替代后者的诱惑就会增长。 实际的结果不是一个已死的互联网,而是一个越来越不确定的互联网。用户接触到足够多的合成内容——虚假评论、人工智能生成的文章、机器人驱动的参与——以至于关于另一端是否是真人的根本问题变得更难自信地回答。这种不确定性改变了一切的价值。那些能够证明人类来源、社区信任、声誉连续性和真实社交互动的平台变得更有价值,恰恰是因为它们难以大规模伪造。 Reddit正处在这紧张局势之中。它的价值源于其人性。它的最大威胁是被那些想要向它学习的机器逐渐殖民。 --- ### Reddit的核心资产不是内容。而是人类语境。 将Reddit描述为一个内容平台低估了它实际代表的东西。Reddit是一个语境引擎——一个捕捉人们如何在学会正确的词汇之前描述他们的问题、社区如何将专家的专业知识转化为可访问的实用建议、以及匿名个体在职业身份和社会表现的常规约束部分移除时如何行为的系统。 这种语境的丰富性之所以重要,是因为人工智能能力的前沿越来越依赖于它。一个模型可以总结关于某种疾病的临床研究,但患者仍然在搜索对症状日常感受的描述,以及哪些治疗方法产生了研究略过的副作用。一个模型可以比较车辆规格,但驾驶者仍然想知道后备箱是否放得下婴儿车,信息娱乐系统三个月后是否变得烦人,以及官方续航里程在寒冷天气下是否会崩溃。一个模型可以解释一个编程错误,但开发者仍然想知道哪个晦涩的依赖项在凌晨两点崩溃了,这是一个已知问题还是一个孤立的边缘案例,以及当生产环境宕机时最快的修复方法是什么。 这种人类纹理很难制造。合成内容可以近似这些对话的形式,但近似会反馈到训练循环中,并逐渐使输出偏离其试图代表的现实生活经验。未来十年的前沿模型不仅需要更多数量的数据。它们需要扎根于新鲜人类经验的数据,而不是越来越遥远的回响。 --- ### 为何人工智能越进步,人类数据越有价值 认为更好的人工智能会使人类数据变得不那么必要的直觉实际上被颠倒了。人工智能在生成可信内容方面越擅长,真正的人类反馈作为基础和校准层就越有价值。人类行为告诉系统人们实际偏好、信任、拒绝、嘲笑、购买、机器恐惧、误解和返回什么——而不是他们在调查中说他们偏好什么,或者对他们行为的合成近似预测他们会偏好什么。 用户生成平台包含了大规模的揭示偏好。人们在受控环境中说他们想要什么是一种信号。他们在午夜后匿名抱怨什么,他们在多年间点赞、挑战、争论、保存和分享什么,是一种性质不同且相当丰富的信号。人类数据带有超越表面文本的行为结构:偏好、分歧、挫败感、信任、社会认同、领域专业知识、文化漂移、情感权重、现实世界的边缘案例、语言随时间的变化,以及社区关于什么算作好答案与技术上正确但实际无用的答案的判断。 人工智能数据竞赛的下一阶段不会仅仅通过获取更多token来解决。那些能够提供高质量、新鲜、基于同意的人类信号的平台和机构,将拥有一种结构性的优势,这种优势与被训练的模型能力成正比,而非反比。 --- ### 围绕人类来源数据的未来之争 人类数据变得越有价值,其所有权之争就越激烈。平台将寻求授权许可。人工智能公司将寻求在其上进行训练。用户将寻求对其贡献使用方式的某种控制。监管机构会问,当用户在2014年加入一个平台时获得的同意,在其评论被用于训练当时不存在且未预料到的系统这一背景下,是否仍然有意义。 社区将越来越多地质疑他们的对话是否正在被提取、货币化,并通过那些从未经承认或补偿的情况下向他们学习的机器反馈给他们。这种担忧并非抽象概念。Reddit已经与主要人工智能公司签署了授权协议,同时挑战其他被指控未经许可抓取用户内容的公司。这两种立场之间的紧张关系反映了更广泛的结构性模糊:人类对话已成为有价值的基础设施,但谁拥有这种基础设施——平台、用户、社区、对其进行转换的人工智能公司,还是最终用它来回答他人问题的智能体——的问题尚未有定论。 社交媒体时代曾在广告和数据经纪方面提出过这类问题的版本,但从未完全解决。人工智能使这个问题变得更加紧迫,因为提取更直接,价值创造更可见,用户贡献与他们获得回报之间的差距更难掩盖。 --- ### 真实性溢价 随着合成内容变得丰富,经过验证的人类存在获得了一种超越任何单个内容价值的溢价。这并不意味着用户必须透露其法律身份——匿名性是使Reddit这类平台有价值的部分原因,它允许人们以在职业名称下不会使用的语气说话。挑战比单纯的身份验证更微妙。 平台将需要区分人类与机器人、真实社区行为与协调操纵、真实参与与欺骗性合成参与的机制。人工智能不需要与人类难以区分就能破坏信任。它只需要制造足够的不确定性,让用户开始怀疑他们正在进行的对话是否真实。一个社区可以承受来自真实人类的争论、错误和恶意。但它很难承受关于其参与者是否存在的系统性不确定性。 人类验证、内容来源、声誉系统和社区审核将因此变得更加重要——不是因为开放网络应该变成

相似文章

研究显示,利用Reddit操纵AI搜索轻而易举

Reddit r/ArtificialInteligence

康奈尔大学的新研究表明,来自Reddit或Wikipedia等网站上仅13个字的用户生成文本片段,就能用来操纵ChatGPT和Google AI Search等AI搜索工具,凸显了AI信息检索中日益严重的漏洞。

公司利用Reddit操纵ChatGPT和Google AI搜索

Reddit r/ArtificialInteligence

公司利用Reddit垃圾信息操纵ChatGPT和Google的AI搜索结果,导致r/Biohackers子版块因AEO(AI引擎优化)策略导致内容质量下降,而禁止肽类和HRT帖子。