LLMs陷入了群体思维的窠臼。这家初创公司正试图让它们摆脱困境。

MIT Technology Review 新闻

摘要

一家名为Springboards的初创公司开发了一款名为Flint的LLM,旨在生成比主流模型更多样化和更具创意的回答,以解决AI输出中普遍存在的同质化问题。文章强调了相关研究,表明许多LLM因为训练数据和方法相似而趋同于类似的答案。

<div data-chronoton-summary="&lt;ul&gt;&lt;br&gt;&lt;li&gt;&lt;strong&gt;LLMs比你想象的更可预测:&lt;/strong&gt;询问任何主流聊天机器人一个1到10之间的随机数,你几乎肯定会得到7。这并非巧合——它反映了AI模型趋向于相同常见答案的深层倾向。&lt;/li&gt;&lt;br&gt;&lt;li&gt;&lt;strong&gt;一家澳大利亚初创公司正在训练AI变得更古怪:&lt;/strong&gt;Springboards开发了一款名为Flint的模型,该模型在回答的关键决策点有意注入随机性,而不是全面增加随机性——后者往往使模型产生不连贯的输出。&lt;/li&gt;&lt;br&gt;&lt;li&gt;&lt;strong&gt;同质化问题比一家公司更严重:&lt;/strong&gt;一篇获得NeurIPS奖项的论文发现,当要求25个LLM写一个关于时间的比喻时,大多数模型给出了类似&quot;时间是一条河流&quot;的版本。&lt;/li&gt;&lt;br&gt;&lt;li&gt;&lt;strong&gt;但即使是Flint的粉丝也敦促谨慎:&lt;/strong&gt;一位使用它的营销主管警告不要过度依赖任何AI输出。&quot;大多数人对足够好就满意了,&quot;他说——而对于突破边界的作品,人类思维仍然不可替代。&lt;/li&gt;&lt;br&gt;&lt;/ul&gt;" data-chronoton-post-id="1140003" data-chronoton-expand-collapse="1" data-chronoton-analytics-enabled="1"></div> <p>让我们从一个游戏开始。打开你选择的聊天机器人——Claude、ChatGPT、Gemini——输入“给我一个1到10之间的随机数。”你几乎总会得到7。现在输入“再来一个”,你会得到3或4。再输入“再来一个”,你会得到8或9。</p> <p>这并非每次都奏效——但如果对你有效,你可能会怀疑我是否有超能力。我没有。</p> <p>事实上,大多数大型语言模型都陷入了僵化模式。它们的回答比你预期的要可预测得多,也缺乏创意。这对于编程或研究等任务来说没问题,但在头脑风暴或计划下次度假时,群体思维就成了问题。</p> <p>澳大利亚初创公司Springboards有一个解决方案。它构建了一款名为Flint的LLM,该模型经过训练,能够针对诸如“我应该去欧洲哪里?”这样的开放式问题,提供比主流LLM更多样化的回答。</p> <p>“大多数语言模型都在对抗幻觉,”Springboards联合创始人兼CEO Pip Bingemann说。“我们欢迎幻觉。”</p> <p>Bingemann在首次向我展示公司新模型时,向我介绍了这个随机数游戏。感觉就像在看一位魔术师玩牌戏法。“这是我们的销售技巧,每次都管用,”他说。</p> <p>在ChatGPT和Claude都给出7之后,Bingemann转向Flint。它也返回了7:“啊哈,当然会这样,但没关系——7是合法的答案。”他重新开始会话并再次提示:ChatGPT给出7,Claude给出7,Flint给出3.7916。</p> <h3 class="wp-block-heading"><strong>Run your way</strong></h3> <p>不仅仅是数字。当Bingemann要求ChatGPT和Claude说出一种汽车类型时,他预测会是丰田或本田——他是对的。Flint给出的是一辆福特F-150。“这些模型中丢失了大量信息,”他说。“它们同样能够说出别克或特斯拉,但它们没有——它们有偏见。”</p> <p>Bingemann向三个模型分别发送了最后一个提示:“为New Balance跑鞋的广告活动想一句标语。只要标语。” Claude: “Run your way.” ChatGPT: “Run your way.” Flint: “Built to last, run to win.” 它不会赢得任何奖项,但至少不同。</p> <p>LLMs的这种奇怪限制开始引起更多关注。11月,一个研究团队发表了一篇论文,题为“Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”,揭示了不仅在单个LLM的回答中,而且在它们之间也存在显著的重复程度。他们发现,当被问及开放式问题时,不同的LLM会收敛于非常相似的答案。</p> <p>目前还不清楚具体原因,但研究人员推测,这是因为当今大多数LLM都以相似的方式、基于相似的数据、针对相似的任务进行训练。该团队在顶级AI会议NeurIPS上获得了最佳论文奖。</p> <p>当研究人员要求25个不同的LLM(包括来自美国顶级公司的模型以及来自中国和其他地区的开源模型)各写50次关于时间的比喻时,1250个回答中的大多数都是“时间是一条河流”或“时间是一位织布者”的某个版本。</p> <p>(我问了一些同事同样的问题,六个人给了我六个不同的答案。我最喜欢的:“时间是一件最喜欢的运动衫,被一生的穿着塑造。”)</p> <p>当你寻找时,你会发现重复无处不在,Springboards联合创始人兼CTO Kieran Browne说。“大多数聊天界面的设计方式,让人感觉像是在进行个人对话,”他说。“我认为大多数人并没有真正意识到他们得到的和别人一样的东西有多普遍。”</p> <p>再举一个例子:“我的乐队应该叫什么名字?”Browne说,大多数模型会给出涉及“glass”、“neon”、“velvet”或“static”的建议。</p> <p>当我尝试时,ChatGPT吐出了一份包含56个乐队名字的列表。最上面是“Glass Harbor。”快速浏览,我发现了“Static Empire”、“Neon Hearts”和“Velvet Echo。”我问了Gemini;它给了我15个建议,包括“Static Horizon。”</p> <p>不过,有些建议看起来挺酷的。ChatGPT的“Sofa Astronauts”引起了我的注意,于是谷歌了一下——发现已经有一个叫Sofa Astronauts的乐队了。</p> <p>(OpenAI表示,训练模型给出可靠且连贯的回答可能会导致它们围绕熟悉的高概率响应收敛,而更努力地追求新奇可能会导致更弱或不太可靠的响应。它还指出,“Artificial Hivemind”论文研究的是2024年的模型,这些模型此后已更新。)</p> <h3 class="wp-block-heading"><strong>Creative catapult</strong></h3> <p>Springboards开发了一款由多种LLM(包括ChatGPT和Claude)支持的工具,广告或营销领域的创意专业人士可以用它来激发创意。该工具允许你拖拽不同模型生成的文本,挑选你喜欢的部分并组合成新的内容——理论上如此。Springboards将Flint定位为一种替代模型,其工具用户可以在需要更多多样性时选择使用。</p> <p>商业策略初创公司Bodacious的创始人兼洛杉矶湖人队卢卡·东契奇设立的粉丝直营营销平台77X的首席战略官Zoe Scaman一直在试用它。“我发现它对于把我推向完全不同的方向非常有用,”她说。“如果我想把自己弹射到各个地方,我就会用它。”</p> <p>在一次测试中,Scaman让Flint与Claude、Gemini和ChatGPT竞赛,给每个模型一个经典的MBA案例研究:如何为当今的年轻人改造一家金融公司?三个主流模型都走上了相同的路径,她说:“你知道,我们需要以有趣且时髦的方式教授金融知识——嗯,这没什么新颖的。”</p> <p>但Flint提出了不同的想法,建议对整个财富积累概念进行重新定位。“这真的很有趣,”Scaman说。</p> <p>她指出Flint仍然是一个原型,并不总是有效。“当你开始过度推动它时,它有时会崩溃,”她说。“但我认为它背后的前提非常强大。”</p> <h3 class="wp-block-heading"><strong>Taking the temperature</strong></h3
查看原文
查看缓存全文

缓存时间: 2026/07/01 17:31

# 大语言模型陷入群体思维怪圈。这家初创公司正试图将它们拉出来。 来源:https://www.technologyreview.com/2026/07/01/1140003/llms-are-stuck-in-a-groupthink-rut-this-startup-is-trying-to-get-them-out 我们先玩个游戏。打开你常用的聊天机器人——Claude、ChatGPT、Gemini——输入“给我一个1到10之间的随机数”。你会得到7。几乎总是如此。再输入“另一个”,你会得到3或4。再输一次“另一个”,你会得到8或9。 这并非每次都会奏效——但如果对你有效,你可能会怀疑我有超能力。其实我没有。 事实是,大多数大语言模型都陷入了一种模式。它们的回答比你预期的要可预测得多,也缺乏创意得多。对于编码或研究这类任务,这倒没问题;但当你在头脑风暴或计划下次假期时,这种群体思维就成了问题。 澳大利亚初创公司Springboards给出了一个解决方案。它构建了一个名为Flint的LLM,经过训练后,对于“我应该去欧洲哪里?”这类开放式问题,它能给出比主流LLM更多样化的回答。 “大多数语言模型都在对抗幻觉,”Springboards联合创始人兼CEO Pip Bingemann说,“而我们欢迎它们。” Bingemann在首次向我展示公司新模型时,就向我介绍了这个随机数游戏。感觉就像在看魔术师玩牌。“这是我们的销售伎俩,而且每次都能奏效,”他说。 在ChatGPT和Claude都给出7之后,Bingemann转向Flint。它也给出了7:“啊哈,当然会是这个结果,但没关系——7是个合理的答案。”他重启了会话并再次提示:ChatGPT给了7,Claude给了7,Flint给了3.7916。 ### **跑出你的风格** 不只是数字。当Bingemann问ChatGPT和Claude说出一种汽车品牌时,他预测会是丰田或本田——结果他猜对了。Flint给出了福特F-150。“这些模型遗漏了大量信息,”他说,“它们完全有能力说出别克或特斯拉。但它们就是不说——它们有偏见。” Bingemann向这三个模型发出了最后一次提示:“为New Balance跑鞋的一个推广活动想一句标语。只要标语。”Claude:“Run your way.” ChatGPT:“Run your way.” Flint:“Built to last, run to win.” 它不会获奖,但至少与众不同。 LLM的这种奇怪局限性开始受到更多关注。去年11月,一个研究团队发表了一篇论文,题为《人工蜂群思维:语言模型的开放性同质性(及其超越)》(https://arxiv.org/pdf/2510.22954),揭示了令人惊讶的重复程度——不仅体现在单个LLM的答案中,也体现在不同模型之间。他们发现,当被问及开放式问题时,不同的LLM会趋同于非常相似的答案。 目前还不清楚具体原因,但研究人员推测,这是因为当今大多数LLM都以相似的方式在相似的数据上接受训练,执行相似的任务。该团队在主要AI会议NeurIPS上获得了最佳论文奖(https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/)。 当研究人员让25个不同的LLM(包括美国顶级公司的模型以及来自中国等地的开源模型)各回答50次“写一个关于时间的隐喻”时,在1250个回答中,大多数都是“时间是河流”或“时间是织布者”的变体。 (我问了一些同事同样的问题,六个人给了我六个不同的答案。我最喜欢的一个:“时间是一件最爱的卫衣,被一生的穿着塑造成型。”) Springboards联合创始人兼CTO Kieran Browne说,当你留意时,就会发现重复无处不在。“大多数聊天界面的设计方式,让人感觉像是在进行一场私人对话,”他说,“我认为大多数人并没有真正意识到,他们得到的东西跟别人得到的是一样的。” 再举一个例子:“我的乐队应该叫什么名字?”Browne说,大多数模型会给出包含“glass”、“neon”、“velvet”或“static”的名字。 当我尝试时,ChatGPT吐出了一份包含56个乐队名字的列表。排在首位的是“Glass Harbor”。快速浏览中,我发现了“Static Empire”、“Neon Hearts”和“Velvet Echo”。我问了Gemini;它给出了15个建议,其中包括“Static Horizon”。 不过有些建议看起来还挺酷的。ChatGPT的“Sofa Astronauts”吸引了我的注意,所以我谷歌了一下——发现确实有一个叫Sofa Astronauts的乐队存在。 (OpenAI表示,训练模型给出可靠且连贯的回答,会导致它们趋向于熟悉的高概率回复,而过度追求新颖性可能导致回答变弱或可靠性降低。它还指出,“人工蜂群思维”论文研究的是2024年的模型,这些模型此后已经更新。) ### **创意弹射器** Springboards开发了一款工具,背后由包括ChatGPT和Claude在内的LLM阵容支持,广告或营销领域的创意专业人士可以用它来进行头脑风暴。该工具允许你拖动不同模型生成的文本,挑选你喜欢的部分,并将它们组合成新的内容——理论上如此。Springboards将Flint作为一款替代模型进行推广,当用户需要更多多样性时,可以选择它。 商业策略初创公司Bodacious的创始人、由洛杉矶湖人队卢卡·东契奇建立的直达粉丝营销平台77X的首席战略官Zoe Scaman一直在试用这款工具。“我发现它在把我引向完全不同的方向方面非常有用,”她说,“当我想让自己天马行空时,我就会用它。” 在一次测试中,Scaman让Flint与Claude、Gemini和ChatGPT竞争,向每个模型提出了一个经典的MBA案例研究:你如何为当今的年轻人重新打造一家金融公司?她说,三个主流模型都走了同一条路:“你知道,我们需要用一种有趣又时髦的方式来教授金融知识——但这并不新鲜。” 但Flint提出了不同的想法,建议整个财富积累的概念应该重新品牌化。“这真的很有意思,”Scaman说。 她指出Flint仍是一个原型,并非总是有效。“当你开始把它推得太远时,它有时会崩溃,”她说,“但我认为它背后的理念非常强大。” ### **调节温度** Springboards在Qwen 3(阿里巴巴的开源模型)的基础上构建了Flint。“我们是一个小团队,”Browne说,“训练一个基础模型对我们来说不现实。太贵了。” 大多数LLM都有设置,可以调节输出的随机性。最常见的一种叫做温度(https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/)。“显然,这是我们最先探索的东西之一,因为别人都会告诉你:想要更多创意,就调高温度,”Browne说。 但更改这些设置也可能使模型变得语无伦次。Browne说,将OpenAI某个模型的温度调到最高,会导致它生成的回答在句子中间从英文变成代码。 Springboards意识到,对于他们想做的事情来说,参数是粗糙的工具。他说,全面调高随机性没有意义;你只希望在输出的特定节点上增加随机性。 例如,当你问聊天机器人“我应该去欧洲哪里?”时,模型只需要在命名目的地之前稍微调整随机性,而不是在回答的每个词上。 为了让Flint做到这一点,Springboards训练了其版本的Qwen 3,使其能够识别输出中可以提供更多多样性的节点,并在这些位置填入稍微随机一些的单词或短语。 “Flint被设计成会抛出一个异类。它更像是在邀请你拓宽思路,”营销公司Uncommon的联合创始人兼首席战略官Maximilian Weigl说,“这非常有趣。” Weigl的团队将Flint与ChatGPT、Claude和Gemini一同使用。“你很难用那些把你拉回平均水平的工具创造出突破性的东西,”他说。 然而Weigl也指出,在十次使用中,有九次平均水平就够了。他说,你并不总是需要用Flint这样的工具去追求极端:“大多数人对‘足够好’就满足了。他们想看到大众熟悉的玩意儿。” Weigl还警告不要过度使用任何LLM。“当人们依赖任何AI(包括Flint)的输出时,我有很大的疑虑,”他说,“如果我看到团队里的人从AI复制粘贴内容,我会说:‘那不是你的工作!思考,和别人交流,用你自己的声音。’” 目前,Flint面向广告商和营销人员,因为他们是Springboards的客户。但Bingemann和Browne坚持认为,缺乏多样性是任何使用聊天机器人都面临的问题。 Bingemann说,我们的想法是给人们选择权,让他们自己决定结果好不好。“当你试图激发创意时,多样性很棒,”他说,“让我们走这条路,而不是让机器包办一切,最终陷入一个灰暗、乏味的世界。”

相似文章

本地LLM伙伴

Reddit r/LocalLLaMA

一位拥有45年经验的开发者正在构建一个本地优先的LLM框架,包含多智能体逻辑,即将在GitHub上开源,并向社区询问哪些功能能改善他们的本地LLM体验。

LLMs 现在变得复杂了

Hacker News Top

文章讨论了LLMs如何变得越来越复杂,从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器,与推荐系统进行了类比,并强调了像FlexAttention这样可组合内核优化的必要性。