LLM团队能玩‘What? Where? When?’吗?
摘要
本文研究了在问答游戏‘What? Where? When?’(ChGK)中,基于团队协作的交互是否能提升LLM的表现。通过在2025年发布的572道问题的数据集上使用六个最新的开源LLM,他们展示了团队策略(投票、沉默队长、健谈队长)比单个模型高出最多20个百分点,最佳团队达到了44.23%的准确率,接近人类水平。
arXiv:2605.30459v1 公告类型:新提交
摘要:大型语言模型(LLM)在需要间接推理、文化知识和协调假设检验的任务上仍然有限。我们研究了在问答游戏‘What? Where? When?’(ChGK)中,基于团队协作的交互是否能提升LLM的表现,该游戏旨在奖励集体推理。我们引入了三种团队策略:Voting, Silent Team(队长观察最终答案)和Talkative Team(队长观察答案和理由)。为了最小化数据泄露,我们在2025年发布的572个ChGK问题的数据集上评估了这些策略。使用六个最新的开源大型模型,我们展示了基于团队的策略优于单模型基线,在准确率上提升了最多20个百分点。最佳团队达到了44.23%的准确率,在有可用人类统计数据的问题上接近人类团队表现。对模型间多样性的分析表明,分歧强烈预示着较低的准确率,但解释性沟通大大缓解了性能下降。我们进一步考察了队长的行为,没有发现自我偏好偏差的证据;获取同伴的理由提高了队长的判断。总体而言,LLM团队主要作为答案选择和错误过滤机制运行,而不是新颖解决方案的生成器。我们的发现强调了交互的重要性,并表明自适应策略是多智能体系统的一个有前途的方向。
查看缓存全文
缓存时间: 2026/06/01 09:23
# LLM团队能玩“什么?哪里?何时?”吗?
来源:https://arxiv.org/html/2605.30459
Anastasia Kotelnikova 维亚特卡国立大学 俄罗斯基洛夫 kotelnikova\.av@gmail\.com &Viktor Byzov 维亚特卡国立大学 俄罗斯基洛夫 vbyzov@yandex\.ru Maria Dolzhenkova 维亚特卡国立大学 俄罗斯基洛夫 maryd@vyatsu\.ru &Evgeny Kotelnikov 圣彼得堡欧洲大学 俄罗斯圣彼得堡 kotelnikov\.ev@gmail\.com
###### 摘要
大型语言模型(LLM)在需要间接推理、文化知识和协调假设检验的任务上仍然存在局限。我们研究基于团队的交互是否能提升LLM在“什么?哪里?何时?”(ChGK)——一种旨在奖励集体推理的问答游戏上的表现。我们引入了三种团队策略:投票、沉默团队(队长只观察最终答案)和健谈团队(队长同时观察答案和推理过程)。为最小化数据泄露,我们在一个包含572个2025年发布的ChGK问题的数据集上评估这些策略。
使用六种近期大规模开源模型,我们表明基于团队的策略优于单一模型基线,准确率提升高达20个百分点。最佳团队达到44.23%的准确率,并在有人类统计数据的题目上接近人类团队的表现。模型间多样性分析显示,分歧强烈预示着较低准确率,但解释性沟通能显著缓解性能下降。我们进一步考察队长行为,未发现自我偏好偏见的证据;获得同伴推理过程改善了队长的判断。
总体而言,LLM团队主要作为答案选择和错误过滤机制运作,而非新颖解决方案的生成器。我们的研究结果强调了交互的重要性,并表明自适应策略是多智能体系统的一个有前景的方向。
关键词:大型语言模型,问答游戏,多智能体系统,集体智能,LLM作为评判者
DOI:
###### Аннотация
Большие языковые модели (LLM) по-прежнему испытывают ограничения при решении задач, требующих неявных рассуждений, культурных знаний и координированной проверки гипотез. В работе исследуется, улучшает ли моделирование командного взаимодействия результаты LLM в игре «Что? Где? Когда?». Мы рассматриваем три стратегии организации LLM в команду: «голосование», «молчаливая команда» (капитан видит только ответы членов команды) и «разговорчивая команда» (капитан видит и ответы, и рассуждения). Чтобы минимизировать утечки данных, мы оцениваем эти стратегии на датасете, состоящем из 572 вопросов, выложенных в 2025 году.
Используя шесть современных открытых LLM, мы показываем, что командные стратегии превосходят одиночные модели, обеспечивая прирост точности до 20 процентных пунктов. Наиболее успешная команда достигает точности 44,23% и приближается к результатам человеческих команд на вопросах, для которых доступны статистические данные ответов людей. Анализ разнообразия ответов показывает, что рост расхождений между моделями связан со снижением точности, однако обмен рассуждениями смягчает падение качества. Также мы исследуем поведение капитана и не обнаруживаем эффекта предпочтения собственного ответа; доступ к рассуждениям членов команды повышает качество решений капитана.
В целом, команды LLM выступают прежде всего как механизм отбора ответов и фильтрации ошибок, а не источник принципиально новых решений. Наши результаты подтверждают значимость взаимодействия между моделями и перспективность адаптивных стратегий для многоагентных систем.
Ключевые слова:Большие языковые модели, викторины, многоагентные системы, коллективный интеллект, LLM в роли судьи
Могут ли команды больших языковых моделей играть в "Что? Где Когда?"
## 1 引言
即使是强大的语言模型在间接文化、隐喻或多步推理方面也表现困难。一个潜在的解决方案是基于团队的推理:多个模型独立回答,然后一个指定的队长模型汇总它们的响应以做出最终决定。
考虑以下来自问答竞赛的问题:
\{examples\}
"阿德里亚诺·切伦塔诺的一首歌由模仿英语发音的无意义单词组成。在一次采访中,他表示这首歌反映了社会分裂,并提到了一个城市。是哪个城市?"
在六模型团队模拟中,四个模型提出了纽约,一个建议了米兰,只有一个给出了正确答案:巴比伦。在审查所有响应后,队长修正了其最初的预测并选择了巴比伦,认识到这是对“巴别塔语言混乱”的引用。这个例子说明了当正确整合时,少数派见解如何能变得有决定性。
我们在“什么?哪里?何时?”(俄语:Chto? Gde? Kogda?; ChGK)的背景下评估集体推理,这是一款俄罗斯团队智力游戏,特点是谜语式问题,需要间接推理、语言敏感性和文化知识。111https://en.wikipedia.org/wiki/What%3F_Where%3F_When%3F与注重事实检索或局部推理的标准QA基准[11]不同,ChGK问题专为协作解决问题而设计,鼓励假设比较和纠正误导性解释[4]。这使得ChGK成为集体智能的自然基准。
单一LLM在复杂推理任务中表现出有据可查的局限性,包括幻觉[1]、过度自信[5]、狭窄的推理轨迹[18]以及有限的自我批评[14]。虽然链式思维提示[19]、自我反思[20]和迭代优化[16]等方法改善了内部推理,但它们仍然受限于单一模型的偏见。
因此,近期工作已转向集成[2]和多智能体方法[12],其中多个模型交换信息并聚合预测。这一范式自然契合ChGK式任务,这类任务奖励观点多样性,并惩罚过早收敛到看似合理但错误的答案。人类ChGK团队提供了一个有用的类比:他们分配认知角色,比较竞争假设,有时依赖得到关键证据支持的少数派见解。
我们研究团队交互的显式建模是否能提升LLM在ChGK问题上的表现。我们比较了三种团队策略:投票(多数聚合)、沉默团队(队长只观察最终答案)和健谈团队(队长观察答案和中间推理过程)。这些配置拆解了多样性、解释和协调在集体决策中的作用。
我们的贡献如下:
- •我们引入了三种基于团队的交互范式,捕捉不同级别的信息共享。
- •我们构建了一个包含572个2025年ChGK问题的新评估数据集,旨在最小化数据泄露。
- •使用六种近期大规模开源模型,我们表明基于团队的策略持续优于单一模型基线,准确率提升高达20个百分点。
- •我们分析了分歧和沟通效果,表明在高度不确定性下,解释性共享尤其有益。
- •我们考察了队长决策行为,并证明访问同伴推理过程可改善信心校准和可靠性。
## 2 相关工作
### 2.1 基于LLM问答的集成与多智能体方法
近期工作表明,通过集成或结构化多智能体交互来组合多个LLM,可以显著提升问答表现。
Bujnowski等人[2]提出了一种异构LLM集成,具有置信度感知投票和仲裁,在表格QA上取得了强劲结果。在医学领域,Yang等人[17]证明了问题自适应加权互补模型优于统一聚合。Lu等人[8]表明,多样性感知集成持续优于单一模型,尤其是在复杂推理任务上,而即使简单的多数投票在多模态设置中也可能有效[10]。
除了静态聚合,交互式多智能体框架也已被引入。Pitre等人[12]提出了一种基于辩论的系统,其中智能体迭代交换答案、解释和置信度估计,导致相对于单智能体和标准集成的持续改进。
总体而言,先前工作强调了多样性、自适应聚合和结构化交互对于提高基于LLM的问答系统可靠性和准确性的重要性。
### 2.2 数据集
大型问答式数据集常被用于评估QA系统和LLM。广泛采用的资源包括Jeopardy!线索数据集222https://github.com/jwolle1/jeopardy_clue_dataset、TriviaQA[6]、SearchQA[3]和QANTA[13],它们以问答形式测试知识检索、基于证据的推理和逐步推理。
对于俄语问答游戏,最大的公共资源是俄罗斯Jeopardy![9],源自db.chgk.info。经过策划的CheGeKa子集被包含在用于少样本俄语理解的TAPE基准中[15]。最近,[7]发布了一个包含2600个来自IQ Game平台(2018–2025)的ChGK问题的数据集,用于评估开源LLM。
大型问答档案的一个关键挑战是数据泄露,因为许多问题已经公开多年,可能出现在预训练语料中,尤其影响闭卷评估。为了缓解这一问题,我们构建了一个新的数据集,专门包含2025年从IQ Game平台333https://iqga.me/收集的问题。将评估限制在最近的、之前未使用的材料上,能提供更可靠的真正泛化估计,并降低模型性能由记忆广泛流传的问答内容驱动的风险。
## 3 方法
本节描述我们研究中使用的实验框架。我们首先描述团队策略——这是我们方法的主要组成部分,然后介绍实验中使用的数据集、模型和评估协议。
### 3.1 团队策略
我们比较了组合六个LLM输出的三种策略,其中一个作为队长。
#### 投票。
在投票策略中,所有六个模型独立回答问题(见附录A.1)。由于含义相同的答案可能措辞不同,我们使用Gemini-2.5-flash来标准化和分组语义等价的响应(附录A.2)。
分组后,选择获得最多模型支持的答案。在平局的情况下,队长仅作为破局者:如果队长最初的答案在平局选项中,则选择它;否则,随机选择一个平局答案。因此,投票表现可能因指定为队长的模型不同而有所差异。
#### 沉默团队。
在此设置中,队长接收到六个答案变体,必须决定最终答案(附录A.3)。队长不知道哪个答案是它自己的。队长可以选择其中一个提议的答案,如果没有看起来正确的,也可以生成一个新答案。
#### 健谈团队。
健谈团队在沉默团队的基础上,为队长额外提供每个模型产生的简短推理过程。因此,队长既看到提议的答案,也看到如何获得这些答案的简要解释。除了这一额外信息,程序与沉默团队策略相同(附录A.4)。
### 3.2 数据集
我们的数据集包含572个2025年从IQ Game平台收集的ChGK问题。所有实验均以俄语进行(问题的原始语言)。论文中展示的英文翻译仅供可读性。所有问题均为纯文本,不包含图像或其他多媒体内容。
每个问题配有一个标准答案、一组可接受的替代答案以及一个解释性评论,概述预期的推理过程。当数据可用时,我们还包含人类答案统计,显示人类团队正确回答该问题的频率。由于133个问题缺少此信息,涉及人类统计的分析在剩余的439个问题上进行。
图1展示了一个示例问题。
参见图1的说明图1:来自原始俄语数据集的一个示例问答问题的英文翻译。
### 3.3 模型
我们的团队由六个近期开源LLM组成,通过公共API访问。所有模型均为2025年发布的大规模混合专家系统。
#### Qwen系列。
- •Qwen3-235B-A22B(2025年4月):235B总参数(22B激活),通用指令与推理模型。
- •Qwen3-235B-A22B-Thinking-2507(2025年7月):相同架构的推理导向变体。
#### DeepSeek系列。
- •DeepSeek-V3.2(2025年12月):671B总参数(37B激活),通用模型。
- •DeepSeek-R1-0528(2025年5月):685B总参数(37B激活),针对推理优化。
#### Kimi系列。
- •Kimi-K2-Instruct-0905(2025年9月):1T总参数(32B激活),针对长上下文指令遵循优化。
- •Kimi-K2-Thinking(2025年11月):相同架构的推理导向变体。
所有模型均以其公开可用的推理配置使用,未进行额外微调。我们应用默认解码设置,温度固定为零以确保确定性输出。
这一异构选择使我们能够形成一个多样化的团队,结合指令遵循、长上下文处理和推理方面的优势。
对于每个问题,模型最多可生成五次尝试。这些重试仅用于处理偶尔的格式错误或生成失败。如果五次尝试后未产生有效答案,该问题被视为未回答并记为错误。
### 3.4 评估协议
我们在两个阶段评估答案:(1) 自动字符串匹配,以及 (2) 对未解决案例进行基于LLM的验证。
#### 第一阶段:自动匹配。
所有答案首先经过预处理:我们将文本转换为小写,去除变音符号,并在数据集指南指定时应用词形还原。如果问题允许自由词序,则在比较前对标记重新排序。
处理后的答案然后与标准答案和一组可接受的替代答案进行比较。如果找到匹配,答案被标记为正确,无需进一步检查。相似文章
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
创建了一个LLM测验程序,用于检查AI性能是否随时间变化
一位开发者创建了LLM Canary,这是一个开源测验程序,向多个LLM发送随机任务以跟踪其性能随时间的变化。经过一周每小时对七个模型的测试,结果显示所有模型在一天中都有波动,没有一致的模式,也未发现明显的性能下降证据。
探究LLM风险决策中的结果层面相似性与机制层面一致性:来自圣彼得堡博弈的证据
研究人员在圣彼得堡博弈中评估了28个LLM,以区分风险决策中的结果层面相似性与机制层面一致性,发现LLM通常产生类似人类的出价,但缺乏潜在的人类一致推理机制。该研究表明,行为对齐可能是表面的,敦促高风险评估应超越结果相似性。
@rohanpaul_ai: https://x.com/rohanpaul_ai/status/2061959891036885027
斯坦福法学院的一项研究发现,在对合同法课程简答题辅导的盲评中,法学院教授对大型语言模型生成的答案评分高于同伴答案,LLM在75.33%的比较中胜出,且较少被标记为有害。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。