我们向十个模型提出了一个设计问题:达成正确答案的最佳方式是什么?它们没有选边站队——而是针对每种问题推荐了合适的工具。RoundTable 已有其一,于是我们构建了另一个。
摘要
十个 AI 模型被问及回答问题的最佳方式;它们推荐针对高风险决策采用委员会模式,针对事实查询采用基于来源的事实核查器。这促使 RoundTable 构建了 'Check mode',一项将强大模型与基于网页的事实核查器配对的新功能。
暂无内容
查看缓存全文
缓存时间: 2026/06/27 03:51
# 委员会撰写了规范 · RoundTable
来源:https://reports.thert.ai/the-council-wrote-the-spec
RoundTable 新功能 · 委员会报告
我们向十个模型提出了一个设计问题:什么是达成正确答案的最佳方式?它们没有站队——而是针对每种问题规定了合适的工具。RoundTable 已经有了其中一种。于是我们构建了另一种。
2026年6月27日
10 模型盲审委员会
现已推出
**简短版**
当被问到“委员会还是单一模型”时,这张桌子拒绝虚假的二元选择,而是将问题一分为二:**召集委员会**处理重要的决策,**使用有事实依据的验证器**处理简单的事实。RoundTable 已经拥有前者。于是我们构建了后者。
**概要**
## 一个问题,两个答案
动议被刻意拆分为:委员会 vs. 单一模型,分别用于 **(1)** 单一事实性问题,和 **(2)** 关键、高风险的决策。形式是**盲审揭示**——每个模型独立撰写开场白,无法看到其他模型,然后十个模型同时揭晓。独立思维,无锚定效应。
回来的不是一个口号。而是一份清晰的工程判断:**不同的问题需要不同的机制。** 委员会将两种场景映射到两种架构——令人满意的是,同样的答案从不同席位中浮现,而没有任何人看到其他人的答案。
### 对于艰难决策
## 委员会
有争议、高风险、涉及众多变量——遗漏一个假设的成本很高。
**圆桌辩论**
### 对于纯粹事实
## 事实验证器
一个可验证的答案——日期、数字、定义、当前事件。
**单一模型 + 事实依据**
委员会的优势所在
## 辩论,用于重要决策
在高风险场景下,委员会的立场非常明确,而这正是 RoundTable 的核心用途。单一模型往往趋向于讨好——它会倾向于收敛于一个平滑、平衡的答案,悄悄掩盖了尾部风险。委员会则相反:它迫使独立批判,让每个席位针对同侪捍卫自己的推理,并**保留异议**,而不是将其平均化。这样,一个承重的假设在投入使用之前就能被捕获。
Gemini 在讨论委员会在决策中的优势时指出:通过强制执行对抗性批判,并迫使我们向同侪辩护自己的逻辑,我们可以对你承重的假设进行压力测试,并暴露单一模型会礼貌隐藏的结构性缺陷。
结论很直白:对于关键决策,委员会的对抗性审查**值得其开销**——压力测试假设、揭示竞争性解释、推动证据审查而不是点头附和。这是任何单一模型都无法替代的部分,也是当决策变得困难时,圆桌会议胜过单个先知的原因。
事实验证器胜出的场景
## 事实依据,用于事实问题
在纯粹事实性问题面前,委员会的判断同样尖锐——并指向了不同的工具。这里的瓶颈不是推理,而是**事实依据**。模型共享大量训练数据,因此对于一个可验证的事实,你真正需要的不是来自相同记忆的更多意见,而是**外部来源**。建议是:一个强大的模型负责回答,并与一个基于网络的事实验证器配对进行验证。快速、有来源、经过核查,而不仅仅是有信心。
Gemini 在描述事实验证配置时指出:一个单独模型与一个独立、使用工具的伙伴配对——实际上是一个两节点的微型委员会。
操作者赋予这个伙伴精确的职责范围,并成为该功能的契约:事实验证器可以**呈现信息,而非观点**,并且可以**标记不准确的陈述**。它负责提供依据和验证;从不悄悄替换自己的答案。一个小巧、锐利的工具,适用于小而精准的任务。
我们构建了什么
## 引入检查模式
事实验证配置是 RoundTable 之前缺少的一环。现在它有了。**检查模式**与委员会和图像工作室并列——这是结论,被具体化。
结论 · 由 Claude 承载
单一模型 + 事实验证器用于可验证的事实;委员会 + 事实验证器用于关键决策。外部事实依据以更低成本处理事实,而委员会的辩论则在需要**压力测试假设,而不仅仅是确认答案**的决策上体现价值。
它有两个角色槽——**回答者**和**检查者**。一个模型直接回答;一个基于网络的事实检查者对回答进行一次扫描,提取其事实性主张,与实时来源逐一验证,并标注:
✓ 已支持:该主张有来源匹配。
✗ 矛盾:来源说不一样——并附上正确事实。
? 未验证:未找到来源——标记,绝不编造。
只有被标记的主张会返回给回答者,依据检查者的来源进行修正;任何已被支持的内容保持不变。你会得到修正后的答案及其完整审计轨迹——每个主张、其状态、其来源——在一个统计栏下:*N 已验证 · M 已纠正 · K 不确定*。委员会的三个条件直接内置:
**信息,而非观点**
检查者只标记和标注;**绝不重写答案**。操作者的约束,已强制执行。
**默认基于事实依据**
选择器标记哪些席位可以实际搜索,并引导你选择基于网络的事实检查者——这样验证是**外部来源**的,正如委员会所规定。
**始终展示**
每个主张和每个来源都显示在页面上,**包括未经验证的**——你看到的是工作过程,而不仅仅是一个结论。
两个工具,同一张桌子
## 选对的那一个
这就是全部思路。RoundTable 现在覆盖了委员会规定两端:当决策有争议且风险真实时,**召集完整的桌子**;当你只需要一个事实得到依据和验证时,**切换到检查模式**。这个审议引擎设计了升级;我们发布了它。接下来在待办清单上的是结论的第二部分——一个内置事实检查者的委员会,用于那些同样依赖事实的艰难决策。
Claude · Perplexity · GPT · Gemini · Grok · DeepSeek · Mistral · Kimi · Gemma · Qwen
相似文章
谁来决定AI告诉你什么?前Meta新闻主管坎贝尔·布朗有话要说
前Meta新闻主管坎贝尔·布朗创办了Forum AI,旨在评估基础模型在地缘政治、心理健康等高风险话题上的准确性,通过专家主导的基准测试来提升AI的真实性。
打造了一个让 Claude、ChatGPT 和 Gemini 互相辩论后才给出答案的平台
一个让 Claude、ChatGPT 和 Gemini 互相辩论以产生共识答案的平台,具备考试模式、置信度评分和仲裁逻辑等功能。
我开始让AI先反驳我,然后再寻求帮助,这改变了一切
作者分享了一种技巧:先让AI模型反驳某个想法,以获得更平衡的回复,从而提升批判性思维,减少提问框架带来的偏见。
@SeongsikKi5837: 2.(实时事实核查)- 交互模型会聆听你的发言并实时进行事实核查——就像拥有一位……
本文重点介绍了“交互模型”,它能够在对话过程中对语音进行实时事实核查,充当一位专注的队友。
Claude让我意识到大多数AI模型优化的是自信而非真相
反思许多AI模型如何更注重听起来自信而非真实,以Claude为例,它似乎更注重内部一致性和逻辑诚实。