我们向十个模型提出了一个设计问题：达成正确答案的最佳方式是什么？它们没有选边站队——而是针对每种问题推荐了合适的工具。RoundTable 已有其一，于是我们构建了另一个。

Reddit r/artificial 2026/06/26 23:54 产品

ai-models fact-checking round-table product-launch decision-making grounding council

摘要

十个 AI 模型被问及回答问题的最佳方式；它们推荐针对高风险决策采用委员会模式，针对事实查询采用基于来源的事实核查器。这促使 RoundTable 构建了 'Check mode'，一项将强大模型与基于网页的事实核查器配对的新功能。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/27 03:51

# 委员会撰写了规范 · RoundTable 来源：https://reports.thert.ai/the-council-wrote-the-spec RoundTable 新功能 · 委员会报告我们向十个模型提出了一个设计问题：什么是达成正确答案的最佳方式？它们没有站队——而是针对每种问题规定了合适的工具。RoundTable 已经有了其中一种。于是我们构建了另一种。 2026年6月27日 10 模型盲审委员会现已推出 **简短版** 当被问到“委员会还是单一模型”时，这张桌子拒绝虚假的二元选择，而是将问题一分为二：**召集委员会**处理重要的决策，**使用有事实依据的验证器**处理简单的事实。RoundTable 已经拥有前者。于是我们构建了后者。 **概要** ## 一个问题，两个答案动议被刻意拆分为：委员会 vs. 单一模型，分别用于 **(1)** 单一事实性问题，和 **(2)** 关键、高风险的决策。形式是**盲审揭示**——每个模型独立撰写开场白，无法看到其他模型，然后十个模型同时揭晓。独立思维，无锚定效应。回来的不是一个口号。而是一份清晰的工程判断：**不同的问题需要不同的机制。** 委员会将两种场景映射到两种架构——令人满意的是，同样的答案从不同席位中浮现，而没有任何人看到其他人的答案。 ### 对于艰难决策 ## 委员会有争议、高风险、涉及众多变量——遗漏一个假设的成本很高。 **圆桌辩论** ### 对于纯粹事实 ## 事实验证器一个可验证的答案——日期、数字、定义、当前事件。 **单一模型 + 事实依据** 委员会的优势所在 ## 辩论，用于重要决策在高风险场景下，委员会的立场非常明确，而这正是 RoundTable 的核心用途。单一模型往往趋向于讨好——它会倾向于收敛于一个平滑、平衡的答案，悄悄掩盖了尾部风险。委员会则相反：它迫使独立批判，让每个席位针对同侪捍卫自己的推理，并**保留异议**，而不是将其平均化。这样，一个承重的假设在投入使用之前就能被捕获。 Gemini 在讨论委员会在决策中的优势时指出：通过强制执行对抗性批判，并迫使我们向同侪辩护自己的逻辑，我们可以对你承重的假设进行压力测试，并暴露单一模型会礼貌隐藏的结构性缺陷。结论很直白：对于关键决策，委员会的对抗性审查**值得其开销**——压力测试假设、揭示竞争性解释、推动证据审查而不是点头附和。这是任何单一模型都无法替代的部分，也是当决策变得困难时，圆桌会议胜过单个先知的原因。事实验证器胜出的场景 ## 事实依据，用于事实问题在纯粹事实性问题面前，委员会的判断同样尖锐——并指向了不同的工具。这里的瓶颈不是推理，而是**事实依据**。模型共享大量训练数据，因此对于一个可验证的事实，你真正需要的不是来自相同记忆的更多意见，而是**外部来源**。建议是：一个强大的模型负责回答，并与一个基于网络的事实验证器配对进行验证。快速、有来源、经过核查，而不仅仅是有信心。 Gemini 在描述事实验证配置时指出：一个单独模型与一个独立、使用工具的伙伴配对——实际上是一个两节点的微型委员会。操作者赋予这个伙伴精确的职责范围，并成为该功能的契约：事实验证器可以**呈现信息，而非观点**，并且可以**标记不准确的陈述**。它负责提供依据和验证；从不悄悄替换自己的答案。一个小巧、锐利的工具，适用于小而精准的任务。我们构建了什么 ## 引入检查模式事实验证配置是 RoundTable 之前缺少的一环。现在它有了。**检查模式**与委员会和图像工作室并列——这是结论，被具体化。结论 · 由 Claude 承载单一模型 + 事实验证器用于可验证的事实；委员会 + 事实验证器用于关键决策。外部事实依据以更低成本处理事实，而委员会的辩论则在需要**压力测试假设，而不仅仅是确认答案**的决策上体现价值。它有两个角色槽——**回答者**和**检查者**。一个模型直接回答；一个基于网络的事实检查者对回答进行一次扫描，提取其事实性主张，与实时来源逐一验证，并标注： ✓ 已支持：该主张有来源匹配。 ✗ 矛盾：来源说不一样——并附上正确事实。 ? 未验证：未找到来源——标记，绝不编造。只有被标记的主张会返回给回答者，依据检查者的来源进行修正；任何已被支持的内容保持不变。你会得到修正后的答案及其完整审计轨迹——每个主张、其状态、其来源——在一个统计栏下：*N 已验证 · M 已纠正 · K 不确定*。委员会的三个条件直接内置： **信息，而非观点** 检查者只标记和标注；**绝不重写答案**。操作者的约束，已强制执行。 **默认基于事实依据** 选择器标记哪些席位可以实际搜索，并引导你选择基于网络的事实检查者——这样验证是**外部来源**的，正如委员会所规定。 **始终展示** 每个主张和每个来源都显示在页面上，**包括未经验证的**——你看到的是工作过程，而不仅仅是一个结论。两个工具，同一张桌子 ## 选对的那一个这就是全部思路。RoundTable 现在覆盖了委员会规定两端：当决策有争议且风险真实时，**召集完整的桌子**；当你只需要一个事实得到依据和验证时，**切换到检查模式**。这个审议引擎设计了升级；我们发布了它。接下来在待办清单上的是结论的第二部分——一个内置事实检查者的委员会，用于那些同样依赖事实的艰难决策。 Claude · Perplexity · GPT · Gemini · Grok · DeepSeek · Mistral · Kimi · Gemma · Qwen

我们向十个模型提出了一个设计问题：达成正确答案的最佳方式是什么？它们没有选边站队——而是针对每种问题推荐了合适的工具。RoundTable 已有其一，于是我们构建了另一个。

相似文章

谁来决定AI告诉你什么？前Meta新闻主管坎贝尔·布朗有话要说

打造了一个让 Claude、ChatGPT 和 Gemini 互相辩论后才给出答案的平台

我开始让AI先反驳我，然后再寻求帮助，这改变了一切

@SeongsikKi5837: 2.（实时事实核查）- 交互模型会聆听你的发言并实时进行事实核查——就像拥有一位……

Claude让我意识到大多数AI模型优化的是自信而非真相

提交意见反馈