我们向十个模型提出了一个设计问题:达成正确答案的最佳方式是什么?它们没有选边站队——而是针对每种问题推荐了合适的工具。RoundTable 已有其一,于是我们构建了另一个。

Reddit r/artificial 产品

摘要

十个 AI 模型被问及回答问题的最佳方式;它们推荐针对高风险决策采用委员会模式,针对事实查询采用基于来源的事实核查器。这促使 RoundTable 构建了 'Check mode',一项将强大模型与基于网页的事实核查器配对的新功能。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/27 03:51

# 委员会撰写了规范 · RoundTable 来源:https://reports.thert.ai/the-council-wrote-the-spec RoundTable 新功能 · 委员会报告 我们向十个模型提出了一个设计问题:什么是达成正确答案的最佳方式?它们没有站队——而是针对每种问题规定了合适的工具。RoundTable 已经有了其中一种。于是我们构建了另一种。 2026年6月27日 10 模型盲审委员会 现已推出 **简短版** 当被问到“委员会还是单一模型”时,这张桌子拒绝虚假的二元选择,而是将问题一分为二:**召集委员会**处理重要的决策,**使用有事实依据的验证器**处理简单的事实。RoundTable 已经拥有前者。于是我们构建了后者。 **概要** ## 一个问题,两个答案 动议被刻意拆分为:委员会 vs. 单一模型,分别用于 **(1)** 单一事实性问题,和 **(2)** 关键、高风险的决策。形式是**盲审揭示**——每个模型独立撰写开场白,无法看到其他模型,然后十个模型同时揭晓。独立思维,无锚定效应。 回来的不是一个口号。而是一份清晰的工程判断:**不同的问题需要不同的机制。** 委员会将两种场景映射到两种架构——令人满意的是,同样的答案从不同席位中浮现,而没有任何人看到其他人的答案。 ### 对于艰难决策 ## 委员会 有争议、高风险、涉及众多变量——遗漏一个假设的成本很高。 **圆桌辩论** ### 对于纯粹事实 ## 事实验证器 一个可验证的答案——日期、数字、定义、当前事件。 **单一模型 + 事实依据** 委员会的优势所在 ## 辩论,用于重要决策 在高风险场景下,委员会的立场非常明确,而这正是 RoundTable 的核心用途。单一模型往往趋向于讨好——它会倾向于收敛于一个平滑、平衡的答案,悄悄掩盖了尾部风险。委员会则相反:它迫使独立批判,让每个席位针对同侪捍卫自己的推理,并**保留异议**,而不是将其平均化。这样,一个承重的假设在投入使用之前就能被捕获。 Gemini 在讨论委员会在决策中的优势时指出:通过强制执行对抗性批判,并迫使我们向同侪辩护自己的逻辑,我们可以对你承重的假设进行压力测试,并暴露单一模型会礼貌隐藏的结构性缺陷。 结论很直白:对于关键决策,委员会的对抗性审查**值得其开销**——压力测试假设、揭示竞争性解释、推动证据审查而不是点头附和。这是任何单一模型都无法替代的部分,也是当决策变得困难时,圆桌会议胜过单个先知的原因。 事实验证器胜出的场景 ## 事实依据,用于事实问题 在纯粹事实性问题面前,委员会的判断同样尖锐——并指向了不同的工具。这里的瓶颈不是推理,而是**事实依据**。模型共享大量训练数据,因此对于一个可验证的事实,你真正需要的不是来自相同记忆的更多意见,而是**外部来源**。建议是:一个强大的模型负责回答,并与一个基于网络的事实验证器配对进行验证。快速、有来源、经过核查,而不仅仅是有信心。 Gemini 在描述事实验证配置时指出:一个单独模型与一个独立、使用工具的伙伴配对——实际上是一个两节点的微型委员会。 操作者赋予这个伙伴精确的职责范围,并成为该功能的契约:事实验证器可以**呈现信息,而非观点**,并且可以**标记不准确的陈述**。它负责提供依据和验证;从不悄悄替换自己的答案。一个小巧、锐利的工具,适用于小而精准的任务。 我们构建了什么 ## 引入检查模式 事实验证配置是 RoundTable 之前缺少的一环。现在它有了。**检查模式**与委员会和图像工作室并列——这是结论,被具体化。 结论 · 由 Claude 承载 单一模型 + 事实验证器用于可验证的事实;委员会 + 事实验证器用于关键决策。外部事实依据以更低成本处理事实,而委员会的辩论则在需要**压力测试假设,而不仅仅是确认答案**的决策上体现价值。 它有两个角色槽——**回答者**和**检查者**。一个模型直接回答;一个基于网络的事实检查者对回答进行一次扫描,提取其事实性主张,与实时来源逐一验证,并标注: ✓ 已支持:该主张有来源匹配。 ✗ 矛盾:来源说不一样——并附上正确事实。 ? 未验证:未找到来源——标记,绝不编造。 只有被标记的主张会返回给回答者,依据检查者的来源进行修正;任何已被支持的内容保持不变。你会得到修正后的答案及其完整审计轨迹——每个主张、其状态、其来源——在一个统计栏下:*N 已验证 · M 已纠正 · K 不确定*。委员会的三个条件直接内置: **信息,而非观点** 检查者只标记和标注;**绝不重写答案**。操作者的约束,已强制执行。 **默认基于事实依据** 选择器标记哪些席位可以实际搜索,并引导你选择基于网络的事实检查者——这样验证是**外部来源**的,正如委员会所规定。 **始终展示** 每个主张和每个来源都显示在页面上,**包括未经验证的**——你看到的是工作过程,而不仅仅是一个结论。 两个工具,同一张桌子 ## 选对的那一个 这就是全部思路。RoundTable 现在覆盖了委员会规定两端:当决策有争议且风险真实时,**召集完整的桌子**;当你只需要一个事实得到依据和验证时,**切换到检查模式**。这个审议引擎设计了升级;我们发布了它。接下来在待办清单上的是结论的第二部分——一个内置事实检查者的委员会,用于那些同样依赖事实的艰难决策。 Claude · Perplexity · GPT · Gemini · Grok · DeepSeek · Mistral · Kimi · Gemma · Qwen

相似文章