标签
本文认为,人工智能创造了一个快速反馈循环,人类和机器相互塑造真理,加速共识转变,使得真理越来越合成且脱离现实。
本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。
PolyGnosis 是一个基于 Hermes 技能构建的对抗式多模型共识系统。它并行运行三个具有不同专家角色的 AI 模型,然后进入对抗性批评阶段,通过 RRF 和 Borda Count 进行评分,最后通过合成门——所有这些都使用 DeepSeek V4-Pro 以智能体方式构建。
本文揭示,聚合多个LLM智能体的完整推理轨迹(而非仅其最终答案)即使在所有智能体一致同意的情况下也能纠正错误,引入了“聚合悖论”以及Self-Consistent Mixture of Agents方法。
本文发现,语言模型在测试时采样中的推理轨迹会聚集成‘推理盆地’,当主导盆地错误时,会导致多数投票失败。本文提出了ARBITER,一种与模型无关的方法,利用模型自身输出和隐藏状态中的保守加性证据,无需外部数据即可提高准确性。
探索如何使用多个AI模型进行代理工作流,揭示隐藏的不确定性和推理差距,表明未来的系统可能依赖跨模型共识而非单模型链。
实证研究表明,在去中心化自治组织(DAO)中作为边缘原生治理防火墙时,小型语言模型凭借系统1直觉可获得100%对抗鲁棒性,但引入系统2推理后却完全崩溃。