标签
本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。
本文介绍了多智能体知识库的审慎策展协议,解决了智能体无状态性和阿谀奉承等治理缺陷。通过仿真评估,该协议在对抗条件下展现出更强的鲁棒性。
CSULoRA是一种事后方法,用于纠正训练后的LoRA适配器,以在保持实用性的同时保留安全对齐,该方法利用最接近安全更新估计。
PolyGnosis 是一个基于 Hermes 技能构建的对抗式多模型共识系统。它并行运行三个具有不同专家角色的 AI 模型,然后进入对抗性批评阶段,通过 RRF 和 Borda Count 进行评分,最后通过合成门——所有这些都使用 DeepSeek V4-Pro 以智能体方式构建。
本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。
作者构建了两个设计哲学完全相反的多智能体AI系统:ChaoticAI(协作式,基于组织结构图)和配备RAAC的S.A.G.E.(对抗式论证)。本文分享了关于记忆架构的思考,以及两种方法可能融合的方向。
NewsLens 引入了一种多智能体框架,旨在导航和揭露对抗性新闻偏见,提出了一种识别和对抗新闻媒体中偏见内容的新颖方法。
ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。
本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。