adversarial

#adversarial

AI生成的社交机器人内容的对抗性创建与检测

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种对抗性方法，用于创建和检测AI生成的社交机器人内容，并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练，能够在实际环境中显著超越现有的基于内容的机器人检测模型。

0 人收藏 0 人点赞

#adversarial

审慎策展：多智能体知识库协议

arXiv cs.AI ↗ · 2026-06-02 缓存

本文介绍了多智能体知识库的审慎策展协议，解决了智能体无状态性和阿谀奉承等治理缺陷。通过仿真评估，该协议在对抗条件下展现出更强的鲁棒性。

0 人收藏 0 人点赞

#adversarial

CSULoRA: 最接近安全更新的低秩适应

arXiv cs.LG ↗ · 2026-06-01 缓存

CSULoRA是一种事后方法，用于纠正训练后的LoRA适配器，以在保持实用性的同时保留安全对齐，该方法利用最接近安全更新估计。

0 人收藏 0 人点赞

#adversarial

我构建了一个 Hermes 技能，其中 3 个 AI 模型相互争论后才给出答案——采用 RRF 和 Borda Count 排名的对抗式多模型共识

Reddit r/AI_Agents ↗ · 2026-05-31

PolyGnosis 是一个基于 Hermes 技能构建的对抗式多模型共识系统。它并行运行三个具有不同专家角色的 AI 模型，然后进入对抗性批评阶段，通过 RRF 和 Borda Count 进行评分，最后通过合成门——所有这些都使用 DeepSeek V4-Pro 以智能体方式构建。

0 人收藏 0 人点赞

#adversarial

机器生成文本中隐藏的类人本质：理论与检测增强

arXiv cs.CL ↗ · 2026-05-25 缓存

本文揭示了机器生成文本中隐藏的类人片段的存在，并提出了一种与模型无关的堆叠增强框架，通过减少这些片段的影响来改进现有检测器。

0 人收藏 0 人点赞

#adversarial

噪声着色：对抗性Sobolev对齐实现忠实图像超分辨率

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

本文提出了一种对抗性Sobolev对齐方法，用于忠实图像超分辨率，旨在减少伪影并提高保真度。

0 人收藏 0 人点赞

#adversarial

我构建了两个哲学完全相反的多智能体AI系统。这是我目前学到的。

Reddit r/AI_Agents ↗ · 2026-05-20

作者构建了两个设计哲学完全相反的多智能体AI系统：ChaoticAI（协作式，基于组织结构图）和配备RAAC的S.A.G.E.（对抗式论证）。本文分享了关于记忆架构的思考，以及两种方法可能融合的方向。

0 人收藏 0 人点赞

#adversarial

NewsLens：一种用于对抗性新闻偏见导航的多智能体框架

arXiv cs.CL ↗ · 2026-05-19 缓存

NewsLens 引入了一种多智能体框架，旨在导航和揭露对抗性新闻偏见，提出了一种识别和对抗新闻媒体中偏见内容的新颖方法。

0 人收藏 0 人点赞

#adversarial

ALSO：面向社交智能体的对抗性在线策略优化

arXiv cs.AI ↗ · 2026-05-18 缓存

ALSO引入了一个多智能体社交模拟中的在线策略优化框架，将多轮交互建模为对抗性赌博机问题，并利用神经代理进行奖励预测。在Sotopia基准上的实验表明，它优于静态基线和现有优化方法。

0 人收藏 0 人点赞

#adversarial

Chainwash：扩散语言模型水印的多步重写攻击

arXiv cs.CL ↗ · 2026-05-08 缓存

本研究论文介绍了Chainwash，一种多步重写攻击，能够有效删除扩散语言模型（LLaDA-8B-Instruct）输出中的统计水印，经过五次链式重写后，检测率从87.9%降至4.86%。

0 人收藏 0 人点赞

adversarial

提交意见反馈