adversarial

标签

Cards List
#adversarial

AI生成的社交机器人内容的对抗性创建与检测

arXiv cs.CL · 昨天 缓存

本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。

0 人收藏 0 人点赞
#adversarial

审慎策展:多智能体知识库协议

arXiv cs.AI · 2026-06-02 缓存

本文介绍了多智能体知识库的审慎策展协议,解决了智能体无状态性和阿谀奉承等治理缺陷。通过仿真评估,该协议在对抗条件下展现出更强的鲁棒性。

0 人收藏 0 人点赞
#adversarial

CSULoRA: 最接近安全更新的低秩适应

arXiv cs.LG · 2026-06-01 缓存

CSULoRA是一种事后方法,用于纠正训练后的LoRA适配器,以在保持实用性的同时保留安全对齐,该方法利用最接近安全更新估计。

0 人收藏 0 人点赞
#adversarial

我构建了一个 Hermes 技能,其中 3 个 AI 模型相互争论后才给出答案——采用 RRF 和 Borda Count 排名的对抗式多模型共识

Reddit r/AI_Agents · 2026-05-31

PolyGnosis 是一个基于 Hermes 技能构建的对抗式多模型共识系统。它并行运行三个具有不同专家角色的 AI 模型,然后进入对抗性批评阶段,通过 RRF 和 Borda Count 进行评分,最后通过合成门——所有这些都使用 DeepSeek V4-Pro 以智能体方式构建。

0 人收藏 0 人点赞
#adversarial

机器生成文本中隐藏的类人本质:理论与检测增强

arXiv cs.CL · 2026-05-25 缓存

本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。

0 人收藏 0 人点赞
#adversarial

噪声着色:对抗性Sobolev对齐实现忠实图像超分辨率

Hugging Face Daily Papers · 2026-05-22 缓存

本文提出了一种对抗性Sobolev对齐方法,用于忠实图像超分辨率,旨在减少伪影并提高保真度。

0 人收藏 0 人点赞
#adversarial

我构建了两个哲学完全相反的多智能体AI系统。这是我目前学到的。

Reddit r/AI_Agents · 2026-05-20

作者构建了两个设计哲学完全相反的多智能体AI系统:ChaoticAI(协作式,基于组织结构图)和配备RAAC的S.A.G.E.(对抗式论证)。本文分享了关于记忆架构的思考,以及两种方法可能融合的方向。

0 人收藏 0 人点赞
#adversarial

NewsLens:一种用于对抗性新闻偏见导航的多智能体框架

arXiv cs.CL · 2026-05-19 缓存

NewsLens 引入了一种多智能体框架,旨在导航和揭露对抗性新闻偏见,提出了一种识别和对抗新闻媒体中偏见内容的新颖方法。

0 人收藏 0 人点赞
#adversarial

ALSO:面向社交智能体的对抗性在线策略优化

arXiv cs.AI · 2026-05-18 缓存

ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。

0 人收藏 0 人点赞
#adversarial

Chainwash:扩散语言模型水印的多步重写攻击

arXiv cs.CL · 2026-05-08 缓存

本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈