adversarial-detection

#adversarial-detection

如果你的AI代理能发邮件、浏览网站或调用工具，我有东西想请你测试一下

Reddit r/artificial ↗ · 昨天

Arc Gate是一个AI代理安全工具，它追踪整个对话以检测跨多轮对话的对抗性行为漂移，与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。

0 人收藏 0 人点赞

#adversarial-detection

arXiv cs.LG ↗ · 2026-05-26 缓存

提出 Agent-ToM，一种基于心智理论推理的学习监控框架，通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为，性能优于基线监控器。

0 人收藏 0 人点赞