adversarial-detection

标签

Cards List
#adversarial-detection

如果你的AI代理能发邮件、浏览网站或调用工具,我有东西想请你测试一下

Reddit r/artificial · 昨天

Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。

0 人收藏 0 人点赞
#adversarial-detection

Agent-ToM: 通过心智理论推理学习监控自主LLM智能体

arXiv cs.LG · 2026-05-26 缓存

提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈