标签
Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。