production-agent

标签

Cards List
#production-agent

层隔离评估:基于无LLM、回归锁定的测试框架对生产级LLM代理的确定性骨架进行门控

arXiv cs.CL · 2026-06-11 缓存

本文介绍了针对LLM代理的层隔离评估方法,将生产级代理分解为架构层,每层使用确定性无LLM测试框架进行测试。它展示了逐切片基线测试能够定位聚合指标所掩盖的性能回归,并通过跨多个租户的受控回归注入进行了验证。

0 人收藏 0 人点赞
#production-agent

捉住五分之一:LLM作为判断器在生产环境多轮交易代理中的盲点

arXiv cs.CL · 2026-06-10 缓存

本文研究了一个部署的LLM作为判断器系统,用于评估多轮对话代理,发现其捕捉到的缺陷远少于人工审查,揭示了一个结构化的盲点分类和路由故障。

0 人收藏 0 人点赞
#production-agent

上周一次提示注入击垮了生产环境中的AI代理——以下是事后复盘的发现

Reddit r/AI_Agents · 2026-06-05

一个生产环境中的AI客服代理因提示注入而被攻破,导致其他客户数据泄露。事后复盘揭示了缺少执行层、审计追踪无效以及没有终止开关等问题,凸显了部署AI代理时存在的系统性安全漏洞。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈