标签
本文研究了将Web检索集成到LLM智能体中如何削弱安全对齐,揭示了“安全来源悖论”:即使是面向安全的文档也会增加有害遵从性。本文介绍了AgentREVEAL诊断框架和HarmURLBench基准,用于分析和评估检索引发的安全漏洞。
一位开发者创建了一个小型本地工具,用于在将检索结果输入RAG流水线之前,检查来自Brave、Serper、Tavily和Exa等搜索提供商的检索结果,并关注源多样性、重复性、时效性以及SEO/GEO污染风险等信号。