PQR:一种生成多样化且逼真的用户查询以引发QA智能体失败的框架
摘要
介绍PQR,一个自动生成多样化和逼真的用户查询以发现基于LLM的QA智能体中的失败的框架,与先前方法相比,实现了23-78%更多的无帮助响应。
arXiv:2605.16551v1 公告类型:新
摘要:评估基于LLM的智能体仍然具有挑战性,因为识别有意义的失败案例通常需要大量人工努力来设计逼真的测试场景。先前的工作主要侧重于自动发现由对抗性用户引发的智能体失败,而忽略了具有真实用户意图的查询也会触发智能体失败。我们引入了PQR,一个不仅针对特定目标(例如,有用性、安全性等)暴露智能体失败,而且模拟真实用户意图的框架。PQR通过两个互补模块之间的迭代交互运作。查询细化模块执行重写以探索多样化的查询变体,而提示细化模块利用先前的反馈推导出新的违反目标的策略和逼真策略以细化提示,进而生成触发失败但又逼真的查询。我们在检测电子商务QA智能体的无帮助响应方面评估PQR。我们的方法发现了23%-78%更多的无帮助响应,并且与以前的方法相比,我们生成的查询更加多样化和逼真。
查看缓存全文
缓存时间: 2026/05/19 06:34
# PQR:生成多样化且真实的用户查询以触发问答代理故障的框架 来源:https://arxiv.org/abs/2605.16551 查看PDF (https://arxiv.org/pdf/2605.16551) > 摘要:评估基于LLM的智能体仍然具有挑战性,因为识别有意义的失败案例通常需要大量人工努力来设计逼真的测试场景。以往的工作主要专注于自动发现由对抗性用户引发的智能体故障,而忽略了那些同样能触发智能体故障但具有真实用户意图的查询。我们提出了PQR框架,该框架不仅能根据特定目标(如有用性、安全性等)发现智能体故障,还能模拟真实用户的意图。PQR通过两个互补模块之间的迭代交互来运作:查询优化模块执行重写以探索多样化的查询变体,而提示优化模块则利用先前的反馈来推导新的违反目标策略和真实性策略,用于优化提示,进而生成能触发故障又具有真实感的查询。我们在检测电子商务问答代理的无用回复方面评估了PQR。与以往方法相比,我们的方法多发现了23%至78%的无用回复,且生成的查询更加多样化和真实。 ## 提交历史 作者:Yunan Lu \[查看电子邮件 (https://arxiv.org/show-email/5471fb8c/2605.16551)\] **\[v1\]**2026年5月15日星期五 18:50:43 UTC (1,288 KB)
相似文章
IPQA:个性化问答中核心意图识别基准
IPQA引入了一个用于评估个性化问答中核心意图识别的基准,解决了现有指标仅关注响应质量而非意图理解的空白。论文提出了一种基于有界理性的数据集构建方法,并证明最先进的语言模型在从答案选择模式中识别用户优先意图时存在困难。
Slide Deck Q&A 质量保证应用:面向教学问题的多阶段生成流水线
本文介绍了 slidesqaqa,这是一个基于 Flask 的软件系统,能从 PDF 幻灯片中生成富有教学价值的问题。该系统采用四阶段大语言模型流水线,依次进行文本和图像提取、全幻灯片范围内的问题规划、幻灯片标注以及输出整合,在技术讲座幻灯片上展示了高保真的问题生成能力。
AgentNLQ:一种通用的自然语言到SQL代理
本文介绍了AgentNLQ,一个用于自然语言到SQL转换的多代理系统,通过模式增强和自校正编排器在BIRD基准测试上达到了78.1%的语义准确率。
团队如何大规模处理提示词质量保障?
一位处理约4万次对话/月的公司从业者描述了手动提示词质量保障的瓶颈,并询问团队如何利用自动化系统在生产中检测回归问题和用户挫败感。
评估客服聊天代理系统的笔记:启发式评估器给出虚假信号,检索错误伪装成LLM失败,成本/质量的帕累托前沿往往不在你想的地方 [D]
审计生产级客服RAG系统的实际发现:启发式评估器给出虚假信号,检索错误常伪装为LLM失败,成本与质量的帕累托前沿往往不在预期位置。模型扫查显示,用Gemma 4 26B替换原有模型(Gemini Flash Lite Preview)可在成本降低79%的同时实现19%的质量提升。