PQR：一种生成多样化且逼真的用户查询以引发QA智能体失败的框架

arXiv cs.CL 2026/05/19 04:00 论文

摘要

介绍PQR，一个自动生成多样化和逼真的用户查询以发现基于LLM的QA智能体中的失败的框架，与先前方法相比，实现了23-78%更多的无帮助响应。

arXiv:2605.16551v1 公告类型：新摘要：评估基于LLM的智能体仍然具有挑战性，因为识别有意义的失败案例通常需要大量人工努力来设计逼真的测试场景。先前的工作主要侧重于自动发现由对抗性用户引发的智能体失败，而忽略了具有真实用户意图的查询也会触发智能体失败。我们引入了PQR，一个不仅针对特定目标（例如，有用性、安全性等）暴露智能体失败，而且模拟真实用户意图的框架。PQR通过两个互补模块之间的迭代交互运作。查询细化模块执行重写以探索多样化的查询变体，而提示细化模块利用先前的反馈推导出新的违反目标的策略和逼真策略以细化提示，进而生成触发失败但又逼真的查询。我们在检测电子商务QA智能体的无帮助响应方面评估PQR。我们的方法发现了23%-78%更多的无帮助响应，并且与以前的方法相比，我们生成的查询更加多样化和逼真。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:34

# PQR：生成多样化且真实的用户查询以触发问答代理故障的框架
来源：https://arxiv.org/abs/2605.16551
查看PDF (https://arxiv.org/pdf/2605.16551)

> 摘要：评估基于LLM的智能体仍然具有挑战性，因为识别有意义的失败案例通常需要大量人工努力来设计逼真的测试场景。以往的工作主要专注于自动发现由对抗性用户引发的智能体故障，而忽略了那些同样能触发智能体故障但具有真实用户意图的查询。我们提出了PQR框架，该框架不仅能根据特定目标（如有用性、安全性等）发现智能体故障，还能模拟真实用户的意图。PQR通过两个互补模块之间的迭代交互来运作：查询优化模块执行重写以探索多样化的查询变体，而提示优化模块则利用先前的反馈来推导新的违反目标策略和真实性策略，用于优化提示，进而生成能触发故障又具有真实感的查询。我们在检测电子商务问答代理的无用回复方面评估了PQR。与以往方法相比，我们的方法多发现了23%至78%的无用回复，且生成的查询更加多样化和真实。

## 提交历史

作者：Yunan Lu \[查看电子邮件 (https://arxiv.org/show-email/5471fb8c/2605.16551)\] **\[v1\]**2026年5月15日星期五 18:50:43 UTC (1,288 KB)

PQR：一种生成多样化且逼真的用户查询以引发QA智能体失败的框架

相似文章

LakeQuest：跨数据湖基于事实的问答三元域基准

你的AI智能体只需一个糟糕的提示就能毁掉你的品牌（以及为什么传统QA毫无用处）

ReportQA: 基于问答的放射学报告评估

识别与解决知识型VQA基准测试的陷阱：审计、修复与增强

IPQA：个性化问答中核心意图识别基准

提交意见反馈