SEQUOR:用于真实约束遵循的多轮对话基准
摘要
本文介绍了 Sequor,这是一个用于评估人工智能模型在长多轮对话中遵循约束能力的新基准。该研究强调,当前模型在长时间交互中保持对指令的遵循方面存在显著困难。
arXiv:2605.06353v1 公告类型:新论文
摘要:在对话中,有益的助手必须可靠地遵循用户指令,即使这些指令在后续过程中被细化、修改或与之前的请求相矛盾。然而,大多数指令遵循基准主要关注单轮或短多轮场景,尚未充分评估模型处理长周期指令遵循任务的能力。为了弥补这一差距,我们提出了 SEQUOR,这是一个用于评估长多轮对话中约束遵循情况的自动基准。SEQUOR 由基于真实对话中提取的约束构建的模拟人物驱动交互组成。我们的结果显示,即使在遵循单一约束的情况下,随着对话长度的增加,指令遵循的准确率也会持续下降,降幅超过 11%。当模型需要同时遵循多个约束时,这种下降幅度更大,准确率降低超过 40%。在对话的任意时间点添加或替换约束的场景中,模型准确率下降超过 9%。综上所述,我们的研究结果揭示了当前模型在多轮对话中遵循用户指令方面仍然存在困难,并为更好地衡量助手指令遵循能力提供了一种方法。
查看缓存全文
缓存时间: 2026/05/08 07:53
# 用于真实约束遵循的多轮基准测试 来源:https://arxiv.org/html/2605.06353 Beatriz Canaverde<sup>1,2</sup>, Duarte M. Alves<sup>1,2</sup>, José Pombal<sup>1,2,3</sup>, Giuseppe Attanasio<sup>1</sup> & André F. T. Martins<sup>1,2,4,5</sup> <sup>1</sup>Instituto de Telecomunicações, <sup>2</sup>Instituto Superior Técnico, Universidade de Lisboa <sup>3</sup>Sword Health, <sup>4</sup>TransPerfect, <sup>5</sup>ELLIS Unit Lisbon [email protected] ###### 摘要 在对话中,一个有益的助手必须可靠地遵循用户指令,即使这些指令在后续回合中被细化、修改或与之前的请求相矛盾。然而,大多数指令遵循基准主要关注单轮或短多轮场景,留下了模型在处理长视界(long-horizon)指令遵循任务方面表现如何的空白。为了弥合这一差距,我们提出了 **Sequor**,这是一个用于评估长多轮对话中约束遵循情况的自动基准测试。**Sequor** 由模拟的人格驱动交互组成,其约束是从真实世界对话中提取的。我们的结果表明,即使只遵循单个约束,随着对话长度的增加,指令遵循准确率也会持续下降,降幅超过 11%。当模型需要同时遵循多个约束时,这种下降更为显著,准确率降低超过 40%。在对话的任意点添加或替换约束的场景中,模型准确率下降超过 9%。综上所述,我们的结果揭示了当前模型在多轮对话中遵循用户指令方面仍存在困难,并为更好地评估助手的指令遵循能力提供了一种方法。 <sup>1</sup>代码和数据可在 https://github.com/BeatrizCanaverde/SEQUOR 获取。 ## 1 引言 数字助手必须在整个对话过程中始终遵循用户指令。因为用户经常细化、修改甚至反驳之前的请求(Zheng 等人, 2024;Zhao 等人, 2024;Bai 等人, 2024;Chiang 等人, 2024;Laban 等人, 2025),这种技能需要在许多回合中遵循可能变化的指令。这使得评估变得具有挑战性,因为当前的指令遵循基准通常在单轮或短多轮设置下评估模型,使用可编程验证或由 LLM 生成的指令,这些指令并不能代表真实世界的使用案例(Zheng 等人, 2023;Zhou 等人, 2023;Qin 等人, 2024;He 等人, 2024;Kwan 等人, 2024;Jiang 等人, 2024;Dussolle 等人, 2025;Pyatkin 等人, 2025;Xia 等人, 2024;Bai 等人, 2024;Jiang 等人, 2024;Deshpande 等人, 2025)。 这一背景引发了一个问题:在现代开放领域交互中,跨越多轮对话时,大型语言模型(LLMs)遵循指令的鲁棒性如何? > **图 1:** Sequor 对话示例片段。 为了弥合这一差距,我们提出了 **Sequor**<sup>2</sup>,这是一个衡量多轮开放领域对话中指令遵循能力的自动基准测试。**Sequor** 基于两个核心原则。首先,约束必须是真实的、广泛适用的、具有挑战性且可验证的(§2)。其次,交互必须跨越多个回合,允许约束以可信的方式累积或替换(§3;见图 1)。因此,**Sequor** 由从真实世界对话中提取约束构建的模拟人格驱动交互组成。它系统地变化约束引入的方式和时机,从在对话中保持不变的初始约束,到随时间增量添加或替换的约束。因此,它捕捉了广泛的长视界指令遵循场景。 我们在 **Sequor** 上评估了多种现代 LLM,揭示了长视界指令遵循中存在一致的局限性(§4)。在所有机制中,随着对话变长,约束遵循准确率都会下降。即使在遵循单个约束时,从第一轮到最后一轮的准确率也会下降超过 11%。当需要同时满足多个约束时,下降幅度更大,超过 38%;而当约束是顺序引入而非一次性全部给出时,下降最为明显,损失超过 40%。在对话中途重置约束允许模型恢复其初始性能,尽管之后的准确率下降得更快。最后,当约束在对话的任意点随机添加或替换时,准确率下降超过 9%。综上所述,这些结果表明,当前模型在长多轮交互中可靠地遵循用户指令方面仍然存在困难。 我们的主要贡献总结如下: - 我们提出了一种自动化流水线,用于从真实世界对话中提取和策划广泛适用、非平凡且客观可验证的约束(§2)<sup>3</sup>。 - 我们引入了 **Sequor**,一个用于约束遵循的多轮基准测试,包含 1,400 个对话,每个对话有 50 个回合(§3)。它系统地变化约束在对话中的引入方式,从静态初始约束到随时间增量添加和替换。 - 我们通过实证展示了当前 LLM 随着回合数的增加和约束的累积,其约束遵循能力会出现显著退化(§4)。 <sup>2</sup>Sequor 是拉丁语动词,意为“我跟随”。 <sup>3</sup>伴随我们的基准测试,我们还将发布策划好的 1,446 个真实约束池。 ## 2 在真实世界中收集真实约束 为了评估指令遵循,我们测试助手是否遵循塑造其输出形式、风格或结构的约束。我们从真实世界的对话数据中收集约束,并使用启发式方法和 LLM-as-judge(Zheng 等人, 2023)自动过滤它们。我们的流水线如图 2 所示,生成了一个包含 1,446 个真实约束的池。 > **图 2:** 从真实世界对话中收集约束的流水线。 #### 提取约束 从 lmsys-chat-1m(Zheng 等人, 2024)开始,这是一个真实世界用户-助手对话的数据集<sup>4</sup>,我们使用 Qwen3-Next-80B-A3B-Instruct-FP8(Yang 等人, 2025;Team, 2025)对每个英文对话进行提示,以提取用户提示中表达的所有约束。遵循 Qin 等人(2024),我们将约束分为四个主要类别:语言指南、风格规则、格式规范和数量限制<sup>5</sup>。 #### 自动过滤 使用 Datatrove 库(Penedo 等人, 2024),我们使用 fastText 语言识别模型(Joulin 等人, 2016a; b)移除非英语约束,丢弃所有置信度分数低于 0.65 的条目。然后,我们使用 MinHash 去重(50 个桶,每桶 4 个哈希,3-grams)移除相似的约束。最后,我们排除包含预定义坏词列表英文子集中单词<sup>6</sup>或自定义列表中字符序列<sup>7</sup>的约束。 #### 确保约束可满足 我们只保留在多种上下文中都可满足的约束。例如,“用最多 100 个字回答”是广泛适用的,而“你的回答必须包含一个 Python 函数定义”仅对编程相关任务有意义。为了识别可满足的约束,我们将每个约束与 100 个随机采样的任务配对,并使用各种裁判和图 3 中提出的评分标准评估每对。如果裁判对评分标准 1、3 和 4 给出正面分数,并对评分标准 2 给出负面响应,则该约束对于给定任务是可满足的。要通过此过滤器,约束必须在至少 70% 的分析上下文中被所有裁判认为可满足。 > **图 3:** LLM 裁判用于识别不可满足约束的评分标准。 > 1. 该约束是否实际上是限制模型如何生成任务输出的限制或条件? > 2. 该约束是否针对与任务本身不同的问题、主题或领域? > 3. 该约束是否适用于任务所需的输出类型? > 4. 该约束是否属于以下四个类别之一:语言指南、风格规则、格式规范或数量限制? 完整的提示模板,包括约束类别的定义,如图 9 所示。 > **图 4:** Sequor 模拟人格驱动的交互,变化五种系统机制中约束的引入方式。 #### 避免平凡可满足的约束 虽然我们优先考虑广泛适用的约束,但我们排除了那些即使在提示中未明确指定时也很可能被满足的约束。例如,“用正确的英语回答”通常会被大多数语言模型在回答英语问题时遵循。为了识别这种平凡约束,我们采样模型对 100 个任务的响应(未指定任何约束),并测试约束是否仍然得到满足。如果每个裁判将至少 70% 的响应分类为不满足约束,则该约束是非平凡的。 #### 移除主观约束 一些约束是主观的,可能导致裁判间评估不一致(例如,“写一个创造性的回答”)。为了识别和移除此类情况,我们将每个约束与 100 个任务配对,并采样对这些约束-任务对的模型响应。然后,我们使用多个裁判独立评估每个响应中是否遵循了约束。如果在至少 70% 的评估任务上下文中,所有裁判对二元判断达成一致,则该约束是非主观的。对于约束评估,我们使用了三个裁判:GPT-oss-120B(OpenAI 等人, 2025)、Qwen3-235B-A22B-Instruct-2507-FP8(Team, 2025)和 GLM-4.7-FP8(Team 等人, 2025b)。模型响应由四个较小的 LLM 生成:Qwen3-4B-Instruct-2507(Team, 2025)、Llama-3.2-3B-Instruct(Grattafiori 等人, 2024)、Gemma3-4B(Team 等人, 2025a)和 Olmo-3-7B-Instruct(Olmo 等人, 2025)。70% 的阈值平衡了对上下文变异性和约束多样性的鲁棒性。进一步分析和提示模板见附录 A。 ## 3 SEQUOR:模拟和评估多轮对话 从我们的真实约束池中,我们构建了 **Sequor**。在 **Sequor** 中,用户回合是从人格档案和提取的约束中生成的,然后助手回合使用 LLM-as-a-Judge 进行评估。 ### 3.1 模拟对话 **Sequor** 由形成与助手多轮对话的用户回合序列组成。每个回合指定一个任务——助手要执行的操作或目标——并可选地更新助手必须遵循的约束。为了模拟真实条件,我们设计了五种测试场景,使用人格档案,并控制冲突约束。 #### 测试集 **Sequor** 包括五个测试集,由固定的用户回合序列集合构建,仅在提供给助手的约束方面有所不同(见图 4)。对于每个测试集,约束是从我们的池中随机采样的,并使用预定义模板在特定回合引入(见 §D)。五个集合定义如下: - **Single(单个)**:在第一轮给出一个约束,此后必须遵循。 - **Tuples(元组)**:在第一轮给出三个约束,此后必须遵循。 - **Replace(替换)**:在第一轮给出一个约束,每 $x$ 轮替换一次。每个约束必须在其被替换之前遵循。我们考虑 $x=5$ 和 $x=10$。 - **Add(添加)**:在第一轮给出一个约束,每 $x$ 轮添加额外的约束,最多三个。约束会累积;一旦引入,此后必须遵循。我们考虑 $x=5$ 和 $x=10$。 - **Everything(全部)**:先前机制的混合。在随机数量的回合后(1 到 5 之间),给出最多三个约束,随机累积或替换早期的约束。 #### 任务 我们设计任务以模拟不同人格与助手之间的交互。我们首先从 Persona Hub(Ge 等人, 2025)采样人格档案,并使用 Qwen3-Next-80B-A3B-Instruct-FP8(Yang 等人, 2025;Team, 2025)生成针对每个人格职业、兴趣和生活方式的每日活动序列。然后,给定一个人格和活动,相同的模型生成该人格在该场景中可能会自然地问助手的开放式问题。这一过程产生有序的问题序列,模拟自然流畅的交互。见 图 1 示例。提示模板见附录 E。最终数据集包含 200 个人格,每个有 50 个关联任务。 #### 约束元组 对于助手必须同时满足多个约束的评估场景,我们必须识别兼容的约束元组(例如,“用全大写字母写你的答案”与“写...
相似文章
VCIFBench:评估视频理解中的复杂指令遵循能力
VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。
SEIF:用于指令遵循的自我演化强化学习
本文介绍了 SEIF,这是一个自我演化的强化学习框架,通过迭代难度自适应以及教官和跟随者组件的协同训练,增强大语言模型(LLM)的指令遵循能力。
模型遵循其宪章的效果如何?
本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。
约束获取需要更好的基准测试
文章指出当前约束获取的基准测试存在不足,并介绍了MPMMine——一个旨在评估利用多样化领域知识工件发现、验证和增强数学规划模型的算法的基准测试套件。
@HowToAI_: Microsoft Research 和 Salesforce 发布了一篇论文,应该让每一位 AI 开发者此刻感到警惕。它的名字是……
Microsoft Research 和 Salesforce 发布的新论文揭示,由于“迷失于对话”(Lost in Conversation)现象,LLM 在多轮对话中的性能显著下降,这对当前单轮基准测试的可靠性提出了挑战。