Conv-to-Bench: 通过用户-助手对话评估语言模型在代码任务中的表现
摘要
Conv-to-Bench 是一个多阶段框架,能够自动将多轮用户-助手对话转化为结构化的、可验证的需求清单,用于评估大型语言模型在代码任务上的表现,以较低的计算成本实现了与人工编写的基准近乎完美的对齐。
arXiv:2605.26440v1 Announce Type: new
摘要:大型语言模型(LLM)的快速发展已经超越了传统评估基准的可扩展性,这些基准仍然严重依赖劳动密集型的人工专家策展。我们通过 Conv-to-Bench 解决了这一瓶颈,这是一个多阶段框架,能够自动将真实的多轮用户-助手对话转化为结构化的、可验证的需求清单。通过利用现实世界对话日志中的“指令演化”,我们的方法将支离破碎的用户意图分解为整合的指令和二值化评估标准。应用于编程领域后,Conv-to-Bench 生成的评估集与 BigCodeBench 等人工编写的标准实现了近乎完美的对齐,在显著降低计算开销的同时达到了高达 $\rho$ = 1.000 的斯皮尔曼相关系数。对 LLM-as-a-judge 框架的验证进一步证实了其可靠性,主要评估者与人工验证的真实情况达到了一致性($\kappa$ = 0.705)。我们全面的消融研究表明,虽然多轮交互捕捉了用户意图的迭代演化,但以指令为中心的提取提供了更稳健的基础。最终,随着以用户为中心的 AI 应用持续多样化,Conv-to-Bench 提供了一种可扩展且经济高效的范式,用于维持高保真评估标准。
查看缓存全文
缓存时间: 2026/05/27 09:05
# Conv-to-Bench: 通过代码任务中的用户-助手对话评估语言模型
来源:https://arxiv.org/html/2605.26440
Victor M. dos Santos¹,³, Andre C. Castro¹¹footnotemark:¹²,³,⁴, Samuel L. de S. Toledo²,³, Bruno M. L. Calura²,³, Lisandra C. de M. Menezes²,³, Raul C. R. Mata³, Telma W. de L. Soares²,⁴, Bryan L. M. de Oliveira²,³,⁴
¹ 圣保罗大学数学与计算机科学研究所,巴西
² 戈亚斯联邦大学信息学研究所,巴西
³ HUG Labs,巴西
⁴ 先进沉浸式技术知识中心(AKCIT),巴西
###### 摘要
大语言模型(LLMs)的快速发展已超越传统评估基准的可扩展性,这些基准仍然高度依赖劳动密集型的人工专家策划。我们通过 Conv-to-Bench¹¹代码见 https://github.com/vmoreli/conv-to-bench 来应对这一瓶颈——这是一个多阶段框架,能够自动将真实的多轮用户-助手对话转化为结构化的、可验证的需求清单。通过利用现实世界对话日志中的“指令演变”,我们的方法将碎片化的用户意图分解为整合的指令和二元评估标准。在编程领域应用时,Conv-to-Bench 生成的评估集与 BigCodeBench 等人工程写的标准展现出近乎完美的对齐,Spearman 相关系数高达 $\rho=1.000$,同时计算开销显著降低。对 LLM-as-a-judge 框架的验证进一步确认了其可靠性,主要评估器与人工验证的真相一致性达到显著水平($\kappa=0.705$)。我们的综合消融研究表明,多轮交互虽然捕获了用户意图的迭代演变,但以指令为中心的提取提供了更稳健的基础。最终,Conv-to-Bench 提供了一种可扩展、成本高效的范式,能在以用户为中心的 AI 应用持续多样化时,维持高保真度的评估标准。
## 1 引言
构建稳健的评估基准是衡量大语言模型(LLMs)进展并确保其可靠性的基础支柱。现有的基准,如 Chen 等人 (2021)(https://arxiv.org/html/2605.26440#bib.bib13)、Zhuo 等人 (2025)(https://arxiv.org/html/2605.26440#bib.bib12)以及 Rein 等人 (2024)(https://arxiv.org/html/2605.26440#bib.bib24),已设定了评估复杂推理和代码生成的黄金标准,提供了研究界广泛信赖的严格框架。然而,创建此类高质量基准的一个重大挑战是它们高度依赖人类专家的参与,贯穿整个构建过程——从任务的人工策划到领域专家的多阶段验证。虽然这种人力密集型方法确保了高保真度和精确性,但也造成了显著的瓶颈,使得开发新的、多样化的评估集成为一项资源密集且耗时的任务。
与此同时,LLMs 的广泛采用催生了庞大的真实世界数据仓库,即对话数据集,例如 Zheng 等人 (2024)(https://arxiv.org/html/2605.26440#bib.bib5)和 Zhao 等人 (2024)(https://arxiv.org/html/2605.26440#bib.bib4)。这些数据集是真实用户意图的宝贵来源,记录了反映各领域实际挑战的数百万次对话。这些交互通常是丰富且迭代的:用户通过澄清、约束和重述来优化请求并纠正模型输出。正如 Don-Yehiya 等人 (2024)(https://arxiv.org/html/2605.26440#bib.bib6)所指出的,这些自然交互提供了一种隐式反馈形式,代表了静态的、专家编写的基准中常常缺失的动态指令演变。
为了利用这一潜力,我们引入了 **Conv-to-Bench**,这是一个多阶段框架(图 1(https://arxiv.org/html/2605.26440#S1.F1)),旨在自动将这些多轮对话转化为结构化的、可验证的需求清单。我们的方法将评估焦点从人工编写的问题转移到系统性地提取贯穿整个交互的指令。通过处理这些对话,Conv-to-Bench 重构了用户定义的任务不断变化的约束,从而有效捕捉对话中涌现的细微需求。
图 1:框架概述。该图展示了将原始多轮对话数据转化为结构化的(指令、需求清单)评估对的多阶段过程。在用户消息中,蓝色高亮文本对应提取的指令,红色高亮文本代表用户反馈。
本工作的核心目标是确定这种自动化的、由对话驱动的流程是否能作为传统、依赖专家基准的功能等价物。我们特别探讨了从多轮对话的指令演变中提取的需求能否近似于成熟专业标准的评估完整性。此外,通过有针对性的消融研究,我们试图解答:对话中自然嵌入的隐式反馈是否作为有用的细化信号来提升评估准确性,还是主要引入噪音(与仅指令基线相比)。最后,我们通过一致性分析验证自动评判器的可靠性,确保其判决与权威基准对齐。这种方法验证了一种更可扩展、以用户为中心的评估范式,在利用真实用户-模型交互的固有丰富性的同时,最小化了人工依赖。
## 2 相关工作
大规模、真实的人类-AI 交互日志的可用性为探索 LLM 的实用性提供了重要资源。诸如 LMSYS-Chat-1M(Zheng 等人, 2024(https://arxiv.org/html/2605.26440#bib.bib5))和 WildChat(Zhao 等人, 2024(https://arxiv.org/html/2605.26440#bib.bib4))等数据集记录了数百万次真实世界的对话,揭示了软件开发和编程辅助内容的显著主导地位。虽然 WildChat 强调了这些交互的迭代性质(超过 40% 的对话跨越多个轮次),但这些资源主要用于训练或行为分析。Conv-to-Bench 将这些数据集作为基准构建的基础,将多轮交互中发现的迭代澄清和需求细化视为动态真相的来源。
然而,从交互日志中提取可靠的评估指标并非易事。该信号带来了显著挑战:Liu 等人 (2025)(https://arxiv.org/html/2605.26440#bib.bib26)证明,隐式反馈虽然具有信息量,但可能作为学习信号“充满噪音”,尤其是对于复杂的推理任务。此外,其他研究表明,朴素的启发式方法(例如优化对话长度)可能会无意中强化不良行为,包括有争议或不友好的模型响应(Pang 等人, 2024(https://arxiv.org/html/2605.26440#bib.bib27))。虽然先前的工作主要将隐式反馈视为监督微调或重新排序的信号,而我们则探索其作为细粒度评估标准直接来源的潜力。
传统上,实现高评估精度是一个专家密集且依赖人工的过程,造成了可扩展性的重大瓶颈。例如,HumanEval(Chen 等人, 2021(https://arxiv.org/html/2605.26440#bib.bib13))需要手动创建 164 个原创问题以避免数据污染。类似地,BigCodeBench(Zhuo 等人, 2025(https://arxiv.org/html/2605.26440#bib.bib12))涉及 20 位作者耗时一年的构建过程,其中 75% 的标注者拥有超过五年的 Python 专业经验。在编程之外,GPQA(Rein 等人, 2024(https://arxiv.org/html/2605.26440#bib.bib24))和 Humanity’s Exam(Phan 等人, 2025(https://arxiv.org/html/2605.26440#bib.bib28))基准说明了专业知识的极端成本:需要具备高级学术背景的领域专家来编写和验证通常“专家级困难”的问题。虽然这些基准是黄金标准,但它们对长期专家参与的依赖使得它们难以在大量新兴的以用户为中心的任务中扩展。
为了扩展评估,像 Li 等人 (2025)(https://arxiv.org/html/2605.26440#bib.bib9)这样的自动化流程利用基于 LLM 的评分对众包数据进行评估。然而,像 Arena-Hard-Auto 这样的基准侧重于单轮交互,忽略了用户意图的演变性质。Conv-to-Bench 通过纳入多轮动态并研究累积指令和隐式反馈的影响来填补这一空白。通过捕获指令演变和纠正信号,我们的框架提供了模型遵循度的代表性度量,同时评估了这种反馈是否产生有意义的细化,还是向评估过程引入噪音。
## 3 方法论
我们的方法论建立了一个系统的、多阶段的框架,将原始的用户-助手对话转化为结构化的评估数据。主要目标是将复杂的用户-助手对话分解为原子组件:一个整合的用户指令和一个源自对话上下文的详细需求清单。该框架能够对生成模型进行细致入微、上下文感知的评估,超越简单的指令遵循,并融入用户的迭代细化和纠正。
该方法论包含三个主要阶段,建立在一个多轮用户-助手交互的基准数据集之上。
### 3.1 领域特定过滤
框架的第一阶段涉及领域特定过滤,以从原始对话日志中分离出高实用性的交互。我们认为,通用对话数据对于专门化评估来说过于宽泛。许多现实世界的对话缺乏客观目标,或者涉及具有模糊、非确定性成功标准的任务,这些任务无法进行一致的度量。此外,没有严格的过滤,所得基准的主题范围将是未定义的,降低了其作为针对性评估工具的实用性。因此,每个对话首先被分类以确定其与目标领域(例如编程、创意写作)的相关性,确保所有后续处理阶段都作用于高信号、领域内的语料库,这不仅提高了流程的计算效率,也提升了提取需求的评估相关性和完整性。
为实现这一目标,我们采用了一种结合无监督聚类和针对性分类的双层过滤策略。首先,我们利用主题建模流程,基于密集向量表示将对话分组为主题簇。这些簇根据领域特定的关键词词汇表自动筛选,以识别可能包含相关内容的候选群组。其次,为了消除主题噪音,这些候选簇中的个别对话通过零样本 LLM 分类器进行实例级验证。通过分析初始用户消息,分类器执行对提示与目标领域相关性的二元判定。这第二层过滤掉了可能被置于相关簇内的模糊交互,确保合成阶段的类别纯度。
### 3.2 指令合成
一旦对话被识别为领域内,下一阶段便合成完整的用户指令。多轮对话中的一个重大挑战是:用户的完整意图通常不包含在单条消息中,而是分散在整个对话过程中。初始提示可能模糊不清,关键约束和修改在后续轮次中才给出。本阶段旨在通过 LLM 分析用户的完整对话历史,综合初始请求及所有后续澄清,合成一个单一的、全面的指令。为了维护基准完整性,合成的指令通过基于 LLM 的二元分类器进行筛选。此阶段过滤掉高噪音的候选者,特别是丢弃那些被识别为语义模糊、过于笼统或依赖于对话日志中未包含的外部文件的指令。
### 3.3 反馈驱动的需求合成
最后阶段生成需求清单,作为核心评估指标。此过程通过两个由 LLM 驱动的离散步骤执行:反馈识别和结构化清单合成。
首先,LLM 分析对话以识别和分类构成评估性反馈的用户消息。为确保高精度,模型遵循严格的“基于反应”协议:对话中的第一条消息永远不是反馈,而仅是延续对话的中性消息必须被忽略。反馈分为两种类型:
- **正面反馈**:用户确认助手响应成功、正确或满足其需求的消息(例如明确承认实用或代码成功执行)。
- **负面反馈**:表明助手响应不令人满意、不正确或不完整的消息。这包括对代码的直接修正或暗示先前回答失败的澄清请求。
重要的是,沉默不被解释为正面反馈;框架需要用户给出明确的评估性信号才能将消息识别为反馈源。
在第二步中,框架充当专家质量保证 (QA) 分析师。它接收对话、合成的指令以及明确标识的反馈消息 ID。LLM 将这些输入转化为简单的、原子的、可测试的需求列表,格式化为二元(是/否)问题。
为确保完全可追溯性,模型被指示为每个需求标记其来源,区分源于合成指令的标准和源于特定反馈轮次的标准。通过隔离源自反馈的需求,我们研究对话中自然嵌入的隐式反馈是否提供了有意义的细化信号来提升评估准确性。最终结果是稳健的(指令,需求清单)对,其中每个评估标准都扎根于原始用户-模型交互中的特定点。
### 3.4 评分与统计校准
方法论的最后一个组成部分确立了正式的评分机制,用于将清单满足情况转化为标准化的性能指标。由于需求嵌套在指令中,且指令在“通过项目”上差异显著,这会引入结构性偏差。为缓解此问题,我们实施了一种分层估计流程,将每个指令视为一个独立的评估约束簇。对于给定的模型输出,指令 $i$ 中的每个原子需求 $j$ 被评估为二元结果 $y_{i,j} \in \{0,1\}$。为了确保最终分数反映的是对任务的均衡掌握,而不是需求的数量,我们首先相似文章
MTR-Suite:一个用于评估和合成对话检索基准的框架
介绍MTR-Suite,一个用于评估和合成对话检索基准的统一框架,具备基于LLM的审计器、用于成本效益对话生成的多智能体流水线,以及一个具有高区分度的基准。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。
PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型
PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
SpeechEditBench:面向指令引导语音编辑的双语多属性基准
SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。