multi-turn

标签

Cards List
#multi-turn

ATOD:面向多轮自主智能体的退火轮次感知在线策略蒸馏

arXiv cs.AI · 4小时前 缓存

本文介绍了ATOD,一种结合在线策略蒸馏和强化学习的混合在线蒸馏算法,用于在多轮任务中训练小型语言模型智能体,其特点是采用退火OPD-RL调度和轮次级分歧-不确定性重新加权,以改善密集监督。

0 人收藏 0 人点赞
#multi-turn

AI智能体的自然语言测试(使用模拟隔离)

Reddit r/AI_Agents · 9小时前

本文介绍了一种针对AI智能体的新型自然语言测试系统,该系统利用模拟隔离自动生成多轮模拟并评估智能体行为,帮助开发者捕捉提示词变更引起的回归问题。

0 人收藏 0 人点赞
#multi-turn

我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。

Reddit r/artificial · 2026-06-19

一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。

0 人收藏 0 人点赞
#multi-turn

EHRNote-ChatQA:基于证据的长篇出院小结多轮临床问答基准

arXiv cs.CL · 2026-06-16 缓存

介绍 EHRNote-ChatQA,这是一个基于证据、覆盖多份出院小结的多轮临床问答基准,经专家验证构建。对 22 个大语言模型的基准测试揭示了在证据溯源和多轮错误累积方面的挑战。

0 人收藏 0 人点赞
#multi-turn

CacheRL:基于缓存回滚和混合奖励的多轮工具调用智能体

arXiv cs.CL · 2026-06-15 缓存

CacheRL训练用于多步工具调用任务的小型智能体基础模型,通过缓存回滚和混合奖励塑造,以100倍更少的计算量实现了92%的过程准确率(接近GPT-5的94%),并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。

0 人收藏 0 人点赞
#multi-turn

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL · 2026-06-15 缓存

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。

0 人收藏 0 人点赞
#multi-turn

Shopping Reasoning Bench:一个由专家编写的用于多轮对话购物助手的基准

arXiv cs.CL · 2026-06-12 缓存

购物推理基准(Shopping Reasoning Bench)是一个由专家编写的用于评估多轮对话购物助手的基准,包含525个任务和超过10,000个二元评判标准。对GPT、Claude和Gemini的评估显示,当前模型仅能达到57%至77%的通过率,揭示了在专家级购物推理方面存在显著差距。

0 人收藏 0 人点赞
#multi-turn

HERO: 从环境观察中进行事后增强反思的智能体自蒸馏

arXiv cs.AI · 2026-06-11 缓存

HERO 提出了一种事后增强的自蒸馏框架,利用环境观察作为局部对齐的反馈,以提升多轮智能体的能力,在 TauBench 和 WebShop 上优于现有方法,尤其在有限的轮次预算下表现突出。

0 人收藏 0 人点赞
#multi-turn

ISE:一种基于执行的面向多轮操作系统代理轨迹的合成方案

arXiv cs.CL · 2026-06-11 缓存

本文介绍了一种名为ISE的三阶段合成范式,用于生成带有基于执行的多轮操作系统代理轨迹,并证明在生成的ISE-Trace数据集上进行微调能显著提升代理在ClawEval上的性能。

0 人收藏 0 人点赞
#multi-turn

IntentKV: 面向Agent推理的跨轮次意图感知KV缓存剪枝

arXiv cs.LG · 2026-06-10 缓存

IntentKV提出了一种针对多轮LLM Agent的跨轮次意图感知KV缓存剪枝方法,通过维护会话级别的查询记忆来高效剪枝缓存,且不损失精度,显著减少了token使用量和KV读取次数。

0 人收藏 0 人点赞
#multi-turn

捉住五分之一:LLM作为判断器在生产环境多轮交易代理中的盲点

arXiv cs.CL · 2026-06-10 缓存

本文研究了一个部署的LLM作为判断器系统,用于评估多轮对话代理,发现其捕捉到的缺陷远少于人工审查,揭示了一个结构化的盲点分类和路由故障。

0 人收藏 0 人点赞
#multi-turn

用于LLM智能体离线策略评估的自回归扩散世界模型

arXiv cs.LG · 2026-06-05 缓存

提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。

0 人收藏 0 人点赞
#multi-turn

基于概率信念追踪的多轮人类可说服性模型

arXiv cs.CL · 2026-06-05 缓存

本文介绍了PersuasionTrace,一个用于研究人机交互中多轮说服的框架,采用贝叶斯网络模拟目标来建模信念更新。该框架揭示了大语言模型在多种主题和模态下具有说服力,并且贝叶斯目标比普通大语言模型模拟器更符合人类信念动态。

0 人收藏 0 人点赞
#multi-turn

AdaPlanBench:在世界和用户约束下评估大型语言模型智能体的自适应规划能力

Hugging Face Daily Papers · 2026-06-04 缓存

AdaPlanBench是一个动态基准测试,用于评估LLM智能体在多轮交互中根据逐步显现的世界和用户约束进行自适应规划的能力。实验表明,当前模型尤其难以应对用户约束。

0 人收藏 0 人点赞
#multi-turn

WRIT:面向多轮用户代理的写读密集型轨迹合成

arXiv cs.CL · 2026-06-03 缓存

本文提出WRIT,一种用于合成多轮代理训练轨迹的流水线,该流水线平衡了写密集型与读重复杂度。该方法生成多样化的任务和模拟,使小型模型能够以更低的推理成本实现强大性能。

0 人收藏 0 人点赞
#multi-turn

Salesforce运行自家AI Agents基准测试,你看到了吗?

Reddit r/ArtificialInteligence · 2026-06-01

讨论Salesforce的CRMArena-Pro基准测试,结果显示代理在单轮任务中成功率为58%,在多轮任务中骤降至35%;并给出实用建议:将代理工作流拆分为狭窄阶段,以减少错误累积。

0 人收藏 0 人点赞
#multi-turn

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI · 2026-06-01 缓存

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

0 人收藏 0 人点赞
#multi-turn

LongDS-Bench:关于长程自主数据分析的失败

Hugging Face Daily Papers · 2026-05-28 缓存

LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试;实验表明,最佳模型仅能达到48%的准确率,且随着轮数增加准确率显著下降。

0 人收藏 0 人点赞
#multi-turn

SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性

arXiv cs.CL · 2026-05-27 缓存

本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。

0 人收藏 0 人点赞
#multi-turn

多轮Text-to-SQL的记忆架构:基准测试与实证研究

arXiv cs.CL · 2026-05-27 缓存

本文介绍了多轮Text-to-SQL基准测试EnterpriseMem-Bench,并评估了五种前沿模型在不同记忆架构下的表现,发现无状态模型在第三轮时崩溃,且工作记忆带来的提升最大。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈