通过图灵奖励训练用户模拟器
摘要
本文介绍了一种名为Turing-RL的强化学习方法,该方法利用基于图灵测试的奖励来训练语言模型,使其在对话和论坛场景中生成与人类用户无法区分的回复,性能优于基线方法。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - 基于图灵奖励的学习用户模拟器
来源:https://huggingface.co/papers/2606.19336
摘要
一种使用基于图灵测试奖励的强化学习方法,训练语言模型在对话和论坛讨论场景中生成与人类用户难以区分的回复。
在交互式场景中学习模拟人类用户,有助于推进智能助手训练、个性化系统评估、社会科学研究等。现有方法通常通过训练大语言模型(LLM)来匹配单一的真实回复,要么最大化对数概率,要么使用相似性奖励。我们提出 {Turing-RL}:一种基于图灵测试的强化学习方法,用于训练用户模拟器模型。{Turing-RL} 使用判别式图灵奖励,结合 LLM judge 对生成的回复与真实用户在给定历史下的不可区分性进行评分,用户模拟器 LLM 通过此类奖励学习生成与用户可能表达的内容无法区分的回复。在两个不同领域——对话聊天和 Reddit 论坛讨论——我们发现 {Turing-RL} 在 LLM 评估和人工评估指标上均持续优于基线方法。我们的研究表明,优化不可区分性而非响应匹配,对于学习用户模拟器是有效的。
查看 arXiv 页面 (https://arxiv.org/abs/2606.19336)
查看 PDF (https://arxiv.org/pdf/2606.19336)
GitHub1 (https://github.com/SusanWYS/turing-rl)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19336)
在您的 agent 中获取此论文:
hf papers read 2606.19336
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。
引用此论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。
引用此论文的 Space 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面关联。
相似文章
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。
SalesSim:基准测试并对齐多模态语言模型作为零售用户模拟器
本文介绍了 SalesSim,这是一个用于评估多模态大型语言模型(MLLM)作为零售用户模拟器的框架和基准,旨在揭示角色对齐方面的不足,并提出了一种名为 UserGRPO 的新型强化学习方法。
面向长程语言智能体可验证强化学习的策略条件化反事实信用
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。
RogueAI:一种用于检测对话中特许AI欺骗的反向图灵测试
本文介绍了RogueAI,一个以交互式网络应用形式实现的反向图灵测试,其中人类玩家审问两个LLM智能体,以识别在共享虚构场景中被特许欺骗的那个。初步部署显示,启发式检测(准确率75.6%)与人类表现(准确率56.6%)之间存在差距,凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。