通过图灵奖励训练用户模拟器

Hugging Face Daily Papers 论文

摘要

本文介绍了一种名为Turing-RL的强化学习方法,该方法利用基于图灵测试的奖励来训练语言模型,使其在对话和论坛场景中生成与人类用户无法区分的回复,性能优于基线方法。

在交互环境中学习模拟人类用户可以推进代理助手的训练、个性化系统的评估、社会科学研究等。现有方法通常通过训练大型语言模型(LLM)来匹配单一的真实回复,要么最大化对数概率,要么使用相似度奖励。我们转而提出了一种基于图灵测试的强化学习方法{Turing-RL},用于训练用户模拟器模型。{Turing-RL}使用一个判别性的图灵奖励,配合LLM评判器,根据用户历史记录来评估生成回复与真实用户回复的不可区分性,而用户模拟器LLM则通过学习在这种奖励下生成与用户可能说出的内容无法区分的回复。在两个不同的领域——对话聊天和Reddit论坛讨论中,我们发现{Turing-RL}在LLM评估和人工评估指标上均持续优于基线方法。我们的研究表明,优化不可区分性而非回复匹配,对于学习用户模拟器是有效的。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - 基于图灵奖励的学习用户模拟器

来源:https://huggingface.co/papers/2606.19336

摘要

一种使用基于图灵测试奖励的强化学习方法,训练语言模型在对话和论坛讨论场景中生成与人类用户难以区分的回复。
在交互式场景中学习模拟人类用户,有助于推进智能助手训练、个性化系统评估、社会科学研究等。现有方法通常通过训练大语言模型(LLM)来匹配单一的真实回复,要么最大化对数概率,要么使用相似性奖励。我们提出 {Turing-RL}:一种基于图灵测试的强化学习方法,用于训练用户模拟器模型。{Turing-RL} 使用判别式图灵奖励,结合 LLM judge 对生成的回复与真实用户在给定历史下的不可区分性进行评分,用户模拟器 LLM 通过此类奖励学习生成与用户可能表达的内容无法区分的回复。在两个不同领域——对话聊天和 Reddit 论坛讨论——我们发现 {Turing-RL} 在 LLM 评估和人工评估指标上均持续优于基线方法。我们的研究表明,优化不可区分性而非响应匹配,对于学习用户模拟器是有效的。

查看 arXiv 页面 (https://arxiv.org/abs/2606.19336)
查看 PDF (https://arxiv.org/pdf/2606.19336)
GitHub1 (https://github.com/SusanWYS/turing-rl)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19336)

在您的 agent 中获取此论文:

hf papers read 2606.19336

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面关联。

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

RogueAI:一种用于检测对话中特许AI欺骗的反向图灵测试

arXiv cs.CL

本文介绍了RogueAI,一个以交互式网络应用形式实现的反向图灵测试,其中人类玩家审问两个LLM智能体,以识别在共享虚构场景中被特许欺骗的那个。初步部署显示,启发式检测(准确率75.6%)与人类表现(准确率56.6%)之间存在差距,凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。