通过图灵奖励训练用户模拟器

Hugging Face Daily Papers 2026/06/17 00:00 论文

reinforcement-learning user-simulator turing-test llm language-model conversational-ai

摘要

本文介绍了一种名为Turing-RL的强化学习方法，该方法利用基于图灵测试的奖励来训练语言模型，使其在对话和论坛场景中生成与人类用户无法区分的回复，性能优于基线方法。

在交互环境中学习模拟人类用户可以推进代理助手的训练、个性化系统的评估、社会科学研究等。现有方法通常通过训练大型语言模型（LLM）来匹配单一的真实回复，要么最大化对数概率，要么使用相似度奖励。我们转而提出了一种基于图灵测试的强化学习方法{Turing-RL}，用于训练用户模拟器模型。{Turing-RL}使用一个判别性的图灵奖励，配合LLM评判器，根据用户历史记录来评估生成回复与真实用户回复的不可区分性，而用户模拟器LLM则通过学习在这种奖励下生成与用户可能说出的内容无法区分的回复。在两个不同的领域——对话聊天和Reddit论坛讨论中，我们发现{Turing-RL}在LLM评估和人工评估指标上均持续优于基线方法。我们的研究表明，优化不可区分性而非回复匹配，对于学习用户模拟器是有效的。

查看原文

查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - 基于图灵奖励的学习用户模拟器

来源：https://huggingface.co/papers/2606.19336

摘要

一种使用基于图灵测试奖励的强化学习方法，训练语言模型在对话和论坛讨论场景中生成与人类用户难以区分的回复。
在交互式场景中学习模拟人类用户，有助于推进智能助手训练、个性化系统评估、社会科学研究等。现有方法通常通过训练大语言模型（LLM）来匹配单一的真实回复，要么最大化对数概率，要么使用相似性奖励。我们提出 {Turing-RL}：一种基于图灵测试的强化学习方法，用于训练用户模拟器模型。{Turing-RL} 使用判别式图灵奖励，结合 LLM judge 对生成的回复与真实用户在给定历史下的不可区分性进行评分，用户模拟器 LLM 通过此类奖励学习生成与用户可能表达的内容无法区分的回复。在两个不同领域——对话聊天和 Reddit 论坛讨论——我们发现 {Turing-RL} 在 LLM 评估和人工评估指标上均持续优于基线方法。我们的研究表明，优化不可区分性而非响应匹配，对于学习用户模拟器是有效的。

查看 arXiv 页面 (https://arxiv.org/abs/2606.19336)
查看 PDF (https://arxiv.org/pdf/2606.19336)
GitHub1 (https://github.com/SusanWYS/turing-rl)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19336)

在您的 agent 中获取此论文：

hf papers read 2606.19336

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.19336 即可从此页面关联。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面关联。

通过图灵奖励训练用户模拟器

论文页面 - 基于图灵奖励的学习用户模拟器

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

视频模型可通过可验证奖励进行推理

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

SalesSim：基准测试并对齐多模态语言模型作为零售用户模拟器

面向长程语言智能体可验证强化学习的策略条件化反事实信用

RogueAI：一种用于检测对话中特许AI欺骗的反向图灵测试

提交意见反馈