ThoughtTrace:理解真实世界LLM交互中的用户想法
摘要
ThoughtTrace 引入了一个大规模数据集,将真实世界的多轮人机对话与用户的自我报告想法配对,通过想法引导的重写来改进用户行为预测和个性化助手训练。
查看缓存全文
缓存时间: 2026/05/21 06:12
论文页面 - ThoughtTrace:理解真实世界LLM交互中的用户思维
来源:https://huggingface.co/papers/2605.20087
摘要
ThoughtTrace 提供了一个大规模数据集,将人机对话与用户自我报告的思维过程配对,通过思维引导的重写来改进用户行为预测和个性化助手训练。
对话式人工智能(https://huggingface.co/papers?q=Conversational%20AI)现已覆盖数十亿用户,然而现有数据集仅捕捉人们所说的话,而非其内心所想。我们推出 ThoughtTrace,这是首个将真实世界多轮人机对话与用户自我报告的思维过程(即用户发送提示的原因及对助手回复的反应)配对的大规模数据集(https://huggingface.co/papers?q=large-scale%20dataset)。ThoughtTrace 包含 1,058 位用户、2,155 段对话、17,058 轮交互以及 10,174 条思维标注,覆盖 20 种语言模型。我们的分析表明,ThoughtTrace 捕捉到了长时间跨度、主题多样的交互,并且用户的思维过程在语义上与消息本身有显著区别,前沿大语言模型难以从上下文中推断出这些思维,其内容多样且与对话阶段密切相关。我们进一步展示了思维过程在下游建模中的实用性。首先,作为推理时的上下文,思维过程改进了用户行为预测(https://huggingface.co/papers?q=user-behavior%20prediction)。其次,思维引导的重写(https://huggingface.co/papers?q=thought-guided%20rewrites)为训练个性化助手(https://huggingface.co/papers?q=personalized%20assistants)提供了细粒度的对齐信号。综上,ThoughtTrace 将用户思维确立为一种新的数据模态,用于研究人机交互背后的认知动态(https://huggingface.co/papers?q=cognitive%20dynamics),并为构建能够更好理解并适应用户潜在目标(https://huggingface.co/papers?q=latent%20goals)、偏好(https://huggingface.co/papers?q=preferences)和需求(https://huggingface.co/papers?q=needs)的助手奠定了基础。
查看 arXiv 页面(https://arxiv.org/abs/2605.20087)查看 PDF(https://arxiv.org/pdf/2605.20087)项目页面(https://thoughttrace-project.github.io/)GitHub3(https://github.com/thoughttrace-project/thoughttrace)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20087)
在您的 agent 中获取此论文:
hf papers read 2605.20087
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.20087 以从此页面链接。
引用此论文的数据集1
SCAI-JHU/ThoughtTrace 查看器• 更新于约 6 小时前 • 2.16k • 1.39k • 3 (https://huggingface.co/datasets/SCAI-JHU/ThoughtTrace)
引用此论文的 Spaces0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.20087 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
@thinkymachines: 当 Lilian 讲述故事时,交互模型可以追踪她何时在思考、让步、自我纠正或……
文章重点介绍了一项研究更新,描述了一种交互模型,该模型能够在没有内置对话管理系统的情况下,追踪讲故事过程中的认知状态,如思考、让步和自我纠正。
我们如何在规模上实现持续追踪智能(8分钟阅读)
Braintrust的Topics功能利用LLM摘要,使得生产环境中的代理追踪在大规模聚类和分类中变得可控,该方法受Anthropic的Clio方法启发。
“我没有做出微观决策”:在协作中衡量、引导和揭示目标层面的人工智能贡献
引入CoTrace,一个用于人机协作中目标层面归因的框架,该框架分析大语言模型如何通过对话回合中的具体需求和间接影响来塑造目标。
心智理论提升是否真的有益于人机交互?来自交互评估的实证发现
本文针对大语言模型的心智理论能力提出了一种新的交互评估范式,发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现,凸显了基于交互评估的必要性。
基于概率信念追踪的多轮人类可说服性模型
本文介绍了PersuasionTrace,一个用于研究人机交互中多轮说服的框架,采用贝叶斯网络模拟目标来建模信念更新。该框架揭示了大语言模型在多种主题和模态下具有说服力,并且贝叶斯目标比普通大语言模型模拟器更符合人类信念动态。