ThoughtTrace：理解真实世界LLM交互中的用户想法

Hugging Face Daily Papers 2026/05/19 00:00 论文

dataset human-ai-interaction llm conversational-ai user-modeling personalization alignment

摘要

ThoughtTrace 引入了一个大规模数据集，将真实世界的多轮人机对话与用户的自我报告想法配对，通过想法引导的重写来改进用户行为预测和个性化助手训练。

对话式AI现已服务数十亿用户，然而现有数据集仅捕捉人们所说的内容，而非他们的想法。我们提出了ThoughtTrace，这是首个将真实世界多轮人机对话与用户自我报告的想法（即用户发送提示的理由及对助手回应的反应）配对的大规模数据集。ThoughtTrace包含1,058名用户、2,155次对话、17,058轮交互以及横跨20种语言模型的10,174条想法标注。我们的分析表明，ThoughtTrace捕捉了长周期、主题多样的交互，且想法在语义上与消息截然不同，前沿大语言模型难以从上下文中推断其含义，想法内容多样且与对话阶段紧密相关。我们进一步展示了想法在下游建模中的实用性。首先，想法作为推理时的上下文能提升用户行为预测。其次，想法引导的重写为训练个性化助手提供了细粒度的对齐信号。综上，ThoughtTrace将用户想法确立为研究人机交互背后认知动态的新数据模态，并为构建能更好理解并适应用户潜在目标、偏好和需求的助手奠定了基础。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:12

论文页面 - ThoughtTrace：理解真实世界LLM交互中的用户思维

来源：https://huggingface.co/papers/2605.20087

摘要

ThoughtTrace 提供了一个大规模数据集，将人机对话与用户自我报告的思维过程配对，通过思维引导的重写来改进用户行为预测和个性化助手训练。

对话式人工智能（https://huggingface.co/papers?q=Conversational%20AI）现已覆盖数十亿用户，然而现有数据集仅捕捉人们所说的话，而非其内心所想。我们推出 ThoughtTrace，这是首个将真实世界多轮人机对话与用户自我报告的思维过程（即用户发送提示的原因及对助手回复的反应）配对的大规模数据集（https://huggingface.co/papers?q=large-scale%20dataset）。ThoughtTrace 包含 1,058 位用户、2,155 段对话、17,058 轮交互以及 10,174 条思维标注，覆盖 20 种语言模型。我们的分析表明，ThoughtTrace 捕捉到了长时间跨度、主题多样的交互，并且用户的思维过程在语义上与消息本身有显著区别，前沿大语言模型难以从上下文中推断出这些思维，其内容多样且与对话阶段密切相关。我们进一步展示了思维过程在下游建模中的实用性。首先，作为推理时的上下文，思维过程改进了用户行为预测（https://huggingface.co/papers?q=user-behavior%20prediction）。其次，思维引导的重写（https://huggingface.co/papers?q=thought-guided%20rewrites）为训练个性化助手（https://huggingface.co/papers?q=personalized%20assistants）提供了细粒度的对齐信号。综上，ThoughtTrace 将用户思维确立为一种新的数据模态，用于研究人机交互背后的认知动态（https://huggingface.co/papers?q=cognitive%20dynamics），并为构建能够更好理解并适应用户潜在目标（https://huggingface.co/papers?q=latent%20goals）、偏好（https://huggingface.co/papers?q=preferences）和需求（https://huggingface.co/papers?q=needs）的助手奠定了基础。

查看 arXiv 页面（https://arxiv.org/abs/2605.20087）查看 PDF（https://arxiv.org/pdf/2605.20087）项目页面（https://thoughttrace-project.github.io/）GitHub3（https://github.com/thoughttrace-project/thoughttrace）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.20087）

在您的 agent 中获取此论文：

hf papers read 2605.20087

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.20087 以从此页面链接。

引用此论文的数据集1

SCAI-JHU/ThoughtTrace 查看器• 更新于约 6 小时前 • 2.16k • 1.39k • 3 (https://huggingface.co/datasets/SCAI-JHU/ThoughtTrace)

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.20087 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）中以从此页面链接。

ThoughtTrace：理解真实世界LLM交互中的用户想法

论文页面 - ThoughtTrace：理解真实世界LLM交互中的用户思维

摘要

引用此论文的模型0

引用此论文的数据集1

SCAI-JHU/ThoughtTrace 查看器• 更新于约 6 小时前 • 2.16k • 1.39k • 3 (https://huggingface.co/datasets/SCAI-JHU/ThoughtTrace)

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

@thinkymachines: 当 Lilian 讲述故事时，交互模型可以追踪她何时在思考、让步、自我纠正或……

ThinkProbe: 超越准确性——通过非生成式思维图对开放式LLM推理轨迹进行结构剖析

Anthropic刚刚报告，大语言模型拥有隐藏的想法而不说出来。一个内部的“J-Space”

我们如何在规模上实现持续追踪智能（8分钟阅读）

MIThinker：针对动机性访谈咨询的即插即用策略优化思考者

提交意见反馈