“我没有做出微观决策”:在协作中衡量、引导和揭示目标层面的人工智能贡献
摘要
引入CoTrace,一个用于人机协作中目标层面归因的框架,该框架分析大语言模型如何通过对话回合中的具体需求和间接影响来塑造目标。
查看缓存全文
缓存时间: 2026/05/22 14:20
论文页面 - “我并未做出微观决策”:测量、诱导并揭示人机协作中的目标级 AI 贡献
来源:https://huggingface.co/papers/2605.21363
摘要
本文提出了一种名为 CoTrace 的目标级归因框架,用于分析大型语言模型在人机协作中如何塑造目标。研究揭示,虽然模型在直接贡献中占比很小,但在引入具体需求以及做出间接贡献方面扮演着显著角色。
随着大型语言模型 (large language models)(https://huggingface.co/papers?q=large%20language%20models) (LLMs) 日益影响用户如何形成、完善和扩展目标,在人机协作 (human-AI collaboration)(https://huggingface.co/papers?q=human-AI%20collaboration) 中进行贡献归因变得至关重要——这有助于用户校准自身的依赖度,也便于评估者评判 AI 辅助的工作。然而现有方法仅关注最终产物,忽略了目标本身被共同塑造的过程。我们提出了一个目标级归因 (goal-level attribution)(https://huggingface.co/papers?q=goal-level%20attribution) 框架 CoTrace (https://huggingface.co/papers?q=CoTrace),它将明确目标分解为可验证的需求 (verifiable requirements)(https://huggingface.co/papers?q=verifiable%20requirements),并追踪跨对话轮次 (dialogue turns)(https://huggingface.co/papers?q=dialogue%20turns) 的直接贡献和间接影响 (indirect influences)(https://huggingface.co/papers?q=indirect%20influences)。将 CoTrace (https://huggingface.co/papers?q=CoTrace) 应用于 638 个真实协作日志后,我们发现模型在目标塑造贡献 (goal-shaping contribution)(https://huggingface.co/papers?q=goal-shaping%20contribution) 中仅占 11-26%,但在引入更低层的具体需求方面贡献显著更多,并且做出了多种间接贡献。通过受控模拟 (controlled simulations)(https://huggingface.co/papers?q=controlled%20simulations),我们展示了交互设计选择会显著影响模型的目标塑造行为。在一项用户研究 (user study)(https://huggingface.co/papers?q=user%20study) 中,向参与者展示目标级分析后,他们对自身贡献的感知在 5 分量表上改变了近 2 分,揭示了用户对自己 AI 辅助工作理解中存在的系统性偏差。
查看 arXiv 页面 (https://arxiv.org/abs/2605.21363)
查看 PDF (https://arxiv.org/pdf/2605.21363)
项目页面 (https://rladmstn1714.github.io/CoTrace/)
GitHub1 (https://github.com/rladmstn1714/CoTrace)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.21363)
在您的 agent 中获取本文:
hf papers read 2605\.21363
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型 (0)
无模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2605.21363,以便从此页面链接。
引用本文的数据集 (0)
无数据集关联本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.21363,以便从此页面链接。
引用本文的 Space (0)
无 Space 关联本文
请在 Space README.md 中引用 arxiv.org/abs/2605.21363,以便从此页面链接。
包含本文的收藏 (0)
无收藏包含本文
请将本文添加到一个收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接。
相似文章
我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)
研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。
@martin_casado:这解决了一个非常困难且重要的人工智能系统问题。本质上,如何大规模地向AI智能体暴露你的追踪数据。
马丁·卡萨多的一条推文,强调了一种解决方案,该方案解决了大规模向AI智能体暴露追踪数据这一难题,并平衡了成本与AI的杠杆作用。
超越黑盒:智能体人工智能工具使用的可解释性
本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。
TraceGraph:用于诊断和改进智能体轨迹的共享决策景观
TraceGraph是一个基于图的框架,它从多模型智能体轨迹中构建共享决策景观,从而能够诊断故障区域并通过陷阱感知恢复流水线进行改进。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。