user-study

#user-study

Anthropic 研究了40万次Claude Code会话：领域知识比编码技能更重要

Reddit r/ArtificialInteligence ↗ · 2026-06-17

Anthropic分析了40万次Claude Code会话，发现领域专业知识比编码技能更能预测成功，专家达到28-33%的验证成功率，而新手为15%。该研究强调，理解问题比编码能力更重要。

0 人收藏 0 人点赞

#user-study

野外的安全与隐私提示：用户向大语言模型提问什么及大语言模型如何回应

arXiv cs.CL ↗ · 2026-06-17 缓存

本文分析了用户向大语言模型提出的关于数字安全与隐私的真实问题，将其分为九个主题，并评估了商业模型和开放权重模型在回答质量和一致性上的表现。

0 人收藏 0 人点赞

#user-study

Nonslop：人机协作写作的游戏化实验

arXiv cs.AI ↗ · 2026-06-11 缓存

本文介绍了一个游戏化实验，参与者在写作时不被鼓励使用AI建议，分析人类在何种情况下会采纳AI辅助而非保持创意自主性。

0 人收藏 0 人点赞

#user-study

描述人类与AI协作进行证明形式化的初期工作流程

arXiv cs.AI ↗ · 2026-06-04 缓存

来自牛津、剑桥、MIT、CMU等机构的研究人员开展了一项混合方法研究，考察人们如何将AI工具融入数学证明形式化工作流程。研究发现，借助AI辅助时，参与者的形式化准确率普遍更高，同时他们倾向于在证明发现过程中保持人类对高层决策的主导权。

0 人收藏 0 人点赞

#user-study

不同LLM访问级别对论文写作行为的影响

arXiv cs.CL ↗ · 2026-06-02 缓存

一项针对24名大学生的初步研究探讨了不同LLM访问级别（无访问、有限访问、无限制访问）对论文写作质量、行为以及感知作者身份的影响，发现限制访问可以保持作者身份的自信，而无限制访问则降低了创造性表达和所有权感。

0 人收藏 0 人点赞

#user-study

PrivacyAkinator: 通过回答LLM生成的多选题阐述关键隐私设计决策

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了PrivacyAkinator，一个交互式工具，帮助新手开发者通过LLM生成的多选题来阐述隐私设计决策，与NIST的PRAM方法相比，在减少73%的时间的同时，识别出多47%的关键决策。

0 人收藏 0 人点赞

#user-study

评估主动式对话智能体中的多模态情绪识别：一项用户研究

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了一个用于主动对话智能体的多模态情绪识别模块，该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应，即视觉线索不可靠，而语言分析则更为准确；研究还表明，智能体可以通过对话适应性来引发情绪。

0 人收藏 0 人点赞

#user-study

“我没有做出微观决策”：在协作中衡量、引导和揭示目标层面的人工智能贡献

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

引入CoTrace，一个用于人机协作中目标层面归因的框架，该框架分析大语言模型如何通过对话回合中的具体需求和间接影响来塑造目标。

0 人收藏 0 人点赞

#user-study

超越自主性：了解自身局限的智能体之力量

Reddit r/AI_Agents ↗ · 2026-05-08

COWCORPUS项目通过对4200次人机交互的研究发现，能够预测自身失败和干预时机的智能体，比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式，并开发了完美时机评分（PTS）来衡量干预预测的准确性。

0 人收藏 0 人点赞

#user-study

2026年4月30日社会影响人们如何向Claude寻求个人指导

Anthropic Research ↗ · 2026-05-08 缓存

Anthropic发布了关于用户如何向Claude寻求个人指导的研究，重点介绍了不同领域中美言奉承率（sycophancy rates）的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考，以更好地保护用户福祉。

0 人收藏 0 人点赞

user-study

提交意见反馈