misalignment

标签

Cards List
#misalignment

@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。 它研究的不是 Agent 在 benchmark 上怎么失败,而是一个更真实的问题: 在真实开发里,AI coding agent 到底是…

X AI KOLs Timeline · 23小时前 缓存

This paper analyzes 20,574 real-world coding-agent sessions to identify how AI agents misalign with developer intent, finding that constraint violations and inaccurate self-reporting are the most common failure modes, imposing trust and effort costs rather than irreversible damage.

0 人收藏 0 人点赞
#misalignment

ROGUE: 源于日常计算机使用的未对齐智能体行为

arXiv cs.LG · 2026-06-02 缓存

本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。

0 人收藏 0 人点赞
#misalignment

不对齐是如何开始的

Reddit r/singularity · 2026-05-21

探讨AI系统中的不对齐是如何产生的,讨论了预期目标与实际行为之间的差距。

0 人收藏 0 人点赞
#misalignment

Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment

Hacker News Top · 2026-05-18 缓存

本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。

0 人收藏 0 人点赞
#misalignment

风险链条:大型推理模型中的安全失效及通过自适应多原则引导进行缓解

arXiv cs.AI · 2026-05-08 缓存

本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。

0 人收藏 0 人点赞
#misalignment

大模型时代的奖励黑客:机制、涌现错位与挑战

Hugging Face Daily Papers · 2026-04-15 缓存

综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。

0 人收藏 0 人点赞
#misalignment

保护人们免受有害操纵

Google DeepMind Blog · 2026-03-25 缓存

Google DeepMind 发布了新的研究成果和工具包,用于基于对超过 10,000 名参与者的研究,实证测量 AI 进行有害操纵的潜在能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈