agentic-misalignment

#agentic-misalignment

对自动化工作流中代理失调的冷静审视

arXiv cs.AI ↗ · 2026-05-26 缓存

本文研究了自动化工作流中的多代理系统中的代理失调问题，提出了代理证据归因（Agentic Evidence Attribution, AEA）方法，利用上下文特定的证据纠正代理行为的不对齐。

0 人收藏 0 人点赞

#agentic-misalignment

X AI KOLs ↗ · 2026-05-08 缓存

Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术，包括基于伦理困境建议和宪法文件进行训练，这些方法在分布外场景中具有良好的泛化能力。

0 人收藏 0 人点赞

#agentic-misalignment

Anthropic Research ↗ · 2026-05-08 缓存

Anthropic分享了改进Claude对齐训练的经验，通过教授底层原则而非仅仅展示示例，在代理错位评估中获得了满分。

0 人收藏 0 人点赞