agentic-misalignment

标签

Cards List
#agentic-misalignment

对自动化工作流中代理失调的冷静审视

arXiv cs.AI · 2026-05-26 缓存

本文研究了自动化工作流中的多代理系统中的代理失调问题,提出了代理证据归因(Agentic Evidence Attribution, AEA)方法,利用上下文特定的证据纠正代理行为的不对齐。

0 人收藏 0 人点赞
#agentic-misalignment

@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…

X AI KOLs · 2026-05-08 缓存

Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。

0 人收藏 0 人点赞
#agentic-misalignment

2026年5月8日 对齐教学:教导Claude为什么

Anthropic Research · 2026-05-08 缓存

Anthropic分享了改进Claude对齐训练的经验,通过教授底层原则而非仅仅展示示例,在代理错位评估中获得了满分。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈