标签
本文研究了自动化工作流中的多代理系统中的代理失调问题,提出了代理证据归因(Agentic Evidence Attribution, AEA)方法,利用上下文特定的证据纠正代理行为的不对齐。
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
Anthropic分享了改进Claude对齐训练的经验,通过教授底层原则而非仅仅展示示例,在代理错位评估中获得了满分。