标签
本文反思了在鹿特丹一家社会组织的志愿者中构建本地部署AI聊天机器人的经历,强调当AI错误带来实际后果时(例如向无家可归者提供过时的庇护所信息),其设计与工程方法必须与低风险场景有根本不同。
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
POLAR-Bench是一个诊断基准,通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力,来评估隐私-效用的权衡。结果显示,前沿模型保护了超过99%的受保护属性,但较小的开源权重模型泄露了一半以上,突显了意图遵循方面的差距。
本文认为,在整个代理AI生命周期的显式溯源是使责任可计算和可操作的结构性必要条件,解决了自主组合中涌现危害的责任缺口。
CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。
一项多机构调查提出了一个三层信任框架,以协调技术、临床和以人为中心的需求,打造用于心理健康支持的可信 AI。
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。
一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。
Anthropic 发布了一篇研究文章,详细阐述如何在实践中构建可信的 AI 智能体,概述了核心安全原则以及 Claude Code 和 Claude Cowork 等产品实现。