trustworthy-ai

#trustworthy-ai

构建AI：错误不容有失

Reddit r/AI_Agents ↗ · 2026-05-21

本文反思了在鹿特丹一家社会组织的志愿者中构建本地部署AI聊天机器人的经历，强调当AI错误带来实际后果时（例如向无家可归者提供过时的庇护所信息），其设计与工程方法必须与低风险场景有根本不同。

0 人收藏 0 人点赞

#trustworthy-ai

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

arXiv cs.LG ↗ · 2026-05-20

提出TEMPO，一种策略优化方法，通过使用双模式奖励和基于GRPO的训练，训练大语言模型仅依据截止日期前的信息进行推理，将知识泄露降低2–13%，同时将任务性能提升6–13%。

0 人收藏 0 人点赞

#trustworthy-ai

POLAR-Bench：用于LLM智能体中隐私-效用权衡的诊断基准

arXiv cs.AI ↗ · 2026-05-20 缓存

POLAR-Bench是一个诊断基准，通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力，来评估隐私-效用的权衡。结果显示，前沿模型保护了超过99%的受保护属性，但较小的开源权重模型泄露了一半以上，突显了意图遵循方面的差距。

0 人收藏 0 人点赞

#trustworthy-ai

负责任的代理AI需要显式溯源

arXiv cs.AI ↗ · 2026-05-19 缓存

本文认为，在整个代理AI生命周期的显式溯源是使责任可计算和可操作的结构性必要条件，解决了自主组合中涌现危害的责任缺口。

0 人收藏 0 人点赞

#trustworthy-ai

CiteVQA: 面向可信文档智能的证据归因基准测试

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

CiteVQA 是一个面向文档视觉-语言模型的基准，它同时评估答案正确性与支持证据的引用，揭示了广泛的归因幻觉现象，即模型提供正确答案但引用错误区域。

0 人收藏 0 人点赞

#trustworthy-ai

对齐心理健康支持中的人机交互信任：多方利益相关者调查与立场

arXiv cs.CL ↗ · 2026-04-23 缓存

一项多机构调查提出了一个三层信任框架，以协调技术、临床和以人为中心的需求，打造用于心理健康支持的可信 AI。

0 人收藏 0 人点赞

#trustworthy-ai

PRISM：探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员提出了 PRISM 诊断基准，该基准将大语言模型（LLM）的幻觉拆解为四个维度（知识缺失/错误、推理错误、指令遵循错误），涵盖三个生成阶段（记忆、指令、推理），并通过评估 24 款大语言模型，揭示了各类缓解策略之间存在的权衡关系。

0 人收藏 0 人点赞

#trustworthy-ai

大语言模型可信性无训练方法的系统研究

arXiv cs.CL ↗ · 2026-04-20 缓存

一项系统性研究，评估了改进大语言模型可信性的无训练方法，将方法分为输入、内部和输出级干预，同时分析可信性、实用性和鲁棒性之间的权衡。

0 人收藏 0 人点赞

#trustworthy-ai

Spectron

Product Hunt ↗ · 2026-04-09

Spectron为AI应用提供值得信赖的代理记忆。

0 人收藏 0 人点赞

#trustworthy-ai

2026年4月9日政策：实践中的可信智能体

Anthropic Research ↗ · 2026-05-08 缓存

Anthropic 发布了一篇研究文章，详细阐述如何在实践中构建可信的 AI 智能体，概述了核心安全原则以及 Claude Code 和 Claude Cowork 等产品实现。

0 人收藏 0 人点赞

trustworthy-ai

提交意见反馈