trustworthy-ai

标签

Cards List
#trustworthy-ai

构建AI:错误不容有失

Reddit r/AI_Agents · 2026-05-21

本文反思了在鹿特丹一家社会组织的志愿者中构建本地部署AI聊天机器人的经历,强调当AI错误带来实际后果时(例如向无家可归者提供过时的庇护所信息),其设计与工程方法必须与低风险场景有根本不同。

0 人收藏 0 人点赞
#trustworthy-ai

TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测

arXiv cs.LG · 2026-05-20

提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。

0 人收藏 0 人点赞
#trustworthy-ai

POLAR-Bench:用于LLM智能体中隐私-效用权衡的诊断基准

arXiv cs.AI · 2026-05-20 缓存

POLAR-Bench是一个诊断基准,通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力,来评估隐私-效用的权衡。结果显示,前沿模型保护了超过99%的受保护属性,但较小的开源权重模型泄露了一半以上,突显了意图遵循方面的差距。

0 人收藏 0 人点赞
#trustworthy-ai

负责任的代理AI需要显式溯源

arXiv cs.AI · 2026-05-19 缓存

本文认为,在整个代理AI生命周期的显式溯源是使责任可计算和可操作的结构性必要条件,解决了自主组合中涌现危害的责任缺口。

0 人收藏 0 人点赞
#trustworthy-ai

CiteVQA: 面向可信文档智能的证据归因基准测试

Hugging Face Daily Papers · 2026-05-13 缓存

CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。

0 人收藏 0 人点赞
#trustworthy-ai

对齐心理健康支持中的人机交互信任:多方利益相关者调查与立场

arXiv cs.CL · 2026-04-23 缓存

一项多机构调查提出了一个三层信任框架,以协调技术、临床和以人为中心的需求,打造用于心理健康支持的可信 AI。

0 人收藏 0 人点赞
#trustworthy-ai

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL · 2026-04-21 缓存

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。

0 人收藏 0 人点赞
#trustworthy-ai

大语言模型可信性无训练方法的系统研究

arXiv cs.CL · 2026-04-20 缓存

一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。

0 人收藏 0 人点赞
#trustworthy-ai

Spectron

Product Hunt · 2026-04-09

Spectron为AI应用提供值得信赖的代理记忆。

0 人收藏 0 人点赞
#trustworthy-ai

2026年4月9日政策:实践中的可信智能体

Anthropic Research · 2026-05-08 缓存

Anthropic 发布了一篇研究文章,详细阐述如何在实践中构建可信的 AI 智能体,概述了核心安全原则以及 Claude Code 和 Claude Cowork 等产品实现。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈